预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号(10)申请公布号CNCN103678512103678512A(43)申请公布日2014.03.26(21)申请号201310608553.0(22)申请日2013.12.26(71)申请人大连民族学院地址116000辽宁省大连市大连经济技术开发区辽河西路18号(72)发明人姚远(74)专利代理机构大连博晟专利代理事务所(特殊普通合伙)21236代理人于忠晶(51)Int.Cl.G06F17/30(2006.01)G06K9/66(2006.01)权利要求书3页权利要求书3页说明书9页说明书9页(54)发明名称一种动态数据环境下的数据流混合分类方法(57)摘要本发明涉及智能信息处理技术领域,公开了一种动态数据环境下的数据流混合分类方法,本发明采用集成学习和混合模型框架构建数据流分类模型,可以适应数据流的海量性、实时性和动态变化性三种特点的要求,并提高数据流分类的准确率。其中,集成学习模型利用了集成学习理论相关内容,通过使用多个分类器进行分类,提高分类效果和适应数据流动态性的能力。此外,聚类方法对分类结果进行汇总,有效利用分类结果之间的内部关系,有利于提高分类准确率,减少因分类所消耗时间。CN103678512ACN10367852ACN103678512A权利要求书1/3页1.一种动态数据环境下的数据流混合分类方法,具体包括以下步骤:步骤1:动态数据流收集模块(102)从海量实时数据流(101)中按照时间顺序收集数据;步骤2:数据流划分模块(103)读取步骤1中的数据流数据,并且根据数据流数据的时间先后关系对数据流进行划分;所述数据流初始化模块(103)划分得到的数据块中,包含3类数据分别是训练集、验证集和测试集,每个数据集中所包含的数据样本数量为N;N是固定变量,由使用者提前设定;步骤3:将经过数据流划分模块(103)所得到的三种静态数据集即训练集、测试集和验证集输入到数据初始化模块(104),对静态数据集进行归一化处理;步骤4:将经过数据初始化模块(104)处理后的训练集数据输入到集成分类器模块(105)中,所述集成分类器模块(105)使用训练集数据进行训练,构建集成分类器模型;步骤5:利用参数优化模块(106)对步骤4中集成分类器模型进行参数优化;步骤6:将经过数据初始化模块(104)处理后的验证集输入到步骤5优化后的集成分类器中,得到的数据类别标签为数据集L;步骤7:将数据集L输入到聚类模块(107)中,对所使用的聚类模型进行训练;步骤8:将数据初始化模块(104)所得到的测试集数据输入到所构建的混合分类模型中,完成数据流分类过程。2.根据权利要求1所述的一种动态数据环境下的数据流混合分类方法,其特征在于,所述步骤2中数据流划分模块(103)对数据流的划分,包括以下步骤:步骤2.1:首先使用滑动窗口法对海量实时数据流进行静态化处理;其中,滑动窗口每次滑动的距离为N,且每个静态子集所包含的样本数量也为N个;步骤2.2:使用随机抽取方法对步骤2.1所得到的子集进行混合,分别得到三个数据集,即训练集、测试集和验证集,其中训练集和测试集的大小均为4N。3.根据权利要求1所述的一种动态数据环境下的数据流混合分类方法,其特征在于,所述步骤3中数据初始化模块(104)采用MapMinMax归一化方法对数据进行归一化处理,包括以下步骤:步骤3.1:首先将得到的训练集、测试集和验证集,分别对其各个属性值进行统计,找到各属性的最大和最小属性值;步骤3.2:对数据集的各个属性进行归一化处理,所述归一化方法公式为:其中,xi表示当前样本的第i个属性值,min(xi)和max(xi)分别表示当前第i个属性的最小和最大值,ymax和ymin分别表示归一化的上限和下限,如果想归一化到[0,1]区间时,则ymax为1,ymin为0。4.根据权利要求1所述的一种动态数据环境下的数据流混合分类方法,其特征在于,所述步骤4中数据集成分类器模块(105)采用支持向量机模型作为基本分类模型对数据流2CN103678512A权利要求书2/3页进行分类,并构建集成分类器,包括以下步骤:步骤4.1:首先使用两种支持向量机模型作为基本分类模型,即C-SVM和ν(nu)-SVM模型;步骤4.2:使用三种个函数对上述两种支持向量机模型进行划分,得到六个不同的支持向量机分类模型,其中,所使用核函数为线性核函数、高斯径向基核函数和Sigmoid核函数;步骤4.3:对得到的集成学习模型进行训练。5.根据权利要求1所述的一种动态数据环境下的数据流混合分类方法,其特征在于,所述步骤5中参数优化模块(106)对所构建的集成分类器进行参数优化,所使用优化方法为粒子群算法,优化过程包含以下步骤:步骤5.1:首先将