预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107590263A(43)申请公布日2018.01.16(21)申请号201710864745.6(22)申请日2017.09.22(71)申请人辽宁工程技术大学地址123000辽宁省阜新市细河区中华路47号(72)发明人张宇(74)专利代理机构沈阳东大知识产权代理有限公司21109代理人胡晓男(51)Int.Cl.G06F17/30(2006.01)权利要求书1页说明书9页附图11页(54)发明名称一种基于多变量决策树模型的分布式大数据分类方法(57)摘要一种基于多变量决策树模型的分布式大数据分类方法,包括:局部节点利用中心节点共享的集成分类器对随机在线到达的未知类别标签样本进行分类,并将已知类别标签样本且可信度超过预设阈值的样本存入数据集;数据集的容量超过预设阈值时发送给中心节点,清空数据集;中心节点合并局部节点发送的数据集生成训练样本集,训练基于几何轮廓相似度的多变量决策树模型,将多变量决策树模型作为基分类器加入集成分类器,并定期更新集成分类器;将集成分类器共享给局部节点,局部节点利用集成分类器对在线到达的流式大数据进行分类。将基于几何轮廓相似度的多变量决策树应用于集成分类器,有效解决规范化数据形态的分布流式大数据分类问题。CN107590263ACN107590263A权利要求书1/1页1.一种基于多变量决策树模型的分布式大数据分类方法,其特征在于,包括:局部节点利用中心节点共享的集成分类器对随机在线到达的未知分类标签样本进行分类并标记类别标签,并将已知类别标签且可信度超过预设阈值的样本存入数据集;当数据集的容量超过预设阈值时,将其发送给中心节点,然后清空数据集;中心节点合并局部节点发送的数据集生成训练样本集,利用训练样本集训练基于几何轮廓相似度的多变量决策树模型;中心节点将多变量决策树模型作为基分类器加入集成分类器,并定期更新集成分类器;中心节点将集成分类器共享给局部节点,局部节点利用集成分类器对在线到达的流式大数据进行分类。2.根据权利要求1所述的基于多变量决策树模型的分布式大数据分类方法,其特征在于,所述利用训练样本集训练基于几何轮廓相似度的多变量决策树模型,具体包括:利用几何轮廓相似度函数把m维空间下的不同类别的样本点投影到一维空间的数轴上,不同类别的投影点集合的上下边界即不同类别样本数据的类别投影边界;利用类别投影边界对一维空间的数轴上的投影点进行排序、分组,得到一组有序投影点集合,将有序投影集合划分为多个子集,将差集中的投影点标记为叶子节点;将交集中的投影点标记为中间节点;在最优基准向量的引导下,采用递归投影分裂方法,确定多变量决策树模型。3.根据权利要求2所述的基于多变量决策树模型的分布式大数据分类方法,其特征在于,所述在最优基准向量的引导下,采用递归投影分裂方法,确定多变量决策树模型,包括:计算当前各投影点子集的交集最小即投影点子集之间几何轮廓相似度最大时的基准向量即最优基准向量;对叶子节点重新投影,形成新的有序投影点集合,使其父节点中的不同类别样本点分离开,重新计算当前各投影点集合中各子集的交集最小即投影点子集之间几何轮廓相似度最大时的基准向量即最优基准向量;如果满足投影点子集之间的交集为空,或投影点子集之间交集中的样本点数量小于预设阈值,停止分裂,得到最终的多变量决策树模型。4.根据权利要求1所述的基于多变量决策树模型的分布式大数据分类方法,其特征在于,所述几何轮廓相似度函数利用样本间以及样本内特征变量之间的相似性来度量多维对象间的相似性。2CN107590263A说明书1/9页一种基于多变量决策树模型的分布式大数据分类方法技术领域[0001]本发明涉及大数据分类技术领域,具体涉及一种基于多变量决策树模型的分布式大数据分类方法。背景技术[0002]分类是数据挖掘的重要任务之一,也是机器学习、模式识别和人工智能等相关领域广泛研究的问题。分类在实际中有广泛的应用,包括医疗诊断、信用评估、选择购物、人脸识别等。[0003]云计算、物联网、移动互连、社交媒体等新兴信息技术和应用模式的快速发展,促使全球数据量急剧增加,推动人类社会迈入大数据时代。大数据蕴含大信息,大信息提炼大知识,大知识将在更高的层面、更广的视角、更大的范围帮助用户提高洞察力、提升决策力,将为人类社会创造前所未有的重大价值。但与此同时,这些总量极大的价值往往隐藏在大数据中,表现出了价值密度极低、分布极其不规律、信息隐藏程度极深、发现有用价值极其困难的鲜明特征。相比传统的数据分类,这类大数据的分类挖掘面临着许多挑战。首先,传统的分类挖掘方法以单一学习样本集为基础,而大数据的分布式收集特性决定分类学习需要分布式进行,因而对应的分布式学习策略和方法需要研究;其次,动态流