预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110334811A(43)申请公布日2019.10.15(21)申请号201910571906.1(22)申请日2019.06.28(71)申请人西安理工大学地址710048陕西省西安市碑林区金花南路5号(72)发明人姚全珠范慧敏费蓉王晓帆赵佳瑜李莎莎(74)专利代理机构西安弘理专利事务所61214代理人王蕊转(51)Int.Cl.G06N7/00(2006.01)G06F16/906(2019.01)权利要求书1页说明书4页附图1页(54)发明名称基于贝叶斯网络的动态数据流分类方法(57)摘要本发明公开了一种基于贝叶斯网络的动态数据流分类方法,从互联网应用中采集关于用户点击新闻的批量数据,将所有数据分为若干数据块,所有数据块以流的形式呈现并留待之后处理,先在第一个数据块上使用朴素贝叶斯算法建立朴素贝叶斯模型,将数据块放入数据集中并进行分类取得数据块中每条数据的权重并校正、剔除,直到数据流的分类过程完成。本发明解决了现有技术中存在的朴素贝叶斯分类器处理存在概念漂移和数据转移的动态数据流时分类性能大大降低的问题。CN110334811ACN110334811A权利要求书1/1页1.基于贝叶斯网络的动态数据流分类方法,其特征在于,具体按照以下步骤实施:步骤1、从互联网应用中采集关于用户点击新闻的批量数据,将所有数据分为若干数据块,每个数据块包含10000条数据,其中每个数据块表示互联网应用中某一时间段采集到的数据,所有数据块D1,D2,...Di...,Dn以流的形式呈现并留待之后处理,n表示数据块的个数,先在第一个数据块D1上使用朴素贝叶斯算法建立朴素贝叶斯模型,将数据块D1放入数据集D中;步骤2:针对第i个数据块Di,使用步骤1中建立的朴素贝叶斯模型对Di进行分类,得到数据块Di的10000条数据的类别,采用最大权重计算公式取得数据块Di中每条数据的权重,并使用权重衰减的遗忘加权公式校正Di中每条数据的权重;步骤3:将数据块Di合并入数据集D,剔除D中权重小于0.1的所有数据,随后在数据集D上基于更新后的权值采用朴素贝叶斯算法建立朴素贝叶斯模型;步骤4:重复步骤2和步骤3,直到处理完数据流上的最后一个数据块Dn,数据流的分类过程完成。2.根据权利要求1所述的基于贝叶斯网络的动态数据流分类方法,其特征在于,所述步骤2中当处理到第k个数据块Dk时,使用步骤1中建立的朴素贝叶斯模型对数据块Dk进行分类,得到数据块Dk的10000条数据的类别,朴素贝叶斯分类模型如下:其中,cm表示第m个类别,p(cm|a1,a2,...,af)表示在特征为a1,a2,...,af时类别为cm的概率,p(cm)表示所有样本中类别为cm的概率,f为给定特征个数,aj表示第j个特征,p(aj|cm)表示类别为cm的样本包含特征aj的概率,M表示类别个数。3.根据权利要求2所述的基于贝叶斯网络的动态数据流分类方法,其特征在于,所述步骤2中采用最大权重计算公式取得数据块Dk中每条数据的权重,因为权重的目的在于提高最近到达的数据块中的实例的重要程度,因此对于来自当前流块Dk的所有实例,为其分配最大权值1,最终得到加权后的实例集,最大权重计算公式为其中xi表示第i条数据,Dk表示第k个数据块,wi表示第i条数据的权值。4.根据权利要求3所述的基于贝叶斯网络的动态数据流分类方法,其特征在于,所述步骤2中使用权重衰减的遗忘加权公式校正数据集Dk中每条数据的权重;权重衰减的遗忘加权公式如下:其中,k表示第k个数据块,表示权重更新之前第i条数据的权重,表示当新数据块Dk到达开始处理处理时第i条数据的权重,β表示遗忘因子。2CN110334811A说明书1/4页基于贝叶斯网络的动态数据流分类方法技术领域[0001]本发明属于计算机自然语言处理、数据挖掘技术领域,具体涉及一种基于贝叶斯网络的动态数据流分类方法。背景技术[0002]随着大数据时代的到来,在线数据大幅增加,实时挖掘海量数据流已成为机器学习领域面临的一大挑战。在线学习方法通过对数据的逐条处理,并利用增量式更新模型的方法实现了海量数据的实时处理,受到了研究人员的广泛关注。在众多专用于数据流分类和在线学习的算法中,NaiveBayes分类器由于其简单性、在线性以及对时间和内存的低要求成为一种极具吸引力的方法。但朴素贝叶斯分类器并没有检测和处理概念漂移的机制,因此当出现数据非静止情况时会严重影响其分类性能。发明内容[0003]本发明的目的是提供一种基于贝叶斯网络的动态数据流分类方法,解决了现有技术中存在的朴素贝叶斯分类器处理存在概念漂移和数据转移的动态数据流时分类性能大大降低的问题。[0004]本发明所采用的技术方案是,基于贝叶斯网络的动态数