预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于朴素贝叶斯模型的虚假新闻过滤算法研究【摘要】社交媒体是一个高度开放和自由的互联网信息传播平台。随着信息媒体数量的增加随着自媒体的出现每个人都可以在微信微博等平台上发布和接收信息。由于信息量巨大准入和访问机制低给信息交流带来了极大的便利同时也出现了大量的谣言。虚假新闻的负面效应极大地影响了国家和社会的和谐稳定和个人日常生活。因此如何自动有效地识别谣言成为相关领域的研究热点。针对日常中的假新闻问题提出一种自动识别虚假新闻的办法该方法利用计算词向量相关度结合朴素贝叶斯模型。实验结果显示该模型在45548个数据集上能够有效识别虚假新闻验证所提出的方法的可行性和有效性。【关键词】谣言识别机器学习朴素贝叶斯前言自从移动互联网2.0时代的到来中国网民数量开始极具增长据统计中国网民数量如今已突破八亿。互联网给人们带来便利的同时也带了信息爆炸。拿新网微博来说截至2015年微博日活跃用户达2.2亿人每天能够产生1亿条微博。移动互联网在给公众带来信息便利的同时也充斥着大量谣言。如今年新冠肺炎疫情中网络流传由于全球疫情大米进口量会受到抑制所以大米会涨价导致大批民众开始囤积大米有的甚至囤了一年也吃不完的大米最后还需要官方辟谣。为了抑制谣言学术界和相关部门都都开展过研究例如微博由经验丰富的专家组成的辟谣团每天24小时对微博实时监控及时删除谣言微博同时还采取了谣言众包的模式每个用户都是谣言监督员都有权力对谣言微博进行举报但是由于个人知识有限性普通大众可能也无法对于一些专业性问题进行辨别同时通过专家辟谣的方式时效性慢往往辟谣速度远低于谣言传播速度而且人工判断需要耗费大量的资源。同时随着自然语言处理的发展学术界提出了一些解决方案。相关技术介绍1.机器学习谣言识别可以看作是分类问题而在机器学习中处理分类问题的经典方法有支持向量机朴素贝叶斯决策树逻辑回归集成学习方法等这些模型均属于监督学习监督学习基于先验知识。其中样本特征为X={x1x2x3....xn}表示样本集的n个特征而通过机器学习模型学习特征然后通过条件概率分布P(Y|X)或决策函数Y=f(x)来对新的样本进行预测或者分类分类或预测结果就是模型的输出。2.TF-IDF词频计算TF-IDF(TermFrequency-InverseDocumentFrequency词频-逆文件频率)根据官方文档解释是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加但同时会随着它在语料库中出现的频率成反比下降即一个词语在一篇文章中出现次数越多但是在所有文章中出现次数越少越能够代表该文章含义。词频(termfrequencyTF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数)以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频而不管该词语重要与否。其中n代表该词语在该篇文章中出现的次数n代表语料库所有词语数。某一特定文件内的高词语频率以及该词语在整个文件集合中的低文件频率可以产生出高权重的TF-IDF。因此TF-IDF倾向于过滤掉常见的词语保留重要的词语。3.朴素贝叶斯贝叶斯原理是英国数学家托马斯·贝叶斯提出的贝叶斯提出逆向概率概念尝试解答在没有太多可靠证据的情况下怎样做出更符合数学逻辑的推测。朴素贝叶斯它是一种简单但极为强大的预测建模算法。之所以称为朴素贝叶斯是因为它假设每个输入变量是独立的这个假设现实生活中能够满足的场景不多但是这项技术对于绝大部分的复杂问题仍然非常有效。在朴素贝叶斯原理中有三个重要的概念即先验概率条件概率后验概率。假设有两个分类C1C2。其中每個类别有属性A1A2A3。我们的目的是在知道一个类别的特征属性的情况下如何判别它的类别。对待预测样本进行预测朴素贝叶斯模型计算过程简单速度快。对于多分类问题也同样很有效复杂度也不会有大程度上升。在分布独立这个假设成立的情况下贝叶斯分类器效果会略胜于逻辑回归同时模型需要的样本量更少。即使在现在这种分类