预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共38页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

苏州大学本科生毕业设计(论文)本科毕业设计(论文)学院(部)计算机科学与技术学院题目基于lda的文本情感分析年级2014专业信息管理与信息系统班级14信管学号1427402014姓名何聪指导老师严建峰职称副教授论文提交日期2019年5月19日目录摘要1前言3第一章概述41.1情感分析概述41.1.1主要研究内容41.1.2文本情感分析的分类51.1.3主题模型在情感分析中的应用61.2国内外研究现状61.3本文内容安排7第二章数据预处理82.1概述82.2分词以及简繁体转换82.3去除停用词82.4抽取情感信息92.4.1情感词典的构建92.4.2抽取情感信息92.4.3数据92.5本章小结10第三章LDA建模113.1LDA概念113.1.1概率主题概念的提出113.1.2LDA模型123.2实验133.2.1划分数据集133.2.2数据词典133.2.3向量化143.2.4使用tf-idf作为特征值153.2.5LDA模型训练163.3本章小结17第四章SVM分类184.1SVM概念184.1.1线性分类184.1.2软间隔最大化204.1.3非线性支持向量机204.2本文中的SVC224.2.1算法描述224.3实验234.3.1特征选取234.3.2数据转换244.3.3将数据随机分为训练集和测试集244.3.4SVM训练和预测254.3本章总结25第五章贝叶斯分类265.1概念265.2贝叶斯定理265.2.1朴素贝叶斯265.2.2伯努利模型275.3本文中的朴素贝叶斯275.3.1算法描述275.3实验285.3.1特征选取285.3.2向量化285.3.3朴素贝叶斯分类训练285.3.4测试285.3.5准确率295.4本章总结30第六章总结与展望316.1本文主要内容总结316.2存在的问题以及未来展望31参考文献33致谢3434摘要互联网的快速发展让各类社交媒体与日俱增,人们在网络上发表各种各样的评论、博客等信息。这些信息很大一部分表达了用户的情感倾向,如微博评论可能表达对某个明星的喜爱,虎扑评论可能表达对某个球队的支持和狂热,去哪儿、蚂蚁蜂窝等网站上的酒店评论集表达了客户对该酒店的喜爱程度,也侧面表达出该酒店的好坏层度。评论集这种简练却信息丰富的数据集具有重要的研究价值。情感分析,也称意见抽取、意见挖掘和倾向性分析[8]。主要是通过对带有情感色彩的主观性文本进行分析、处理、归纳然后进行推理的过程[1]。本文对酒店评论数据集进行了如下的工作:首先,整合网络上表现较好的情感词典,然后将数据集进行常见的预处理操作,包括去掉停用词等操作,根据情感词典抽取数据集中的极性词。其次,对预处理过后的文本进行LDA建模,其目的是以文档-主题分布取代文档-词矩阵,从而实现降维的效果。最后分别使用SVM和贝叶斯分类器,以LDA中得到的文档-主题分布作为特征向量,来对文本进行分类。这些情感信息具有宝贵的作用,当评论非常多时,我们不可能人工地去观察每一条评论。通过情感分析,我们可以了解客户的心情,对某件事情或者物品的看法,从而挖掘其中潜在的商业价值。关键词:情感分析文本分类支持向量机数据挖掘主题模型LDA朴素贝叶斯AbstractWiththerapiddevelopmentoftheInternet,variouskindsofsocialmediaareincreasingdaybyday,andpeoplepublishvariouskindsofcomments,blogsandotherinformationontheInternet.Alargepartofthisinformationexpressesauser'semotionaltendencies,suchasamicro-blogcommentthatmayexpressaloveforastar,thetigerreviewmayexpressthesupportfanaticismofateam,wherethehotelreviewsonsitessuchastheanthoneycombexpressthedegreeofcustomerloveforthehotel.Commentingonthisconcisebutinformativedatasethasimportantresearchvalue.Affectiveanalysis,alsocalledopinionextraction,opinionminingandtendentiousnessanalysis.Itismainlythroughtheanalysis,processing,inductionandreasoningprocessofsubjectivetextwithe