预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共65页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

北京信息科技大学硕士学位论文产品网络评论挖掘研究姓名:江敏申请学位级别:硕士专业:计算机应用技术指导教师:肖诗斌20081208摘要随着电子商务的迅速发展网络上涌现了许多购物网站和产品论坛这些购物网站和产品论坛不只介绍商家的产品还为消费者提供了发表评论的平台消费者能及时的将对商品的评论反馈给商家以及那些潜在的消费者。越来越多的人在做出消费决策前喜欢先到互联网上参考用户和媒体对某产品的评论和报道信息。但是互联网上的信息数量巨大全部阅读这些评论来帮助做出决策十分困难所以急需一种有效的文本挖掘方法应用在观点评论上。评论挖掘是文本挖掘的一个应用。文中简述了文本挖掘的概念和文本挖掘的技术方法然后介绍了评论观点挖掘的处理方法以及涉及的技术包括领域词的获取、词语相似度的计算、构建情感词典计算文本情感倾向、句法分析等技术。本文通过简单候选领域词┱沽煊虼使说姆椒ǖ玫阶钪盏牧煊虼省J笛榻峁本文还研究了利用《知网》计算词语相似度的计算方法。《知网》含有丰富的词汇语义知识和世界知识内部结构复杂是一部比较详尽的语义知识词典。在情感倾在本文第五章构建了一部基本情感词典和一部领域情感词典。根据这些情感词典就可以计算文本的情感倾向度了。本文在计算文本情感倾向度时还考虑了情感词的词性、否定词、程度副词、词语特征向量对情感词情感倾向度的影响取得了较好第六章中对指代消解、句法分析技术做了一些探讨并利用句法分析树挖掘主题词与情感词的匹配关系。基于上述方法本文搭建了一个基于互联网的产品评论挖掘系统。该系统结果以直观的报表形式展现用户可以从中得到一些非常有价值的信息。关键字:评论挖掘;领域词;情感词;情感分析;句法分析表明使用本文中的两步走的方法确实能提高领域词获取的准确率。向识别试验中达到了%以上的准确率。的实验结果。摘要瓹甌甌.甌.篟甅琧瑂琣瑆琒..膕瑃畇%..琣疭瑃.甀..琻琩..⋯文写一学位论文版权使用授权书权书。ⅲ郝畚氖艄ǹB畚牡模髡呒暗际Ρ敬Σ磺┳本人完全了解北京信息科技大学关于收集、保存、使用学位论文的规定同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版并采用影印、缩印、术信息研究所等国家有关部门或者机构送交论文的复印件和电子版;在年扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向中国科学技不以赢利为目的的前提下学校可以适当复制论文的部分或全部内容用于学术活动。经指导教师同意本学位论文属于保密在年解密后适用本授指导教师签名:学位论文作者签名:月日●●●●●●一瘛瘛瘛瘛●●●●褚●●弧駉●弧褚兑灰籵褚弧籵瘛瘛姊月乡荻硕士学位论文原创性声明辍荨作者签字:ⅲ痶位论文是本人在导师指导下进行研究工作所取得的成果。尽我所知除文中已经注明引用的内容外本学位论文的研究成果不包含任何他人本人郑重声明:所呈交的论文题目为《产品网络评论挖掘研究》学创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。作者签字:第一章绪论研究背景研究现状可以充分利用这些文本数据的新的信息处理技术——文本挖掘随着互联网的大规模普及和企业信息化程度的提高各种资源呈几何爆炸式增长有专家估计平均每个月信息量就翻一番而且能被利用的数据只有ァ然而相关研究指出全球前名的企业组织的资料超过%都是非结构化的文本信息形式如企业技术报告、市场报告、各种文书、担保材料、呼叫中心的客户投诉记录、交互式访谈或客户发送的甿饧蚪ㄒ椤⑵笠低獠坑绕涫峭嫌胄幸发展有关的新闻报道、产品与技术报道以及竞争对手的动向等等。对于这种半结构或无结构化的数据用传统方法获取特定内容信息的手段却较弱导致信息搜寻困难和信息利用率低下。文本表达了大量的、丰富的信息同时包含了许多未被所有者发现的潜在知识。面对浩瀚的文本资源传统的文档和文本处理工具己经不能满足用户的需求。面对如此庞大的数据如何提高数据的利用率增加企业