预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第58卷第14期2014年7月 一种基于句法分析的情感标签抽取方法* ■李纲刘广兴毛进叶光辉 [摘要]指出情感标签由评价对象和情感词组成,包含评论的关键要素,能清楚地表达评价者的观点意 见。提出一种针对产品网络评论的情感标签抽取模型,利用依存句法分析设计情感标签抽取算法,通过情感极 性计算对抽取出的情感标签进行过滤。通过放宽的抽取规则与情感极性过滤相结合,以提高情感标签的召回 率,实现潜在评价对象的抽取。最后用网络抓取的产品评论语料作为测试数据集对模型进行测试,获得较高的 抽取准确率和召回率,并对模型中存在的问题进行总结,作为模型改善的指导。 [关键词]情感标签观点挖掘依存句法分析产品评论 [分类号]TP391.3 DOI:10.13266/j.issn.0252-3116.2014.14.002 点词关系的抽取观点词的抽取有两种方式:一种 1引言。 是基于词性的直接抽取,包括词组模式[3]、情感词典 ,[] 随着电子商务的快速发展商品或服务的交易越构建4-5等方法;另一种是基于观点词评论对象识别 来越多地在互联网上发生根据年月中国互[] 。20141的间接抽取,包括基于共现规则的抽取方法2、基于 联网信息中心()发布的第次中国互联网[] CNNIC33《句法分析的抽取模型6。两种抽取方式存在着一定 络发展状况统计报告》,截至2013年12月,我国网民的性能差异,主要表现为:直接抽取不容易遗漏情感 网络应用中网络购物用户规模达3.02亿,使用率达词汇,准确性也比较高,但是不容易得到观点词的评 到48.9%。随着网络购物的不断发展和用户量的增论对象及相互之间的关系;间接抽取可以一步完成 多,利用的强交互性,顾客在互联网交易平 Web2.0“评论对象-观点词”意见对的抽取,但是在评价对 台上发表产品或服务评论的行为越来越频繁,线上象隐含的情况下容易遗漏观点词,而且由于评论对 产品或服务的评论信息量急剧增加。这些评论包含象种类的不确定性,评论对象词库构建起来比情感 , 顾客对产品的功能、性能等方面的观点具有巨大的词典复杂很多。观点词情感极性的研究则集中关注 价值。线上商家和顾客可以通过分析评论获取有用如何通过规则或方法的设计来量化情感倾向及其程 [2] 的信息以辅助决策,但是由于评论信息存在数量度,目前主要有3种方法:基于词典的语义距离计算 大、内容繁杂、非结构化等特点,对评论信息的分析方法[7-8]、基于语料库的语义关联方法[9-10]和基于机 需要运用自然语言处理技术中观点挖掘的相关理论器学习的文本情感分类方法[11-12]。 及技术,抽取出关于产品的评价观点。目前在观点挖掘的研究中,对篇章和语句整体情 观点挖掘的研究主要分为两个方面:①观点词感极性的计算方面已经取得了比较好的效果。然而, 或观点句抽取方法及技术;②观点词或观点句情感对语句中各语义成分及其对应关系的识别方面,还没 极性计算。观点词的抽取与情感极性的判定是观点有形成十分有效的解决方案。具体的问题在于:情感 句抽取与情感极性计算的基础,在此本文重点关注。词和评价对象的识别精度和鲁棒性不高;情感的上下 观点词抽取包括观点词本身的抽取和评价对象与观文极性研究不足;隐式评价对象识别的研究欠缺 *本文系国家自然科学基金项目“科研团队动态演化规律研究”(项目编号:71273196)、北京市财政项目“大数据环境下情报服务规范化体系 建设”(项目编号:PXM2013_178214_000010)和武汉大学自主科研项目(人文社会科学)“网络视角下的应急情报体系建设主题研究”(项目编 号:274014,得到“中央高校基本科研业务费专项资金”资助)的研究成果之一。 [作者简介]李纲,武汉大学信息资源研究中心副主任,教授,博士生导师;刘广兴,武汉大学信息管理学院硕士研究生,通讯作者,E-mail: lgx1431@126.cOm;毛进,武汉大学信息资源研究中心博士研究生;叶光辉,武汉大学信息管理学院博士研究生。 收稿日期:2014-04-10修回日期:2014-05-12本文起止页码:12-20本文责任编辑:刘远颖 21 第58卷第14期2014年7月 等[13]。相较于篇章和语句整体情感极性的计算,语句系细粒度地抽取出来。 语义层面的挖掘有着更深远的价值,例如文章自动摘S.M.Kim等认为一个观点(OpiniOn)由主题、意见 要、新闻事件识别、本体构建自动化等方面都依赖于句持有者、情感描述项和褒贬倾向性4个部分来描述,即 子语义层面的挖掘。意见挖掘的最终目标是挖掘评论意见持有者针对某一特定主题表达出的具有某种褒贬 者对产品属性、功能的态度或评价,因此在句子粒度上倾向的情感描述[15]。在产品评论的观点挖掘中,意见 识别各语义成分及其相互关系是产品评论挖掘的一个持有者