预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

中文比较句的自动识别摘要:评价文本的比较句识别是比较句情感分析的一项基础任务具有重要的研究价值。提出中文比较句自动识别的方法首先对包含至少一个关键词的候选比较句进行抽取从而形成候选比较句集合而后通过对候选比较句集合采用多特征融合的分类方法进行分类。实验结果表明比较句识别的性能达到87.26%的F1值。关键词:评价文本;情感分析;比较句识别;多特征融合中图分类号:TP391文献标识码:A文章编号:2095-2163(2015)04-AutomaticIdentifyChineseComparativeSentencesWANGWeiZHAOTiejunXUBingZHENGDequan(MachineIntelligenceandTranslationLaboratoryHarbinInstituteofTechnologyHarbin150001china)Abstract:Comparativesentenceidentificationinevaluativetextisanessentialtaskincomparativesentimentanalysiswhichhasimportantresearchvalue.ThispaperproposesacomparativesentenceidentificationmethodinChinese.Firstextractcomparativecandidateswhichcontainatleastakeywordtoformasetofcomparativecandidates.Thenidentifycomparativesentencesfromthesetofcandidatesbasedonfeaturefusion.TheexperimentresultshowstheF1-scoreis87.26%.Keywords:EvaluativeText;SentimentAnalysis;ComparativeSentenceIdentification;FeatureFusion0引言比较是一种重要的观点表达方式和具有一定价值的认知方式。人们可以通过比较来认识未知事物通过比较判断多种相似事物的高下优劣以及通过比较获取各种决策的依据比较影响着日常生活。在Web2.0时代随着网络社会化媒体的快速发展越来越多的用户已经从单纯的网络信息的阅读者转变为网络信息的创造者和参与者。这些用户在博客、微博、论坛、讨论组等社会媒体中发表评论和比较观点创造了大量的主观性文本对这些主观性文本、尤其是其中的比较文本进行挖掘可以更快速地获取有价值的信息更真实地了解社情民意具有重要的现实和研究意义。比较句识别的处理对象是用户的评论文本其任务就是从评论文本中识别出具有比较含义的句子可以将该任务看作比较句和非比较句的二元分类任务。一些典型的比较句通常含有指示比较的关键词如“比”“相似”“不同”等这些词能够表达实体之间的比较关系在比较句识别中起着重要的作用。然而含有这些指示词的句子未必都是比较句如“A的性能比较好”类似地不含指示词的句子也可能是比较句如“手机A有GPS功能而手机B没有该功能”。因此提出有效的方法实现比较与非比较信息的分类是比较句情感分析的一项重要任务。本文尝试使用有监督方法对比较与非比较信息进行分类。具体地讨论了如何根据比较的类别提取候选比较句以及如何利用句子内部的词语和模式特征进行分类。基于候选比较句的识别结果对比较与非比较句进行分类从而识别出比较句。实验表明比较信息分类能够达到87.26%的F1值基于支持向量机的方法可以有效识别出比较信息同时基于比较句候选识别的方法可以有效平衡分类数据。1相关工作与比较观点相关的工作主要集中于语言学和计算语言学两个领域。在语言学领域一些研究者对中文比较句的指示词、句法形式、语义含义和分类体系等方面进行了研究。SHANGPing[1]对现代汉语中比较句的各种分类体系进行了总结认为比较句的研究需要坚持语义与句法形式的充分结合同时采用简单明了的分类体系划分方法。CHEN[2]等人研究了比较句中语法项目的选取与排序同时对常用的20种汉语比较句句式进行了总结并对每一种句式的使用频率及该句式的语法项目选择及排列情况进行了统计。CHEJing[3]对现代汉语比较句的句式范围进行了