预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN105912525A(43)申请公布日2016.08.31(21)申请号201610226711.X(22)申请日2016.04.11(71)申请人天津大学地址300072天津市南开区卫津路92号(72)发明人喻梅赵永伟高洁于健王建荣吕方(74)专利代理机构天津市北洋有限责任专利代理事务所12201代理人杜文茹(51)Int.Cl.G06F17/27(2006.01)权利要求书1页说明书3页附图2页(54)发明名称基于主题特征的半监督学习情感分类方法(57)摘要一种基于主题特征的半监督学习情感分类方法,包括:将数据文本进行预处理、文本分词及词性标注;进行特征选择,抽取文本的传统特征,还利用LDA建模技术抽取文本的主题特征;在保留半监督学习框架下,将得到的文本的传统特征和文本的主题特征作为数据集,分别用SVM算法和最大熵算法进行分类训练。本发明可以实现更精确的情感特征分类。为电子商务和社交网络的文本情感分类技术提供了一种新的思路。用户能更有效的寻找适合自己的服务。CN105912525ACN105912525A权利要求书1/1页1.一种基于主题特征的半监督学习情感分类方法,其特征在于,包括如下步骤:1)将数据文本进行预处理、文本分词及词性标注;2)进行特征选择,抽取文本的传统特征,还利用LDA建模技术抽取文本的主题特征;3)在保留半监督学习框架下,将得到的文本的传统特征和文本的主题特征作为数据集,分别用SVM算法和最大熵算法进行分类训练。2.根据权利要求1所述的基于主题特征的半监督学习情感分类方法,其特征在于,步骤1)所述的进行预处理,是对文本中非文本信息进行精简,去除数据中的无用信息。3.根据权利要求1所述的基于主题特征的半监督学习情感分类方法,其特征在于,步骤1)所述的文本分词,是采用单词生成模型进行的,具体如下:m其中WSeq≡ω1=[ω1,ω2,...ωm]表示含有m个词语ω的一组序列,表示含有n个字的句子,P表示概率。4.根据权利要求1所述的基于主题特征的半监督学习情感分类方法,其特征在于,步骤1)所述的词性标注,是对文本中每个词确定一个最为合适的词性。5.根据权利要求1所述的基于主题特征的半监督学习情感分类方法,其特征在于,步骤3)包括如下步骤:(1)使用保留半监督学习算法进行迭代,具体是将数据集划分为训练集和测试集,使用SVM算法和最大熵算法对训练集进行分类训练,得到分类模型;(2)使用分类模型对测试集进行分类预测,将结果中置信度小于或等于设定值0.3的数据重新加入到训练集中;(3)重复执行步骤S0501和步骤S0502,直到达到了预定的迭代次数,分类完成。2CN105912525A说明书1/3页基于主题特征的半监督学习情感分类方法技术领域[0001]本发明涉及一种短文本情感分类技术、文本主题建模技术和半监督学习技术。特别是涉及一种基于主题特征的半监督学习情感分类方法。背景技术[0002]文本情感分析技术包括:基于情感词典的文本情感分析、基于机器学习的文本情感分析。基于情感词典的文本情感分析方法是采用现有的情感词典,通过对词语与词语之间的关系进行研究得到用户的情感信息。基于机器学习的文本情感分析方法一般为收集数据,然后分割出部分数据集作为训练集,并人工标记训练集,使用人工标记的训练集来训练构造分类器,使用未经标记的数据来检测分类器准确度。基于机器学习的文本情感分析方法十分依赖训练集,如果训练集的规模并未超过一定阈值,训练得到的分类器的准确性将会受到影响,同时其应用的领域也受到限制。即便如此,基于机器学习的文本情感分析方法的应用效果还是比较好,因此有许多研究人员深入探索。机器学习中的文本分类方法有多种,如决策树算法、贝叶斯算法、支持向量机和最大熵算法等。[0003]特征提取是指从收集到的数据集中将有用的信息提取出来,并转换成独立的单词或者词组,为进一步分析处理数据打下基础。特征提取通常包括情感表达者识别、评价对象识别、情感观点词识别等任务。[0004]主题模型主要有两种模型,一种是pLSA和LDA。LSA是处理这类问题的著名技术。其主要思想就是映射高维向量到潜在语义空间,使其降维。LSA的目标就是要寻找到能够很好解决实体间词法和语义关系的数据映射。正是由于这些特性,使得LSA成为相当有价值并被广泛应用的分析工具。PLSA是以统计学的角度来看待LSA,相比于标准的LSA,他的概率学变种有着更巨大的影响。[0005]LDA(LatentDirichletAllocation)是用于识别大规模文档集中所隐含的主题信息的主题模型。LDA算法与其它主题模型相比,认为每个不同主题中的词语服从概率分布,每个文档中的不同主题也服从概率分布,因此每篇不同的文