预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111858945A(43)申请公布日2020.10.30(21)申请号202010776165.3(22)申请日2020.08.05(71)申请人上海哈蜂信息科技有限公司地址200040上海市静安区华康路118号A-42室(72)发明人刘文远郭智存于家新付闯(74)专利代理机构北京君智知识产权代理事务所(普通合伙)11305代理人黄绿雯(51)Int.Cl.G06F16/35(2019.01)G06F40/30(2020.01)G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书8页附图2页(54)发明名称基于深度学习的评论文本方面级情感分类方法及系统(57)摘要本发明提供一种基于深度学习的评论文本方面级情感分类方法,先将评论文本进行预处理,包括分词和去除停用词,然后对方面词及对应的标签进行平衡处理,生成平衡样本,再将平衡样本与原始样本中的中文词语进行向量化,获得平衡样本中的词向量;输入到模型中进行评论结果的预测;所述模型是根据深度神经网络构建的深度学习模型,通过方面词的词向量与句子其他词语进行相似度计算,生成平衡样本的方面情感语义矩阵。本发明通过平衡处理和构建Attn‑Bi‑LCNN模型,能够有效输出情感语义矩阵,提高了模型的精准度与实际应用时的预测速度,从而使本发明的方法适用于文本的方面级细粒度情感分类。CN111858945ACN111858945A权利要求书1/2页1.一种基于深度学习的评论文本方面级情感分类方法,所述方法包括以下步骤:(1)将评论文本进行预处理,所述预处理包括分词和去除停用词,得到文本中的方面词及对应的标签;(2)对所述方面词及对应的标签进行平衡处理,获得评论文本的平衡标签,根据所述平衡标签生成平衡样本;(3)将平衡样本与原始样本中的中文词语进行向量化,获得平衡样本中的词向量;(4)将所述词向量输入到模型中进行评论结果的预测;所述的模型是根据深度神经网络构建的深度学习模型,通过方面词的词向量与句子其他词语进行相似度计算,生成平衡样本的方面情感语义矩阵;利用情感语义矩阵同时计算所述平衡样本内所有方面的情感倾向;所述模型根据训练文本的标签来计算模型损失,通过模型损失的反向传播优化神经网络中的权重;(5)所述模型的输出结果采用Softmax函数进行激活:其中ei为对应标签得分,Softmax函数将得分转换为0-1之内的概率值,概率值最大的类别即为模型预测类别。2.根据权利要求1所述的评论文本方面级情感分类方法,其特征在于针对情感分类问题,通过Attn-Bi-LCNN模型,利用方面词向量进行注意力机制计算,形成情感语义矩阵。3.根据权利要求2所述的评论文本方面级情感分类方法,其特征在于所述Attn-Bi-LCNN模型结构包括Embedding层、Bi-LSTM层、CNN层、Attention层、隐藏层和输出层,其中:(1)Embedding层模型中的Embedding层用于将词语映射为词向量,训练文本通过Embedding层之后被转换为文本矩阵,矩阵的第i行即为句子中第i个词的词向量,其输出为S=RL×d,其中,文本矩阵大小为L×d,中L为矩阵行数,也是句子词语数,d为词语向量化维度;(2)Bi-LSTM层Bi-LSTM层用于提取句子中单词之间的顺序特征,并对句子表示进行记忆存储;当文本矩阵中的词语按照时间顺序输入到Bi-LSTM层中,会获取当前词的前向语义表示ht和反向语义表示h’t,并将所述前向语义表示ht和反向语义表示h’t拼凑得到当前词的完整语义表示[ht,h’t];文本向量矩阵经过Bi-LSTM层的输出为文本的高维语义表示,其输出为其中,Slstm代表文本高维语义表示矩阵,l代表句子长度,dlstm代表Bi-LSTM隐藏层维度大小,矩阵的每一行即为对应词的完整语义表示[ht,h't];(3)CNN层CNN层用于提取高维语义表示中的词与词之间的关系;其输出为其中,SCNN为卷积之后的句子向量,C代表卷积操作,dCNN代表SCNN维度大小;(4)Attention层T注意力权重计算公式为A=softmax(Vatanh(WmD)),其中,A为注意力权重矩阵,矩阵的2CN111858945A权利要求书2/2页每一列即代表一个方面的注意力权重;DT代表卷积神经网络卷积核得出的语义向量所组成i的矩阵,矩阵的每一行为dCNN,代表不同就不同卷积核卷积得到的特征向量;Wm代表DT的权重矩阵,Va为方面词词向量矩阵,矩阵的每一行代表训练数据的各个方面词向量化得到的词向量;通过Softmax激活函数对结果进行激活得到注意力权重矩阵A;得到不同方面的注意力权重之后,将权重