预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113947161A(43)申请公布日2022.01.18(21)申请号202111267036.2(22)申请日2021.10.28(71)申请人广东工业大学地址510090广东省广州市越秀区东风东路729号(72)发明人郭绮雯王勇(74)专利代理机构广州粤高专利商标代理有限公司44102代理人禹小明(51)Int.Cl.G06K9/62(2022.01)G06F40/289(2020.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书3页说明书8页附图3页(54)发明名称一种基于注意力机制的多标签文本分类方法及系统(57)摘要本发明提出一种基于注意力机制的多标签文本分类方法及系统,涉及多标签文本分类的技术领域,解决了当前多标签文本分类方法大多忽略标签与文本之间关联性,在标签规模大,类别分布不均衡时,分类准确率低的问题,基于图嵌入算法优化标签之间的相似度,得到标签结构矩阵,保留标签的全局结构和局部结构,再通过构建基于卷积神经网络和注意力机制的多标签文本分类模型,利用卷积神经网络进行文本深层的特征提取,利用注意力机制捕获标签结构与文档内容的潜在关系,进行了更深层次的挖掘,能在标签规模大、标签分布不均衡的情况下,充分利用训练集中的标签信息,提高了多标签文本分类的准确度。CN113947161ACN113947161A权利要求书1/3页1.一种基于注意力机制的多标签文本分类方法,其特征在于,包括以下步骤:获取包含标签的文本训练集;对文本训练集中的文本进行词向量化,将文本训练集中的文本转换成多维的文本特征向量;根据文本训练集中标签的共存情况构建标签共存图,引入图嵌入算法优化标签共存图中标签之间的相似度,得到标签结构矩阵;构建基于卷积神经网络和注意力机制的多标签文本分类模型;利用多标签分类模型的卷积神经网络对文本特征向量进行卷积操作,结合标签结构矩阵,利用注意力机制使卷积操作后的文本特征向量学习文本和标签之间的关系,从而训练多标签文本分类模型;利用训练好的多标签文本分类模型进行多标签文本分类测试。2.根据权利要求1所述的基于注意力机制的多标签文本分类方法,其特征在于,获取包含标签的文本训练集之前还包括:获取待分类文本数据集,对数据集中的待分类文本进行预处理操作;包含标签的文本训练集从预处理后的待分类文本数据集中获得。3.根据权利要求2所述的基于注意力机制的多标签文本分类方法,其特征在于,所述对数据集中的待分类文本进行的预处理操作包括:使用正则表达式对待分类文本进行文本过滤,然后对文本过滤后的待分类文本进行分词,去除停用词,并进行词性还原。4.根据权利要求1所述的基于注意力机制的多标签文本分类方法,其特征在于,使用Glove词向量对文本训练集中的文本进行词向量化,将文本训练集中的文本转换成多维的文本特征向量。5.根据权利要求1所述的基于注意力机制的多标签文本分类方法,其特征在于,所述的标签共存图表示为:G=(V,E)其中,标签共存图G中的顶点、边均与邻接矩阵S相关,邻接矩阵S表示大小为k*k的矩阵,k表示标签的数量;V={v1,v2,...,vk}是图的顶点集,顶点个数与标签的数量相同;是图G的边集,邻接矩阵S的元素由标签的共存性确定,若第i个标签和第j个标签共同出现,均作为某一文本的标签时,则第i个标签和第j个标签之间连有一条边,邻接矩阵S中的元素满足:S[i][j]=1,否则,S[i][j]=0。6.根据权利要求5所述的基于注意力机制的多标签文本分类方法,其特征在于,所述图嵌入算法为SDNE算法,SDNE算法中存在一个自动编码器,同时优化一阶相似度和二阶相似度:其中,一阶相似度衡量标签共存图G中两个顶点对之间的相似程度,表示局部结构,二阶相似度衡量标签共存图G中两个顶点与其邻域的相似程度,表示全局结构,引入图嵌入算法优化标签共存图中标签之间的相似度,得到标签结构矩阵的过程为:S101.构建自动编码器的损失函数,表达式为:Lmin=vLreg+αL1st+L2nd其中,L1st表示一阶相似度,α表示控制一阶相似度L1st的超参数,L2nd表示二阶相似度,Lreg表示L2nd的正则化项,用来防止过拟合;v表示控制Lreg正则化项的超参数;2CN113947161A权利要求书2/3页一阶相似度L1st衡量标签共存图G中两个顶点对之间的相似程度,表示局部结构,表达式为:TL1st=2tr(YLY)其中,Y表示顶点的嵌入向量,L表示拉普拉斯矩阵;二阶相似度L2nd衡量标签共存图G中两个顶点与其邻域的相似程度,表示全局结构,表达式为:其中,⊙表示哈达玛积,S为邻接矩阵,为自动编码器重构后的邻接矩阵,B表示一个形状与邻接矩阵S相同的矩阵