预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114281991A(43)申请公布日2022.04.05(21)申请号202111565838.1(22)申请日2021.12.20(71)申请人平安普惠企业管理有限公司地址518000广东省深圳市前海深港合作区前湾一路1号A栋201室(72)发明人刘欢(74)专利代理机构深圳市沃德知识产权代理事务所(普通合伙)44347代理人高杰于志光(51)Int.Cl.G06F16/35(2019.01)G06K9/62(2022.01)权利要求书3页说明书11页附图2页(54)发明名称文本分类方法、装置、电子设备及存储介质(57)摘要本发明涉及人工智能领域,揭露一种文本分类方法,包括:对文本类别集及样本集执行编码处理,得到初始标签矩阵及样本集中每个样本的每个字符对应的第一向量;对第一向量及初始标签矩阵执行相关性分析,得到每个字符对应的第二向量,并确定样本集中每个样本对应的第三向量;对第三向量执行分类处理,得到每个样本在每个文本类别的预测概率值;将文本类别标签及对应预测概率值输入损失函数,得到损失值,通过最小化损失值,确定目标标签矩阵及训练好的文本分类模型;将待分类文本及目标标签矩阵输入训练好的文本分类模型,得到目标文本类别。本发明还提供一种文本分类装置、电子设备及存储介质。本发明提高了文本分类准确度。CN114281991ACN114281991A权利要求书1/3页1.一种文本分类方法,其特征在于,所述方法包括:获取携带文本类别标签的样本集,基于所述文本类别标签确定所述样本集对应的文本类别集;基于文本分类模型的编码网络,对所述文本类别集及所述样本集分别执行编码处理,得到初始标签矩阵及所述样本集中每个样本的每个字符对应的第一向量;基于所述文本分类模型的相关性分析网络,对所述第一向量及所述初始标签矩阵执行相关性分析,得到每个所述字符对应的第二向量;拼接每个样本中每个所述字符对应的第二向量,得到所述样本集中每个样本对应的第三向量;基于所述文本分类模型的分类网络,对所述第三向量执行分类处理,得到所述样本集中每个样本在每个文本类别的预测概率值;将所述文本类别标签及对应预测概率值输入预先确定的损失函数,得到损失值,通过最小化损失值,确定目标标签矩阵及所述文本分类模型的结构参数,基于所述结构参数得到训练好的文本分类模型;将待分类文本及所述目标标签矩阵输入训练好的文本分类模型,得到目标文本类别。2.如权利要求1所述的文本分类方法,其特征在于,所述对所述第一向量及所述初始标签矩阵执行相关性分析,得到每个所述字符对应的第二向量,包括:基于所述第一向量执行字符之间的相关性分析,得到每个所述字符对应的第四向量;基于所述第一向量及所述初始标签矩阵执行字符与文本类别之间的相关性分析,得到每个所述字符对应的第五向量;加总所述第四向量及所述第五向量,得到每个所述字符对应的第二向量。3.如权利要求2所述的文本分类方法,其特征在于,所述初始标签矩阵包括所述文本类别集中每个文本类别对应的初始标签向量,所述基于所述第一向量及所述初始标签矩阵执行字符与文本类别之间的相关性分析,得到每个所述字符对应的第五向量,包括:基于所述第一向量及所述初始标签向量计算每个所述字符与所述文本类别集中每个文本类别的相关值;基于所述相关值及所述初始标签向量计算每个所述字符对应的第五向量。4.如权利要求3所述的文本分类方法,其特征在于,所述相关值的计算公式为:αni,j=cosin(hni,tj)其中,αni,j为样本集中第n个样本的第i个字符与文本类别集中第j个文本类别的相关值,hni为样本集中第n个样本的第i个字符对应的第一向量,tj为文本类别集中第j个文本类别对应的初始标签向量;所述第五向量的计算公式为:其中,h′ni为样本集中第n个样本的第i个字符对应的第五向量,k为文本类别集中文本类别的总数量,αni,j为样本集中第n个样本的第i个字符与文本类别集中第j个文本类别的相关值,tj为文本类别集中第j个文本类别对应的初始标签向量。2CN114281991A权利要求书2/3页5.如权利要求1所述的文本分类方法,其特征在于,所述相关性分析网络包括串联连接的多个注意力层,所述分类网络包括全连接层及激活层,所述编码网络包括串联连接的多个编码层。6.如权利要求1所述的文本分类方法,其特征在于,所述损失函数为:其中,为损失值,为样本集中第i个样本在文本类别集中第j个文本类别的标签值,为样本集中第i个样本在文本类别集中第j个文本类别的预测概率值,N为样本集中样本的总数量,k为文本类别集中文本类别的总数量。7.如权利要求1所述的文本分类方法,其特征在于,在所述基于所述结构参数得到训练好的文本分类模型之后,所述方法还包括:每隔预设时间