预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115374771A(43)申请公布日2022.11.22(21)申请号202210820115.XG06F40/30(2020.01)(22)申请日2022.07.12G06K9/62(2022.01)(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区北京经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人李家东宫礼星周孝青黄英凡赵嘉文李勇包勇军颜伟鹏(74)专利代理机构北京律智知识产权代理有限公司11438专利代理师孙宝海(51)Int.Cl.G06F40/242(2020.01)G06F40/126(2020.01)权利要求书2页说明书11页附图5页(54)发明名称文本标签确定方法及装置(57)摘要本公开提供一种文本标签确定方法及装置;涉及自然语言处理技术领域。该方法包括:获取待分析文本,并将待分析文本输入标签预测模型,以获得预测标签及对应概率值;在预测标签属于目标标签类别的情况下,使用预先构建的标签字典树对待分析文本进行标签搜索匹配,以获得匹配标签;基于预测标签及对应概率值和匹配标签,确定待分析文本的至少一个标签。本公开可以解决相关技术中对文本数据的多标签预测过程中,存在的效率低和预测准确性低的问题。CN115374771ACN115374771A权利要求书1/2页1.一种文本标签确定方法,其特征在于,包括:获取待分析文本,并将所述待分析文本输入标签预测模型,以获得预测标签及对应概率值;在所述预测标签属于目标标签类别的情况下,使用预先构建的标签字典树对所述待分析文本进行标签搜索匹配,以获得匹配标签;基于所述预测标签及对应概率值和所述匹配标签,确定所述待分析文本的至少一个标签。2.根据权利要求1所述的文本标签确定方法,其特征在于,所述标签预测模型的训练过程包括:获取具有标签的文本数据作为训练数据,得到训练样本数据和样本标签向量;将所述训练样本数据输入所述标签预测模型,获得对应的样本分类概率向量;采用目标损失函数,计算所述样本分类概率向量和所述样本标签向量之间的损失函数值;其中,所述样本分类概率向量包括正样本分类概率值和负样本分类概率值,所述目标损失函数为基于所述正样本分类概率值和所述负样本分类概率值进行展开的二元交叉熵损失函数,所述目标损失函数不包含所述正样本分类概率值的高阶项和所述负样本分类概率值的高阶项;基于所述损失函数值,更新所述标签预测模型的参数。3.根据权利要求2所述的文本标签确定方法,其特征在于,所述标签预测模型包括预训练编码模块和分类模块,所述将所述训练文本数据输入所述标签预测模型,获得对应的样本分类概率向量,包括:基于所述训练文本数据,获得训练初始向量;将所述训练初始向量输入所述预训练编码模块进行语义编码,获得编码结果;将所述编码结果输入所述分类模块进行线性变换,获得样本分类概率向量。4.根据权利要求3所述的文本标签确定方法,其特征在于,所述将所述训练文本数据输入所述标签预测模型,获得对应的样本分类概率向量,还包括:通过旋转矩阵对所述训练初始向量中元素的绝对位置信息进行编码,获得元素的相对位置向量;所述语义编码的过程,包括:将所述相对位置向量和所述训练初始向量输入所述预训练编码模块,获得编码结果。5.根据权利要求1‑4任一项所述的文本标签确定方法,其特征在于,所述方法还包括:在所述待分析文本的长度大于第一阈值的情况下,对所述待分析文本进行截断处理。6.根据权利要求1所述的文本标签确定方法,其特征在于,所述对所述待分析文本进行标签搜索匹配,包括:将所述待分析文本作为主字符串,将所述标签字典树作为模式字符串;采用前缀树匹配方式,在所述模式字符串中对所述主字符串进行搜索匹配,获得匹配标签。7.根据权利要求1所述的文本标签确定方法,其特征在于,所述方法还包括:在所述预测标签不属于目标标签类别的情况下,响应于所述预测标签的对应概率值与第二阈值的比较结果,确定所述待分析文本的至少一个标签。2CN115374771A权利要求书2/2页8.一种文本标签确定装置,其特征在于,所述装置包括:预测模块,用于获取待分析文本,并将待分析文本输入标签预测模型,以获得预测标签及对应概率值;匹配模块,用于在所述预测标签属于目标标签类别的情况下,使用预先构建的标签字典树对所述待分析文本进行标签搜索匹配,以获得匹配标签;第一确定模块,用于基于所述预测标签及对应概率值和所述匹配标签,确定所述待分析文本的至少一个标签。9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1‑6中任一项所述的方法。10.一种电子设备,其特征在于,包括:一个或多个处理器;以及存储装置,用于存储一