预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共31页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114282528A(43)申请公布日2022.04.05(21)申请号202110961476.1G06F16/9532(2019.01)(22)申请日2021.08.20G06N3/04(2006.01)G06N3/08(2006.01)(71)申请人腾讯科技(深圳)有限公司地址518044广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人黄剑辉(74)专利代理机构北京同达信恒知识产权代理有限公司11291代理人朱佳(51)Int.Cl.G06F40/253(2020.01)G06F40/258(2020.01)G06F40/279(2020.01)G06F40/30(2020.01)G06F16/33(2019.01)权利要求书3页说明书16页附图11页(54)发明名称一种关键词提取方法、装置、设备及存储介质(57)摘要本申请实施例提供了一种关键词提取方法、装置、设备及存储介质,涉及人工智能技术领域,该方法包括:对目标文本进行特征提取,获得目标文本对应的文本特征向量和目标文本包含的目标分词的分词语法向量。对目标分词进行特征提取,获得目标分词的分词语义向量,然后将分词语义向量和分词语法向量进行拼接获得第一组合向量。由于第一组合向量中包含了目标分词的语义信息和语法信息,故将目标文本的文本特征向量与第一组合向量融合后获得的融合特征向量,可以更好地表征目标文本中的核心成分。基于融合特征向量确定目标分词在目标文本中的权重值,并基于权重值确定目标分词是否为目标文本中的关键词时,可以有效提高提取目标文本中关键词的准确性。CN114282528ACN114282528A权利要求书1/3页1.一种关键词提取方法,其特征在于,包括:对目标文本进行特征提取,获得所述目标文本对应的文本特征向量和所述目标文本包含的目标分词对应的分词语法向量,以及对所述目标分词进行特征提取,获得所述目标分词对应的分词语义向量;将所述分词语义向量和所述分词语法向量进行拼接,获得所述目标分词对应的第一组合向量;将所述目标文本对应的文本特征向量与所述第一组合向量融合,获得融合特征向量;基于所述融合特征向量,确定所述目标分词在所述目标文本中的权重值,所述权重值用于表征所述目标分词对于所述目标文本的语义理解的影响程度;基于所述目标分词在所述目标文本中的权重值,确定所述目标分词是否为所述目标文本中的关键词。2.如权利要求1所述的方法,其特征在于,所述对目标文本进行特征提取,获得所述目标文本对应的文本特征向量和所述目标文本包含的目标分词对应的分词语法向量,包括:分别提取所述目标文本中各个分词各自对应的分词语法向量、位置向量以及分割向量;其中,每个分词对应一个分词语法向量、一个位置向量和一个分割向量,每个分词语法向量用于表征相应的一个分词在所述目标文本中的语法信息,每个位置向量用于表征相应的一个分词与所述目标文本中其他分词之间的相对位置关系,每个分割向量用于表征相应的一个分词所属语句的语句类型;分别基于所述各个分词各自对应的分词语法向量、位置向量以及分割向量,获得相应分词对应的第二组合向量;对获得的各个第二组合向量进行特征提取,获得所述目标文本对应的文本特征向量;从所述各个分词各自对应的分词语法向量中,获取所述目标分词对应的分词语法向量。3.如权利要求2所述的方法,其特征在于,所述分别基于所述各个分词各自对应的分词语法向量、位置向量以及分割向量,获得相应分词对应的第二组合向量,包括:分别针对所述各个分词,执行以下操作:将一个分词对应的分词语法向量、位置向量以及分割向量进行叠加,获得所述一个分词对应的第二组合向量。4.如权利要求2所述的方法,其特征在于,所述对获得的各个第二组合向量进行特征提取,获得所述目标文本对应的文本特征向量,包括:根据所述各个第二组合向量与相应的注意力权重矩阵,获得所述各个分词各自对应的注意力权重向量,其中,一个分词对应的注意力权重向量包含的各个值,分别表征所述各个分词各自相对于所述一个分词的注意力权重;根据所述各个分词各自对应的注意力权重向量,以及所述各个第二组合向量,获得所述目标文本对应的文本特征向量,其中,所述文本特征向量包括所述各个分词各自对应的分词特征向量,每个分词特征向量是根据相应的一个注意力权重向量中各个注意力权重,与相应第二组合向量进行加权求和获得的。5.如权利要求4所述的方法,其特征在于,所述根据所述各个第二组合向量与相应的注意力权重矩阵,获得所述各个分词各自对应的注意力权重向量,包括:根据所述各个第二组合向量与相应的注意力权重矩阵,获得所述各个分词各自对应的2CN114282528A权利要求书2/3页至少一个注意力向量,其中,所述至少一个注意力向量包括