预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113869044A(43)申请公布日2021.12.31(21)申请号202111187827.4G06N3/04(2006.01)(22)申请日2021.10.12G06N3/08(2006.01)(71)申请人平安科技(深圳)有限公司地址518000广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼(72)发明人袁超徐介夫(74)专利代理机构深圳国新南方知识产权代理有限公司44374代理人李小东(51)Int.Cl.G06F40/284(2020.01)G06F40/30(2020.01)G06F40/44(2020.01)G06K9/62(2006.01)权利要求书2页说明书8页附图4页(54)发明名称关键词自动提取方法、装置、设备及存储介质(57)摘要本发明涉及人工智能领域,具体公开了一种关键词自动提取方法、装置、设备及存储介质。该方法包括:获取用于训练的样本文本,从样本文本中提取关键词,按照关键词提取的先后顺序对关键词进行排序,依序对所有关键词进行标签处理,获得含有标签的关键词集合;将样本文本与关键词集合进行关联处理以形成训练数据集;基于训练数据集和交叉熵损失函数对预构建好的语言预测模型进行训练,利用梯度下降法迭代优化语言预测模型,获得目标语言预测模型;获取待处理文本并将待处理文本输入目标语言预测模型中,输出包含标签的目标关键词集合,根据标签从目标关键词集合中提取待处理文本的目标关键词。通过上述方式,本发明能够提高关键词获取效率和准确率。CN113869044ACN113869044A权利要求书1/2页1.一种关键词自动提取方法,其特征在于,包括:获取用于训练的样本文本,从所述样本文本中提取关键词,按照关键词提取的先后顺序对所述关键词进行排序,依序对所有所述关键词进行标签处理,获得含有所述标签的关键词集合;将所述样本文本与所述关键词集合进行关联处理以形成训练数据集;基于所述训练数据集和交叉熵损失函数对预构建好的语言预测模型进行训练,利用梯度下降法迭代优化所述语言预测模型,获得目标语言预测模型;获取待处理文本并将所述待处理文本输入所述目标语言预测模型中,输出包含所述标签的目标关键词集合,根据所述标签从所述目标关键词集合中提取所述待处理文本的目标关键词。2.根据权利要求1所述的方法,其特征在于,所述获取用于训练的样本文本,从所述样本文本中提取关键词,按照关键词提取的先后顺序对所述关键词进行排序,依序对所有所述关键词进行标签处理,获得含有所述标签的关键词集合包括:获取用于训练的样本文本,从所述样本文本中提取关键词,按照关键词提取的先后顺序对所述关键词进行排列;在排列结果中的第一个关键词之前插入第一标签,在排列结果中的最后一个关键词之后插入第二标签,在相邻的两个所述关键词之间插入第三标签,获得含有所述第一标签、所述第二标签以及所述第三标签的关键词集合。3.根据权利要求2所述的方法,其特征在于,所述根据所述标签从所述目标关键词集合中提取所述待处理文本的目标关键词包括:从所述目标关键词集合中识别所述第二标签;根据所述第二标签的位置提取所述待处理文本中的所有所述目标关键词。4.根据权利要求1所述的方法,其特征在于,所述获取待处理文本并将所述待处理文本输入所述目标语言预测模型中,输出包含所述标签的目标关键词集合包括:获取所述待处理文本,基于Bert网络对所述待处理文本进行特征提取,获得特征向量;对所述特征向量进行编码处理,获得每个所述特征向量的隐藏向量,对所述隐藏向量进行拼接处理,获得拼接向量;对所述拼接向量进行解码处理,获得与所述特征向量对应的解码向量;根据所述隐藏向量、所述拼接向量以及所述解码向量计算指针权重,并根据所述指针权重获得目标关键词概率分布,根据所述目标关键词概率分布确定所述目标关键词集合。5.根据权利要求4所述的方法,其特征在于,所述根据所述隐藏向量、所述拼接向量以及所述解码向量计算指针权重,并根据所述指针权重获得目标关键词概率分布,根据所述目标关键词概率分布确定所述目标关键词集合包括:基于自注意力机制根据所述隐藏向量和所述解码向量获得所述待处理文本中每个词的注意力分布;根据所述注意力分布和所述解码向量预测所需生成词的词汇分布;根据所述隐藏向量、所述拼接向量以及所述解码向量计算指针权重;将所述指针权重与所述注意力分布、所述词汇分布进行加权计算,获得目标关键词概率分布,根据目标关键词概率分布确定所述目标关键词集合。2CN113869044A权利要求书2/2页6.根据权利要求5所述的方法,其特征在于,所述指针权重用于确定所述目标关键词的获取方式,所述获取方式包括生成式和抽取式,所述指针权重按照如下公式进行计算:其中,为编码处