预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115983261A(43)申请公布日2023.04.18(21)申请号202211663580.3(22)申请日2022.12.23(71)申请人中国联合网络通信集团有限公司地址100033北京市西城区金融大街21号(72)发明人尹为强陈鹏吴念念(74)专利代理机构北京同立钧成知识产权代理有限公司11205专利代理师朱颖黄健(51)Int.Cl.G06F40/289(2020.01)G06F40/194(2020.01)G06F16/332(2019.01)权利要求书2页说明书11页附图4页(54)发明名称文本关键词提取方法、装置、设备及介质(57)摘要本申请提供一种文本关键词提取方法、装置、设备及介质,该方法包括:获取目标输入文本,将目标输入文本与预设关键词库进行匹配;根据匹配结果获取目标输入文本的若干候选关键词,根据若干候选关键词和目标输入文本,构建目标输入文本对应的所有文本句式及其对应的候选关键词组合;分别获取所有文本句式与目标输入文本之间的相似度,并将相似度大于预设阈值的文本句式确定为候选文本句式;在候选文本句式存在多个的情况下,将候选文本句式对应的关键词组合输入至概率分析模型中,基于概率分析模型获取候选文本句式对应的关键词组合的组合概率,将组合概率最大对应的关键词组合确定为目标输入文本的关键词组合,可以有效提高关键词提取效率。CN115983261ACN115983261A权利要求书1/2页1.一种文本关键词提取方法,其特征在于,包括:获取目标输入文本,并将所述目标输入文本与预设关键词库进行匹配;根据匹配结果获取所述目标输入文本的若干候选关键词,并根据所述若干候选关键词和所述目标输入文本,构建所述目标输入文本对应的所有文本句式及其对应的候选关键词组合;分别获取所述所有文本句式与所述目标输入文本之间的相似度,并将相似度大于预设阈值的文本句式确定为候选文本句式;在所述候选文本句式存在多个的情况下,将所述候选文本句式对应的关键词组合输入至概率分析模型中,基于所述概率分析模型获取所述候选文本句式对应的关键词组合的组合概率,并将组合概率最大对应的关键词组合确定为所述目标输入文本的关键词组合。2.根据权利要求1所述的方法,其特征在于,所述将所述目标输入文本与预设关键词库进行匹配,包括:对所述目标输入文本中的字母词汇进行大小写之间的统一,和/或对所述目标输入文本中的相同词汇进行标注;将经过大小写统一或者标注的目标输入文本进行分词,并根据分词结果与预设关键词库进行匹配。3.根据权利要求1所述的方法,其特征在于,所述分别获取所述所有文本句式与所述目标输入文本之间的相似度,包括:分别确定所述所有文本句式与所述目标输入文本之间的编辑距离,并基于所述编辑距离获取所述所有文本句式与所述目标输入文本之间的相似度。4.根据权利要求3所述的方法,其特征在于,所述分别确定所述所有文本句式与所述目标输入文本之间的编辑距离,包括:分别基于所述所有文本句式中各个词汇与所述目标输入文本中对应词汇之间的编辑处理次数确定所述文本句式与所述目标输入文本之间的编辑距离;其中,所述编辑处理至少包括以下处理方式之一:词汇增加、词汇删除或者词汇替换。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:分别获取所述所有文本句式中各个词汇与所述目标输入文本中对应词汇的词汇长度;所述基于所述编辑距离获取所述所有文本句式与所述目标输入文本之间的相似度,包括:基于所述编辑距离和所述词汇长度获取所述所有文本句式与所述目标输入文本之间的相似度。6.根据权利要求1所述的方法,其特征在于,在将所述候选文本句式对应的关键词组合输入至概率分析模型中之前,还包括:获取样本文本数据,所述样本文本数据包括句式规则模板以及各领域的语料文本;从所述样本文本数据中依次提取一个当前待训练文本,所述当前待训练文本为句式规则模板或者语料文本,并输入初始概率分析模型中进行训练,得到训练后的概率分析模型;在所述样本文本数据中的各句式规则模板或者各领域的语料文本全部提取和输入完毕后,输出所述概率分析模型。7.根据权利要求6所述的方法,其特征在于,所述初始概率分析模型采用卷积长短期记2CN115983261A权利要求书2/2页忆神经网络CNN‑LSTM模型。8.一种文本关键词提取装置,其特征在于,包括:获取及匹配模块,其设置为获取目标输入文本,并将所述目标输入文本与预设关键词库进行匹配;候选关键词获取模块,其设置为根据匹配结果获取所述目标输入文本的若干候选关键词,并根据所述若干候选关键词和所述目标输入文本,构建所述目标输入文本对应的所有文本句式及其对应的候选关键词组合;相似度处理模块,其设置为分别获取所述所有文本句式与所述目标输入文本之间的相似度,