预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共24页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113779977A(43)申请公布日2021.12.10(21)申请号202010915868.XG06K9/62(2006.01)(22)申请日2020.09.03(71)申请人北京沃东天骏信息技术有限公司地址100076北京市经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人王艳花张晓辉李志鹏李瑶张光宇(74)专利代理机构北京同立钧成知识产权代理有限公司11205代理人朱颖臧建明(51)Int.Cl.G06F40/279(2020.01)G06F40/216(2020.01)G06F16/9536(2019.01)权利要求书2页说明书16页附图5页(54)发明名称对象的关键词提取方法及装置(57)摘要本申请实施例提供一种对象的关键词提取方法及装置,该方法包括:获取第一对象对应的文本信息,文本信息用于描述第一对象。根据文本信息,确定第一对象对应的多个候选关键词。根据多个候选关键词的相似度及候选关键词为关键词的概率,在多个候选关键词中确定第一对象的至少一个关键词。通过文本信息确定第一对象所对应的多个候选关键词,能够实现快速高效的实现从文本信息中自动的提取候选关键词,并且根据多个候选关键词的相速度以及候选关键词为关键词的概率,对候选关键词进行过滤,能够保证最终确定的第一对象的关键词的准确性。CN113779977ACN113779977A权利要求书1/2页1.一种对象的关键词提取方法,其特征在于,包括:获取第一对象对应的文本信息,所述文本信息用于描述所述第一对象;根据所述文本信息,确定所述第一对象对应的多个候选关键词;根据所述多个候选关键词的相似度及所述候选关键词为关键词的概率,在所述多个候选关键词中确定所述第一对象的至少一个关键词。2.根据权利要求1所述的方法,其特征在于,根据所述文本信息,确定所述第一对象对应的多个候选关键词,包括:通过第一模型对所述文本信息进行处理,得到所述多个候选关键词;其中,所述第一模型为对多组样本学习得到的,每组样本包括样本文本信息和样本候选关键词,所述多组样本为第二模型生成得到的。3.根据权利要求2所述的方法,其特征在于,所述第二模型生成所述多组样本的过程包括:获取所述样本文本信息;通过所述第二模型对所述样本文本信息进行分词处理,得到多个样本词汇和每个样本词汇为关键词的概率;根据每个样本词汇为关键词的概率,在所述多个样本词汇中确定样本候选关键词,所述样本候选关键词为关键词的概率大于第一阈值。4.根据权利要求1-3任一项所述的方法,其特征在于,根据所述多个候选关键词的相似度及所述候选关键词为关键词的概率,在所述多个候选关键词中确定所述第一对象的至少一个关键词,包括:针对所述多个候选关键词中的每两个候选关键词,判断所述两个候选关键词之间的相似度是否大于预设阈值;若是,则根据所述两个候选关键词各自为关键词的概率,将所述两个候选关键词合并为一个关键词;若否,则将所述两个候选关键词均确定为所述第一对象的关键词。5.根据权利要求4所述的方法,其特征在于,根据所述两个候选关键词各自为关键词的概率,将所述两个候选关键词合并为一个关键词,包括:将所述两个候选关键词合并为目标关键词,其中,所述目标关键词是两个候选关键词中为关键词的概率较大的关键词。6.根据权利要求1-5任一项所述的方法,其特征在于,根据所述文本信息,确定所述第一对象对应的多个候选关键词,包括:对所述文本信息进行分句处理,得到多个短句;通过二分类模型确定各所述短句中是否包括关键词,将包括关键词的短句确定为目标短句,以得到至少一个目标短句;对各所述目标短句进行分词处理,得到多个第一词汇;对所述第一词汇进行停用词过滤处理,得到多个第二词汇;对所述多个第二词汇进行关键词预测处理,得到所述多个候选关键词。7.根据权利要求1-6任一项所述的方法,其特征在于,所述第一模型为指针生成网络;所述指针生成网络的输出层包括生成概率,所述生成概率用于指示所述每个时间步的2CN113779977A权利要求书2/2页解码器的下一个输出词是来自于预设词表的概率;以及所述指针生成网络的注意力分布函数中包括覆盖因子。8.根据权利要求1-6任一项所述的方法,其特征在于,所述文本信息包括如下至少一种:所述第一对象对应的网络数据,所述网络数据中包括所述第一对象的描述信息;所述第一对象对应的详情页面中的数据,所述详情页面为介绍所述第一对象的网络页面。9.一种对象的关键词提取装置,其特征在于,包括:获取模块,用于获取第一对象对应的文本信息,所述文本信息用于描述所述第一对象;确定模块,用于根据所述文本信息,确定所述第一对象对应的多个候选关键词;所述确定模块,还用于根据所述多