预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111553156A(43)申请公布日2020.08.18(21)申请号202010451119.6(22)申请日2020.05.25(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人张洪(74)专利代理机构北京博思佳知识产权代理有限公司11415代理人周嗣勇(51)Int.Cl.G06F40/289(2020.01)G06F40/30(2020.01)G06F16/335(2019.01)G06F16/35(2019.01)G06F16/33(2019.01)权利要求书3页说明书16页附图3页(54)发明名称一种关键词提取方法、装置及设备(57)摘要本申请的一个或多个实施例提出关键词提取方法、装置及设备。该方法可以包括,基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词。基于确定的上述候选关键词,构建与上述多个目标分类分别对应的多个候选关键词集合。针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计上述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量。确定上述目标候选关键词集合中,是否可以包括上述数量达到阈值的候选关键词;如果是,将该候选关键词从上述目标候选关键词集合中删除,以得到与上述目标分类对应的关键词集合。从而在关键词提取过程中降低了提取关键词门槛,提升了提取效率与准确率。CN111553156ACN111553156A权利要求书1/3页1.一种关键词提取方法,包括:基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词;基于确定的所述候选关键词,构建与所述多个目标分类分别对应的多个候选关键词集合;针对与任一目标分类对应的目标候选关键词集合中的任一目标候选关键词,统计所述多个候选关键词集合中,包含该目标候选关键词的候选关键词集合的数量;确定所述目标候选关键词集合中,是否包括所述数量达到阈值的候选关键词;如果是,将该候选关键词从所述目标候选关键词集合中删除,以得到与所述目标分类对应的关键词集合。2.根据权利要求1所述的方法,所述多个目标分类分别对应多篇语料文档;所述基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词,包括:将所述多篇语料文档中的若干篇语料文档汇总为一篇语料文档,基于TextRank算法计算汇总后的语料文档包括的各单词的权重值;按照所述权重值大小,对所述汇总后的语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为候选关键词。3.根据权利要求1所述的方法,所述多个目标分类分别对应多篇语料文档;所述基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词,包括:基于TextRank算法计算语料文档包括的各单词的权重值;按照所述权重值大小,对语料文档中的单词排序,并将权重值最大的单词开始的M个单词,确定为与语料文档对应的关键词;针对所述多篇语料文档中的若干篇语料文档分别执行以上步骤;当确定所述多篇语料文档分别对应的关键词后,针对每一所述关键词,将该关键词在各篇语料文档中的权重值进行加权求和;按照所述加权求和结果,对所述关键词进行排序,并将所述加权求和结果最大的关键词开始的N个关键词,确定为候选关键词。4.根据权利要求3所述的方法,所述基于TextRank算法计算语料文档包括的各单词的权重值,包括:对语料文档进行分句处理,得到若干分句;针对每一分句,进行分词处理;将预设单词滑动窗口对分词处理后的每一分句进行滑动,并在每次滑动后,将所述预设单词滑动窗口内出现的具有相邻关系两个单词组成单词对,并统计所述单词对的共现次数;基于统计的所述单词对的共现次数,以及TextRank算法公式迭代计算语料文档包括的各单词的权重值。5.根据权利要求4所述的方法,所述针对每一分句,进行分词处理,包括:通过预设分词模型对每一分句进行分词处理,得到与每一分句分别对应的单词集合;其中,所述单词集合包括,每一分句包括的单词,以及各单词的词性;2CN111553156A权利要求书2/3页基于所述各单词的词性,对所述单词集合中的单词进行过滤。6.根据权利要求5所述的方法,所述方法还包括以下操作中的任一或几项的组合:过滤所述单词集合中包括的无意义字符;过滤所述单词集合中包括的特殊字符;对所述单词集合中的单词进行简繁转换;将所述单词集合中具有相同含义的不同单词用同一单词表示。7.一种关键词提取装置,包括:确定模块,基于TextRank算法从与预设的多个目标分类分别对应的语料文档中确定候选关键词;构建模块,基于确定的所述候选关键词,构建与所述多个目标