预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111400484A(43)申请公布日2020.07.10(21)申请号202010200961.2(22)申请日2020.03.20(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人陈显玲陈晓军杨明晖(74)专利代理机构成都七星天知识产权代理有限公司51253代理人杨永梅(51)Int.Cl.G06F16/335(2019.01)G06F40/289(2020.01)G06F40/284(2020.01)G06F40/205(2020.01)G06K9/62(2006.01)权利要求书2页说明书10页附图2页(54)发明名称一种关键词提取方法和系统(57)摘要本说明书实施例公开了一种关键词提取方法和系统,所述方法包括:获取目标文本;从所述目标文本中选择目标词语;将所述目标文本的信息以及当前选择的目标词语的位置信息输入关键词提取模型,得到该目标词语的去除或保留操作;执行该目标词语的去除或保留操作,得到操作后的目标文本;判断所述操作后的目标文本中是否存在未被执行所述操作的词语;若是,则以所述操作后的目标文本替换所述目标文本,从所述操作后的目标文本中选择其中一个所述未被执行所述操作的词语,以该词语作为所述当前选择的目标词语,重复执行上述输入关键词提取模型至判断的步骤;若否,则将所述操作后的目标文本中的词语确定为所述目标文本的关键词。CN111400484ACN111400484A权利要求书1/2页1.一种关键词提取方法,包括:获取目标文本;从所述目标文本中选择目标词语;将所述目标文本的信息以及当前选择的目标词语的位置信息输入关键词提取模型,得到该目标词语的去除或保留操作;执行该目标词语的去除或保留操作,得到操作后的目标文本;判断所述操作后的目标文本中是否存在未被执行所述操作的词语;若是,则以所述操作后的目标文本替换所述目标文本,从所述操作后的目标文本中选择其中一个所述未被执行所述操作的词语,以该词语作为所述当前选择的目标词语,重复执行上述输入关键词提取模型至判断的步骤;若否,则将所述操作后的目标文本中的词语确定为所述目标文本的关键词。2.如权利要求1所述的方法,在获取目标文本之前,所述方法还包括:获取训练文本,将该训练文本作为所述目标文本,并执行如权利要求1所述的方法,得到对应于该训练文本的所有状态和所有的所述操作构成的策略的总回报值;其中,所述状态用于表征所述训练文本所保留的词语的情况;基于多个所述训练文本的所述总回报值构建损失函数,并基于该损失函数优化所述关键词提取模型。3.如权利要求2所述的方法,所述总回报值正相关于初始的所述训练文本与最终得到的所述操作后的训练文本之间的相似度。4.如权利要求3所述的方法,所述总回报值正相关于初始的所述训练文本的词语数量与最终得到的所述操作后的训练文本的词语数量的比值,和/或,所述总回报值还负相关于最终得到的所述操作后的训练文本的词语数量。5.如权利要求4所述的方法,所述总回报值基于以下公式得到:其中,R为所述总回报值,Eorigin表示初始的所述训练文本,Emasked表示最终得到的所述操作后的训练文本,S(Eorigin,Emasked)表示Eorigin和Emasked的相似度,α,β为权重参数,l为初始的所述训练文本的词语数量,ls为最终得到的所述操作后的训练文本的词语数量。6.如权利要求5所述的方法,所述α和β满足关系式α+β=1,所述α的取值范围为0.7~0.8。7.一种关键词提取系统,包括:获取模块,用于获取目标文本;选择模块,用于从所述目标文本中选择目标词语;输入模块,用于将所述目标文本的信息以及当前选择的目标词语的位置信息输入关键词提取模型,得到该目标词语的去除或保留操作;执行模块,用于执行该目标词语的去除或保留操作,得到操作后的目标文本;判断模块,用于判断所述操作后的目标文本中是否存在未被执行所述操作的词语;重复执行模块,用于当所述操作后的目标文本中存在未被执行所述操作的词语时,以2CN111400484A权利要求书2/2页所述操作后的目标文本替换所述目标文本,从所述操作后的目标文本中选择其中一个所述未被执行所述操作的词语,以该词语作为所述当前选择的目标词语,重复执行上述输入模块、执行模块和判断模块的步骤;确定模块,用于当所述操作后的目标文本中不存在未被执行所述操作的词语时,将所述操作后的目标文本中的词语确定为所述目标文本的关键词。8.如权利要求7所述的系统,所述系统还包括:训练模块,用于获取训练文本,将该训练文本作为所述目标文本输入如权利要求7所述的系统,得到对应于该训练文本的所有状态和所有的所述操作构成的策略的总回报