预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113761902A(43)申请公布日2021.12.07(21)申请号202111323631.3(22)申请日2021.11.10(71)申请人中科雨辰科技有限公司地址100093北京市海淀区清琴麓苑170号楼2层(72)发明人刘羽傅晓航林方刘宸(74)专利代理机构北京锺维联合知识产权代理有限公司11579代理人丁慧玲(51)Int.Cl.G06F40/284(2020.01)G06F40/216(2020.01)权利要求书2页说明书5页附图1页(54)发明名称目标关键词提取系统(57)摘要本发明涉及一种目标关键词提取系统,实现:步骤S1、获取待处理文档,基于关键词库从待处理文档中提取第一候选关键词,构建第一候选关键词集合;步骤S2、将每一候选关键词转换为对应的第一候选词向量,构建第一候选词向量集合;步骤S3、将第一候选词向量集合中第一候选词向量所有进行聚类处理,得到N个第一候选词向量子集,基于第一候选关键词集合获取每一第一候选词向量子集对应的第一候选关键词子集;步骤S4、获取每一第一候选关键词子集中所有第一候选关键词的平均字符数,将平均字符数最大的第一候选关键词子集确定为第二候选关键词集合;步骤S5、从第二候选关键词集合中确定目标关键词。本发明提高了目标关键词提取的准确度。CN113761902ACN113761902A权利要求书1/2页1.一种目标关键词提取系统,其特征在于,包括预先构建的关键词库、预先训练的词向量转换模型、处理器和存储有计算机程序的存储器,所述关键词库包括属于至少一个专业领域的目标关键词集合,当所述处理器执行所述计算机程序时,实现以下步骤:步骤S1、获取待处理文档,基于所述关键词库从所述待处理文档中提取第一候选关键词,构建第一候选关键词集合;步骤S2、将每一候选关键词通过所述词向量转换模型转换为对应的第一候选词向量,构建第一候选词向量集合;步骤S3、将所述第一候选词向量集合中第一候选词向量所有进行聚类处理,得到N个第一候选词向量子集,基于第一候选关键词集合获取每一第一候选词向量子集对应的第一候选关键词子集,N大于等于2;步骤S4、获取每一第一候选关键词子集中所有第一候选关键词的平均字符数,将平均字符数最大的第一候选关键词子集确定为第二候选关键词集合;步骤S5、从所述第二候选关键词集合中确定目标关键词。2.根据权利要求1所述的系统,其特征在于,还包括汉字拼音映射表,用于存储每一汉字对应的拼音字符串,所述拼音字符串包括汉字对应的拼音和预设的标注字符,所述步骤S1包括:步骤S11、将所述关键词库中的每一关键词进行分词,将分词之间采用预设的第一分隔符分开,得到分词关键词;步骤S12、基于所述汉字拼音映射表将每一分词关键词中的每个字转换为对应的拼音字符串,得到对应的关键词字符串;步骤S13、将所述待处理文档进行去停用词、分词处理,将分词之间采用预设的第一分隔符分开,基于所述汉字拼音映射表将每个字转换为对应的拼音字符串,依次按照第一分隔符和分词步长构建文本候选词库,文本候选词包括一个分词字符串,或多个连续的由第一分隔符分隔的分词字符串;步骤S14、基于每一关键词字符串查询所述文本候选词库,若所述文本候选词库中包括该关键词字符串,则将该字符串对应的关键词确定为第一候选关键词,将所有第一候选关键词构建第一候选关键词集合。3.根据权利要求2所述的系统,其特征在于,所述关键词词库包括I个关键词{C1,C2,…CI},Ci为第i个关键词,i的取值范围为1到I,Ci对应的关键词字符串为Di,,为Di的第j个字符,iJ为Di的字符总数;所述步骤S14中,基于每一关键词字符串查询所述文本候选词库,若所述文本候选词库中包括该关键词字符串,则将该字符串对应的关键词确定为第一候选关键词,包括:步骤S141、初始化i=1,j=1,初始化查询字符串Q=,初始化查询候选词集合R为空;步骤S142、基于Q查询所述文本候选词库,将包含Q的候选词添加至R,若R不为空,则执行步骤S143,若为空,则执行步骤S1452CN113761902A权利要求书2/2页步骤S143、判断j是否小于iJ,若小于,则设置,j=j+1,返回执行步骤S144,若j=iJ,则判断R中是否存在与Di完全相同的分词,若存在,则确定Di为第一候选关键词,加入所述第一候选分词集合中,若不存在,则执行步骤S145;步骤S144、基于Q查询R,将R中不包含Q的分词删除,返回执行步骤是143,若R不为空,则执行步骤S145;步骤S145、判断i是否小于I,若小于,则设置i=i+1,j=1,Q=,设置查询候选词集合R为空,返回执行步骤S142,若i=I,则结束流程。4.根据权利要求1所述的系统,其特征在于,所