预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113743107A(43)申请公布日2021.12.03(21)申请号202111007981.9(22)申请日2021.08.30(71)申请人北京字跳网络技术有限公司地址100190北京市海淀区紫金数码园4号楼2层0207(72)发明人井玉欣董伟沈雨奇刘江伟王枫(74)专利代理机构泰和泰律师事务所51219代理人祝海燕(51)Int.Cl.G06F40/284(2020.01)G06F40/295(2020.01)权利要求书4页说明书17页附图6页(54)发明名称实体词提取方法、装置和电子设备(57)摘要本公开实施例公开了实体词提取方法、装置和电子设备。该方法的一具体实施方式包括:获取待处理文本,对待处理文本进行预设处理,得到候选实体词集合;提取候选实体词集合中的各个候选实体词的词语特征;基于词语特征,从候选实体词集合中选取出目标实体词,输出目标实体词。该实施方式提高了实体词提取的准确性。CN113743107ACN113743107A权利要求书1/4页1.一种实体词提取方法,其特征在于,包括:获取待处理文本,对所述待处理文本进行预设处理,得到候选实体词集合;提取所述候选实体词集合中的各个候选实体词的词语特征;基于所述词语特征,从所述候选实体词集合中选取出目标实体词,输出所述目标实体词。2.根据权利要求1所述的方法,其特征在于,所述基于所述词语特征,从所述候选实体词集合中选取出目标实体词,包括:基于实体词在所述待处理文本中的位置信息,确定所述候选实体词集合中的各个候选实体词的词语权重;针对所述候选实体词集合中的每个候选实体词,基于该候选实体词的词语特征和词语权重,确定该候选实体词的分数;基于所述候选实体词集合中的各个候选实体词的分数,从所述候选实体词集合中选取出目标实体词。3.根据权利要求2所述的方法,其特征在于,所述待处理文本为中文文本或中英文混合文本,所述词语特征包括词语的逆文档频率、词语的词频逆文档频率、词语在所述待处理文本和目标语料中的N‑Gram分数的比值和词语在所述待处理文本和目标语料中的困惑度的比值;以及所述基于该候选实体词的词语特征和词语权重,确定该候选实体词的分数,包括:对该候选实体词的逆文档频率、该候选实体词的词频逆文档频率、该候选实体词在所述待处理文本和目标语料中的N‑Gram分数的比值以及该候选实体词在所述待处理文本和目标语料中的困惑度的比值进行加权求和,将求和结果与该候选实体词的词语权重相乘,得到该候选实体词的分数。4.根据权利要求2所述的方法,其特征在于,所述待处理文本为英文文本,所述词语特征包括词语的关键词提取分数、词语在所述待处理文本和目标语料中的N‑Gram分数的比值和词语在所述待处理文本和目标语料中的困惑度的比值;以及所述基于该候选实体词的词语特征和词语权重,确定该候选实体词的分数,包括:对该候选实体词的关键词提取分数、该候选实体词在所述待处理文本和目标语料中的N‑Gram分数的比值以及该候选实体词在所述待处理文本和目标语料中的困惑度的比值进行加权求和,将求和结果与该候选实体词的词语权重相乘,得到该候选实体词的分数。5.根据权利要求2所述的方法,其特征在于,所述待处理文本为中文文本或中英文混合文本;以及所述基于所述候选实体词集合中的各个候选实体词的分数,从所述候选实体词集合中选取出目标实体词,包括:基于所述候选实体词集合中的各个候选实体词的分数和词语特征,对所述候选实体词集合进行更新,从更新后的候选实体词集合中选取出目标实体词。6.根据权利要求5所述的方法,其特征在于,所述基于所述候选实体词集合中的各个候选实体词的分数和词语特征,对所述候选实体词集合进行更新,从更新后的候选实体词集合中选取出目标实体词,包括:基于所述候选实体词集合,执行如下实体词选取步骤:从候选实体词集合中选取符合2CN113743107A权利要求书2/4页预设条件的实体词,对符合所述条件的实体词进行组合,得到至少一个词语组合;将所述至少一个词语组合中出现在所述待处理文本中的词语组合确定为候选复合实体词,将所述候选复合实体词添加到候选实体词集合中;针对每个候选复合实体词,基于组成该候选复合实体词的候选实体词的分数,确定该候选复合实体词的分数;基于所述候选复合实体词的分数、所述候选复合实体词的词语特征、候选实体词集合中各个候选实体词的分数和词语特征,对添加后的候选实体词集合进行更新;确定更新后的候选实体词集合与候选实体词集合是否相同;若否,则将更新后的候选实体词集合作为候选实体词集合,继续执行所述实体词选取步骤。7.根据权利要求6所述的方法,其特征在于,在所述确定更新后的候选实体词集合与候选实体词集合是否相同之后,所述方法还包括:若是,则基于更