预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113807097A(43)申请公布日2021.12.17(21)申请号202110939636.2G06N3/08(2006.01)(22)申请日2020.11.20(62)分案原申请数据202011305077.12020.11.20(71)申请人北京中科凡语科技有限公司地址100190北京市海淀区知春路63号51号楼10层1006(72)发明人周玉(74)专利代理机构北京庚致知识产权代理事务所(特殊普通合伙)11807代理人韩德凯李晓辉(51)Int.Cl.G06F40/295(2020.01)G06F40/242(2020.01)G06N3/04(2006.01)权利要求书2页说明书13页附图4页(54)发明名称命名实体识别模型建立方法及命名实体识别方法(57)摘要本公开提供一种命名实体识别模型建立方法,其包括:获取目标领域的训练文本集;基于目标领域的领域特征构建命名实体种类集以及文本段落类别集;基于文本段落类别集以及命名实体种类集构建“文本段落类别‑命名实体种类”映射字典;使用“文本段落类别‑命名实体种类”映射字典对训练文本集中的所有训练文本进行标注,获得每个训练文本的标注序列集,对每个训练文本的标注序列集进行修正,获得修正后的标注序列集;以及至少基于训练文本集的所有训练文本的修正后的标注序列集进行命名实体识别模型训练,获得命名实体识别模型。本公开还提供一种命名实体识别方法、实体识别模型建立装置、命名实体识别装置、电子设备及存储介质。CN113807097ACN113807097A权利要求书1/2页1.一种命名实体识别模型建立方法,其特征在于,包括:S1、获取目标领域的训练文本集;S2、基于所述目标领域的领域特征构建命名实体种类集以及文本段落类别集;S3、基于所述文本段落类别集以及所述命名实体种类集构建“文本段落类别‑命名实体种类”映射字典;S4、使用所述“文本段落类别‑命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注,获得每个训练文本的标注序列集,对每个训练文本的标注序列集进行修正,获得修正后的标注序列集;以及S5、至少基于所述训练文本集的所有训练文本的修正后的标注序列集进行命名实体识别模型训练,获得命名实体识别模型。2.根据权利要求1所述的命名实体识别模型建立方法,其特征在于,步骤S4中,使用所述“文本段落类别‑命名实体种类”映射字典对所述训练文本集中的所有训练文本进行标注,获得每个训练文本的标注序列集,包括:S41、基于所述文本段落类别集以及所述训练文本集的每个所述训练文本的各个自然段落的段落特征对每个所述训练文本进行段落类别划分,获得每个所述训练文本的至少一个类别段落;S42、使用所述“文本段落类别‑命名实体种类”映射字典确定所述训练文本集的每个所述训练文本的各个类别段落所对应的命名实体种类;以及S43、基于每个训练文本的各个类别段落所对应的命名实体种类,对各个类别段落进行标注,获得每个类别段落的标注序列,进而获得每个训练文本的标注序列集。3.根据权利要求1或2所述的命名实体识别模型建立方法,其特征在于,所述修正包括以下步骤:逐个字符地读取所述标注序列集的每个标注序列的字符以及字符所对应的标签,将读取的每个标注序列的字符以及字符对应的标签分别存放至字符记录队列以及标签记录队列,直至读取到句间分隔符,获得当前语句的语句字符序列以及语句标签序列,进而获得每个标注序列的所有语句的语句字符序列以及语句标签序列;以及基于每个标注序列的每个语句的至少一个实体种类,对每个语句的语句字符序列以及语句标签序列进行修正,更新每个语句的语句字符序列以及语句标签序列。4.一种命名实体识别方法,使用权利要求1至3所述的方法建立的命名实体识别模型进行命名实体识别,其特征在于,包括:SS1、对输入的目标领域的目标文本进行段落类别划分,获得目标文本的至少一个类别段落;确定所述目标文本的各个类别段落所对应的命名实体种类;以及SS2、基于各个类别段落所对应的命名实体种类,使用所述命名实体识别模型识别所述目标文本中的命名实体。5.一种命名实体识别方法,使用权利要求1至3所述的方法建立的命名实体识别模型进行命名实体识别,其特征在于,包括:SZ1、使用所述命名实体识别模型对输入的目标领域的目标文本进行命名实体识别,获得初步识别结果;对所述目标文本进行段落类别划分,获得所述目标文本的至少一个类别段落,确定所述目标文本的各个类别段落所对应的命名实体种类;以及2CN113807097A权利要求书2/2页SZ2、基于所述目标文本的各个类别段落所对应的命名实体种类,对所述初步识别结果进行校正。6.一种命名实体识别模型建立装置,其特征在于,包括:映射字典构建模块,所述映射