预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110889287A(43)申请公布日2020.03.17(21)申请号201911088877.X(22)申请日2019.11.08(71)申请人创新工场(广州)人工智能研究有限公司地址510700广东省广州市黄埔区光谱中路23号A2栋1001房(72)发明人宋思睿宋彦(74)专利代理机构北京启坤知识产权代理有限公司11655代理人赵晶(51)Int.Cl.G06F40/295(2020.01)权利要求书3页说明书14页附图3页(54)发明名称一种用于命名实体识别的方法与装置(57)摘要本发明的目的是提供一种命名实体识别方法与装置。通过经训练好的命名实体识别模型对检测文本进行命名实体识别,根据首次输出的识别结果维护对应所述检测文本的词表,所述词表包括已识别的命名实体及其属性信息;将由所述词表生成的输入词向量与所述检测文本再次输入所述命名实体识别模型,以获得新一轮的识别结果并更新所述词表,经过多轮循环直至当前识别的命名实体与上一轮识别的命名实体一致;根据最后一轮的识别结果,确定所述检测文本中的命名实体。由于引入了动态词表,本发明可以在NER检测过程中不断地扩充检测文本的词表,从而提高了词表的覆盖范围,使得预测难度低的词能够先被加入词表中来帮助识别预测难度大的词,增加了NER的识别准确率。CN110889287ACN110889287A权利要求书1/3页1.一种命名实体识别方法,其中,该方法包括以下步骤:获取检测文本;通过经训练好的命名实体识别模型对所述检测文本进行命名实体识别,根据首次输出的识别结果维护对应所述检测文本的词表,所述词表包括已识别的命名实体及其属性信息;将由所述词表生成的输入词向量与所述检测文本再次输入所述命名实体识别模型,以获得新一轮的识别结果并更新所述词表,经过多轮循环直至当前识别的命名实体与上一轮识别的命名实体一致;其中,所述输入词向量包括所述已识别的命名实体以及所述属性信息对应的权重;根据最后一轮的识别结果,确定所述检测文本中的命名实体。2.根据权利要求1所述的方法,其中,所述属性信息包括所述已识别的命名实体的置信度和/或所述已识别的命名实体在所述检测文本中的出现频率。3.根据权利要求1或2所述的方法,其中,所述检测文本与其他至少一检测文本基于内容关联存在顺序关系,在每一轮识别中,所述检测文本与所述其他至少一检测文本按照所述顺序关系被分别输入至所述命名实体识别模型进行命名实体识别,其中,在每一轮识别中,按照所述顺序关系,由排序在先的检测文本对应的词表生成的输入词向量与当前检测文本一起被输入所述命名实体识别模型,其中,所述属性信息还包括所述已识别的命名实体在其对应检测文本中的出现位置。4.根据权利要求1至3中任一项所述的方法,其中,所述由所述词表生成的输入词向量被输入至所述命名实体识别模型中的任一层。5.根据权利要求1至4中任一项所述的方法,其中,该方法还包括:对第一命名实体识别模型进行训练,以获得训练好的所述命名实体识别模型,其中,所述训练包括:对输入的训练文本通过所述第一命名实体识别模型来进行命名实体识别,根据首次输出的识别结果建立对应所述训练文本的第一词表,所述第一词表包括已识别的第一命名实体及其第一属性信息;将由所述第一词表生成的第一输入词向量与所述训练文本再次输入所述命名实体识别模型,以获得新一轮的识别结果并更新所述第一词表,经过多轮循环直至所述训练的目标函数收敛;其中,所述第一输入词向量包括所述已识别的第一命名实体以及所述第一属性信息对应的权重。6.一种命名实体识别方法,其中,该方法包括以下步骤:对第一命名实体识别模型进行训练,以获得训练好的第二命名实体识别模型,其中,所述训练包括:-对输入的训练文本通过所述第一命名实体识别模型来进行命名实体识别,根据首次输出的识别结果建立对应所述训练文本的第一词表,所述第一词表包括已识别的第一命名实体及其第一属性信息;-将由所述第一词表生成的第一输入词向量与所述训练文本再次输入所述第一命名实体识别模型,以获得新一轮的识别结果并更新所述第一词表,经过多轮循环直至所述训练的目标函数收敛;其中,所述第一输入词向量包括所述已识别的第一命名实体以及所述第2CN110889287A权利要求书2/3页一属性信息对应的权重。7.根据权利要求6所述的方法,其中,该方法还包括:获取检测文本;通过所述第二命名实体识别模型对所述检测文本进行命名实体识别,根据首次输出的识别结果维护对应所述检测文本的词表,所述词表包括已识别的命名实体及其属性信息;将由所述词表生成的输入词向量与所述检测文本再次输入所述命名实体识别模型,以获得新一轮的识别结果并更新所述词表,经过多轮循环直至当前识别的命名实体与上一轮识别的命名实体