预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共26页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113761923A(43)申请公布日2021.12.07(21)申请号202011159598.0G06N3/04(2006.01)(22)申请日2020.10.26(71)申请人北京沃东天骏信息技术有限公司地址100176北京市大兴区北京经济技术开发区科创十一街18号院2号楼4层A402室申请人北京京东世纪贸易有限公司(72)发明人金鑫(74)专利代理机构中科专利商标代理有限责任公司11021代理人孙蕾(51)Int.Cl.G06F40/295(2020.01)G06F40/30(2020.01)G06K9/62(2006.01)权利要求书2页说明书17页附图6页(54)发明名称命名实体识别方法、装置、电子设备及存储介质(57)摘要本公开实施例提供了一种命名实体识别方法、装置、电子设备及存储介质。该方法包括:获取待识别文本;对待识别文本进行特征提取,得到目标全局特征向量和目标局部特征向量;将目标全局特征向量和目标局部特征向量进行拼接,得到目标特征向量;以及,利用命名实体识别模型处理目标特征向量,得到用于表征待识别文本的实体类别识别结果。CN113761923ACN113761923A权利要求书1/2页1.一种命名实体识别方法,包括:获取待识别文本;对所述待识别文本进行特征提取,得到目标全局特征向量和目标局部特征向量;将所述目标全局特征向量和所述目标局部特征向量进行拼接,得到目标特征向量;以及利用命名实体识别模型处理所述目标特征向量,得到用于表征所述待识别文本的实体类别识别结果。2.根据权利要求1所述的方法,其中,所述目标局部特征向量包括第一句子级特征向量和第二句子级特征向量;所述对所述待识别文本进行特征提取,得到目标局部特征向量,包括:获取字典,其中,所述字典包括多个实体和与每个所述实体对应的实体类别,所述实体类别包括多种;从所述字典中查找与所述待识别文本中的每个词组元素所匹配的实体;根据预设匹配规则,确定每个所述词组元素和与每个所述词组元素所匹配的实体之间的匹配程度;根据与每个所述词组元素所匹配的实体对应的实体类别,以及,每个所述词组元素和与每个所述词组元素所匹配的实体之间的匹配程度,得到所述第一句子级特征向量;以及利用预设转换规则处理所述待识别文本得到所述第二句子级特征向量,其中,所述预设转换规则用于将所述待识别文本中的大写字母、小写字母、数字和标点分别转换为对应的预设形式。3.根据权利要求2所述的方法,其中,所述根据与每个所述词组元素所匹配的实体对应的实体类别,以及,每个所述词组元素和与每个所述词组元素所匹配的实体之间的匹配程度,得到所述第一句子级特征向量,包括:根据与每个所述词组元素所匹配的实体对应的实体类别,以及,每个所述词组元素和与每个所述词组元素所匹配的实体之间的匹配程度,得到与每个所述词组元素对应的向量,其中,所述向量中的每个分量用于表征所述词组元素与对应的所述实体类别的匹配程度;以及根据所述待识别文本中的与每个所述词组元素对应的向量,得到所述第一句子级特征向量。4.根据权利要求2所述的方法,其中,所述目标局部特征向量还包括字符级特征向量;所述对所述待识别文本进行特征提取,得到目标局部特征向量,包括:利用嵌入字符提取模型处理所述待识别文本,得到嵌入字符,其中,所述嵌入字符提取模型是基于第一神经网络模型训练生成的;以及利用字符级特征提取模型处理所述嵌入字符,得到所述字符级特征向量,其中,所述字符级特征提取模型是基于卷积神经网络模型训练生成的。5.根据权利要求1所述的方法,其中,所述目标全局特征向量包括单词级特征向量;所述对所述待识别文本进行特征提取,得到目标全局特征向量,包括:利用单词级特征提取模型处理所述待识别文本,得到所述单词级特征向量,其中,所述单词级特征提取模型是基于第二神经网络模型训练生成的。2CN113761923A权利要求书2/2页6.根据权利要求1所述的方法,其中,所述命名实体识别模型是基于双向长短期记忆神经网络模型训练生成的,包括:获取训练样本集,其中,所述训练样本集包括多个训练文本和与每个所述训练文本对应的真实标注信息;对每个所述训练文本进行特征提取得到样本全局特征向量和样本局部特征向量;将与每个所述训练文本对应的样本全局特征向量和样本局部特征向量进行拼接,得到与每个所述训练文本对应的样本特征向量;以及利用多个所述样本特征向量和多个所述真实标注信息对所述双向长短期记忆神经网络模型进行训练,得到所述命名实体识别模型。7.根据权利要求6所述的方法,其中,所述利用多个所述样本特征向量和多个所述真实标注信息对所述双向长短期记忆神经网络模型进行训练,得到所述命名实体识别模型,包括:将与每个所述训练文本对应的样本特征向量输入