预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109902307A(43)申请公布日2019.06.18(21)申请号201910200009.X(22)申请日2019.03.15(71)申请人北京金山数字娱乐科技有限公司地址100085北京市海淀区小营西路33号金山软件大厦2层西区申请人成都金山互动娱乐科技有限公司(72)发明人李长亮侯昶宇汪美玲唐剑波(74)专利代理机构北京柏杉松知识产权代理事务所(普通合伙)11413代理人孙翠贤高莺然(51)Int.Cl.G06F17/27(2006.01)G06N3/08(2006.01)权利要求书4页说明书20页附图3页(54)发明名称命名实体识别方法、命名实体识别模型的训练方法及装置(57)摘要本发明实施例提供了一种命名实体识别方法,方法包括:获取待进行命名实体识别的目标文本;将目标文本输入到预设的命名实体识别模型中,得到目标文本的命名实体识别结果;其中,命名实体识别模型为采用训练样本和训练样本的标注信息训练得到的;命名实体识别模型包括:长短期记忆网络LSTM层;其中,LSTM层对训练样本中除前两个字以外的每一个字的处理过程包括:如果训练样本中该字之前的内容存在词语,对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取,得到该字的初始特征向量。与现有技术相比,应用本发明实施例提供的方法,对文本进行命名实体识别时,可以提高得到的识别结果的准确率。CN109902307ACN109902307A权利要求书1/4页1.一种命名实体识别方法,其特征在于,所述方法包括:获取待进行命名实体识别的目标文本;将所述目标文本输入到预设的命名实体识别模型中,得到所述目标文本的命名实体识别结果;其中,所述命名实体识别模型为采用训练样本和所述训练样本的标注信息训练得到的模型;所述命名实体识别模型包括:长短期记忆网络LSTM层;其中,所述LSTM层对所述训练样本中的每一个字的处理过程包括:针对所述训练样本中的第一个字,对该字的字向量进行特征提取,得到该字的初始特征向量;针对所述训练样本中的第二个字,对该字的字向量和该字的上一个字的初始特征向量进行特征提取,得到该字的初始特征向量;针对所述训练样本中除前两个字以外的每一个字,如果所述训练样本中该字之前的内容存在词语,对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取,得到该字的初始特征向量;否则,对该字的字向量和该字的上一个字的初始特征向量进行特征提取,得到该字的初始特征向量。2.根据权利要求1所述的方法,其特征在于,所述LSTM层对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取,得到该字的初始特征向量的步骤,包括:判断所存在词语中,是否包含该字对应的目标词;其中,所述目标词为:在该字之前,且与该字相邻的词语;如果存在,对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取,得到该字的初始特征向量;否则,对该字的字向量和该字的上一个字的初始特征向量进行特征提取,得到该字的初始特征向量。3.根据权利要求1所述的方法,其特征在于,所述LSTM层针对所述训练样本的每一个字,在提取该字的初始特征向量之前,还包括:获取所述训练样本中,以该字作为第一个字的多个文字组合,其中,每一文字组合为所述训练样本中连续且少于预定数量的各个字的组合;针对每一文字组合,判断预设的词语库中是否存在该文字组合,如果存在,判定该文字组合为词语。4.根据权利要求1-3任一项所述的方法,其特征在于,所述命名实体识别模型还包括中间层,所述中间层为膨胀卷积层。5.一种命名实体识别模型的训练方法,其特征在于,所述方法包括:获得待利用的训练样本和所述训练样本的标注信息;基于所述训练样本和所述训练样本的标注信息,对所述命名实体识别模型中的各个网络层进行训练,得到训练完成的命名实体识别模型;其中,所述各个网络层包括长短期记忆网络LSTM层,所述LSTM层对所述训练样本中的每一个字的处理过程包括:针对所述训练样本中的第一个字,对该字的字向量进行特征提取,得到该字的初始特2CN109902307A权利要求书2/4页征向量;针对所述训练样本中的第二个字,对该字的字向量和该字的上一个字的初始特征向量进行特征提取,得到该字的初始特征向量;针对所述训练样本中除前两个字以外的每一个字,如果所述训练样本中该字之前的内容存在词语,对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取,得到该字的初始特征向量;否则,对该字的字向量和该字的上一个字的初始特征向量进行特征提取,得到该字的初始特征向量。6.根据权利要求5所述的方法,其特征在于,所述LSTM层对该字的字向量、该字的上一