命名实体识别方法、命名实体识别模型的训练方法及装置-豆柴文库

命名实体识别方法、命名实体识别模型的训练方法及装置.pdf

2023-12-04

10金币

735KB

28页

爱欢****23

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共28页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109902307A(43)申请公布日2019.06.18(21)申请号201910200009.X(22)申请日2019.03.15(71)申请人北京金山数字娱乐科技有限公司地址100085北京市海淀区小营西路33号金山软件大厦2层西区申请人成都金山互动娱乐科技有限公司(72)发明人李长亮侯昶宇汪美玲唐剑波(74)专利代理机构北京柏杉松知识产权代理事务所(普通合伙)11413代理人孙翠贤高莺然(51)Int.Cl.G06F17/27(2006.01)G06N3/08(2006.01)权利要求书4页说明书20页附图3页(54)发明名称命名实体识别方法、命名实体识别模型的训练方法及装置(57)摘要本发明实施例提供了一种命名实体识别方法，方法包括：获取待进行命名实体识别的目标文本；将目标文本输入到预设的命名实体识别模型中，得到目标文本的命名实体识别结果；其中，命名实体识别模型为采用训练样本和训练样本的标注信息训练得到的；命名实体识别模型包括：长短期记忆网络LSTM层；其中，LSTM层对训练样本中除前两个字以外的每一个字的处理过程包括：如果训练样本中该字之前的内容存在词语，对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量。与现有技术相比，应用本发明实施例提供的方法，对文本进行命名实体识别时，可以提高得到的识别结果的准确率。CN109902307ACN109902307A权利要求书1/4页1.一种命名实体识别方法，其特征在于，所述方法包括：获取待进行命名实体识别的目标文本；将所述目标文本输入到预设的命名实体识别模型中，得到所述目标文本的命名实体识别结果；其中，所述命名实体识别模型为采用训练样本和所述训练样本的标注信息训练得到的模型；所述命名实体识别模型包括：长短期记忆网络LSTM层；其中，所述LSTM层对所述训练样本中的每一个字的处理过程包括：针对所述训练样本中的第一个字，对该字的字向量进行特征提取，得到该字的初始特征向量；针对所述训练样本中的第二个字，对该字的字向量和该字的上一个字的初始特征向量进行特征提取，得到该字的初始特征向量；针对所述训练样本中除前两个字以外的每一个字，如果所述训练样本中该字之前的内容存在词语，对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量；否则，对该字的字向量和该字的上一个字的初始特征向量进行特征提取，得到该字的初始特征向量。2.根据权利要求1所述的方法，其特征在于，所述LSTM层对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量的步骤，包括：判断所存在词语中，是否包含该字对应的目标词；其中，所述目标词为：在该字之前，且与该字相邻的词语；如果存在，对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量；否则，对该字的字向量和该字的上一个字的初始特征向量进行特征提取，得到该字的初始特征向量。3.根据权利要求1所述的方法，其特征在于，所述LSTM层针对所述训练样本的每一个字，在提取该字的初始特征向量之前，还包括：获取所述训练样本中，以该字作为第一个字的多个文字组合，其中，每一文字组合为所述训练样本中连续且少于预定数量的各个字的组合；针对每一文字组合，判断预设的词语库中是否存在该文字组合，如果存在，判定该文字组合为词语。4.根据权利要求1-3任一项所述的方法，其特征在于，所述命名实体识别模型还包括中间层，所述中间层为膨胀卷积层。5.一种命名实体识别模型的训练方法，其特征在于，所述方法包括：获得待利用的训练样本和所述训练样本的标注信息；基于所述训练样本和所述训练样本的标注信息，对所述命名实体识别模型中的各个网络层进行训练，得到训练完成的命名实体识别模型；其中，所述各个网络层包括长短期记忆网络LSTM层，所述LSTM层对所述训练样本中的每一个字的处理过程包括：针对所述训练样本中的第一个字，对该字的字向量进行特征提取，得到该字的初始特2CN109902307A权利要求书2/4页征向量；针对所述训练样本中的第二个字，对该字的字向量和该字的上一个字的初始特征向量进行特征提取，得到该字的初始特征向量；针对所述训练样本中除前两个字以外的每一个字，如果所述训练样本中该字之前的内容存在词语，对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量；否则，对该字的字向量和该字的上一个字的初始特征向量进行特征提取，得到该字的初始特征向量。6.根据权利要求5所述的方法，其特征在于，所述LSTM层对该字的字向量、该字的上一

相关资料

命名实体识别方法、命名实体识别模型的训练方法及装置.pdf

本发明实施例提供了一种命名实体识别方法，方法包括：获取待进行命名实体识别的目标文本；将目标文本输入到预设的命名实体识别模型中，得到目标文本的命名实体识别结果；其中，命名实体识别模型为采用训练样本和训练样本的标注信息训练得到的；命名实体识别模型包括：长短期记忆网络LSTM层；其中，LSTM层对训练样本中除前两个字以外的每一个字的处理过程包括：如果训练样本中该字之前的内容存在词语，对该字的字向量、该字的上一个字的初始特征向量和所存在词语的词向量进行特征提取，得到该字的初始特征向量。与现有技术相比，应用本发明实

2023-12-04

735KB

命名实体的识别方法和命名实体识别模型的训练方法.pdf

本公开提供了一种命名实体的识别方法和命名实体识别模型的训练方法，涉及人工智能领域，具体涉及自然语言处理和深度学习等技术领域，可应用于知识挖掘和知识图谱构建等场景。命名实体的识别方法的具体实现方案为：根据待识别命名实体的实体类型和待识别文本，获得标记序列；对标记序列进行语义编码，得到实体类型和待识别文本的语义特征；对语义特征进行解码，得到标注矩阵；标注矩阵指示标记序列中的目标标记和语义相邻关系；以及根据标注矩阵，确定待识别文本中属于实体类别的目标命名实体，其中，目标标记为对应目标命名实体的标记；语义相邻关系

2023-06-01

2.8MB

命名实体识别模型建立方法及命名实体识别方法.pdf

本公开提供一种命名实体识别模型建立方法，其包括：获取目标领域的训练文本集；基于目标领域的领域特征构建命名实体种类集以及文本段落类别集；基于文本段落类别集以及命名实体种类集构建“文本段落类别‑命名实体种类”映射字典；使用“文本段落类别‑命名实体种类”映射字典对训练文本集中的所有训练文本进行标注，获得每个训练文本的标注序列集，对每个训练文本的标注序列集进行修正，获得修正后的标注序列集；以及至少基于训练文本集的所有训练文本的修正后的标注序列集进行命名实体识别模型训练，获得命名实体识别模型。本公开还提供一种命名实

2023-07-25

1KB

模型训练、命名实体识别方法及装置.pdf

本说明书实施例提供一种模型训练、命名实体识别方法及装置。在模型训练时，将第一样本序列中的第一命名实体替换为第一预设字符，得到第二样本序列，并从第二样本序列中确定包含第一预设字符的文本片段；采用第一递归神经网络，递归地确定第二样本序列中多个分词的隐向量，并确定文本片段的表征向量；通过变分自编码器，基于表征向量构建高斯分布并确定针对文本片段的全局隐向量；采用第一递归神经网络，以全局隐向量作为初始隐向量，递归地确定文本片段中分词的解码隐向量，并确定文本片段中分词的预测值；基于文本片段中分词与其预测值的差异以及分

2023-05-25

1.4MB

模型对抗训练、命名实体识别方法及装置.pdf

本说明书实施例提供一种模型对抗训练、命名实体识别方法及装置。在模型训练中，将第一样本序列中的第一命名实体替换为其对应的原始标签字符，得到第二样本序列，并从第二样本序列中确定包含替换的原始标签字符的第一文本片段，确定第一文本片段的分类标签值为第一值，用于表示已替换命名实体；采用特征提取网络，确定第二样本序列中多个分词的特征隐向量；基于第二样本序列中多个分词的特征隐向量，确定第一文本片段的第一片段向量，将第一片段向量输入第一判别器，得到第一预测值；基于第一预测值与第一值的差异，确定第一损失值；以最小化第一损失

2023-05-25

1MB