关系抽取方法、系统、设备及存储介质-豆柴文库

关系抽取方法、系统、设备及存储介质.pdf

2023-07-22

10金币

459KB

12页

努力****甲寅

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共12页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114969372A(43)申请公布日2022.08.30(21)申请号202210616979.XG06F40/30(2020.01)(22)申请日2022.06.01(71)申请人中译语通科技股份有限公司地址100131北京市石景山区石景山路20号中铁建设大厦16层(72)发明人徐芳蔡超武学敏杨万征王雪(74)专利代理机构北京兴智翔达知识产权代理有限公司11768专利代理师郭卫芹(51)Int.Cl.G06F16/36(2019.01)G06F16/28(2019.01)G06F40/216(2020.01)G06F40/279(2020.01)权利要求书2页说明书7页附图2页(54)发明名称关系抽取方法、系统、设备及存储介质(57)摘要本发明提出一种关系抽取方法、系统、设备及存储介质，该方法包括：获取待抽取目标文本；将所述待抽取目标文本输入到关系抽取模型中，获取所述待抽取目标文本对应的实体关系，其中，所述关系抽取模型为神经网络模型，所述关系抽取模型通过样本文本和样本标签进行训练得到，所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。本发明采用对prompt进行部分掩码掉的操作可以有效的降低预训练模型微调和训练过程中的误差，同时对prompt和原始文本构建句子对原始一条文本数据构建出多条数据的方式可以解决微调语料不足的情况，将已有知识进行最大化利用，提高本发明实施例中关系抽取方法的准确性。CN114969372ACN114969372A权利要求书1/2页1.一种关系抽取方法，其特征在于，包括：获取待抽取目标文本；将所述待抽取目标文本输入到关系抽取模型中，获取所述待抽取目标文本对应的实体关系，其中，所述关系抽取模型为神经网络模型，所述关系抽取模型通过样本文本和样本标签进行训练得到，所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。2.根据权利要求1所述的关系抽取方法，其特征在于，所述关系抽取模型通过样本文本和样本标签进行训练得到，通过如下步骤得到：对所述样本文本进行特征提取，获取所述样本文本中的样本实体；根据所述样本实体，基于预设实体关系模板，对所述样本实体构建模板样本文本，所述模板样本文本包括正模板样本文本和负模板样本文本；利用所述模板样本文本对BERT中的句子对预测任务构建模型进行训练；对所述正模板样本文本中表征关系的词语进行掩码，并利用掩码后的正模板样本文本和所述样本标签对BERT的掩码语言模型进行训练，获取训练后的BERT模型，将训练后的BERT模型作为所述关系抽取模型。3.根据权利要求2所述的关系抽取方法，其特征在于，所述对所述样本文本进行特征提取，获取所述样本文本中的样本实体，包括：利用机器学习，对所述样本文本进行识别，获取样本实体。4.根据权利要求2所述的关系抽取方法，其特征在于，所述根据所述样本实体，基于预设实体关系模板，对所述样本实体构建模板样本文本，包括：对于所述样本实体中第一样本实体和第二样本实体，对于所述预设实体关系模板中的每一预设实体关系，构造出所有能表达所述第一样本实体和所述第二样本实体为预设实体关系的语句，构造成的语句即为模板样本文本。5.根据权利要求3所述的关系抽取方法，其特征在于，所述对所述正模板样本文本中表征关系的词语进行掩码，包括：保留所述正模板样本文本中的实体字样，对所述正模板样本文本中的关系字样进行掩码。6.一种关系抽取系统，其特征在于，包括：获取模块，用于获取待抽取目标文本；抽取模块，用于将所述待抽取目标文本输入到关系抽取模型中，获取所述待抽取目标文本对应的实体关系，其中，所述关系抽取模型为神经网络模型，所述关系抽取模型通过样本文本和样本标签进行训练得到，所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。7.根据权利要求6所述的关系抽取系统，其特征在于，所述抽取模块包括特征提取单元、样本构建单元、第一训练单元、第二训练单元所述特征提取单元用于对所述样本文本进行特征提取，获取所述样本文本中的样本实体；所述样本构建单元用于根据所述样本实体，基于预设实体关系模板，对所述样本实体构建模板样本文本，所述模板样本文本包括正模板样本文本和负模板样本文本；所述第一训练单元用于利用所述模板样本文本对BERT中的句子对预测任务构建模型2CN114969372A权利要求书2/2页进行训练；所述第二训练单元用于对所述正模板样本文本中表征关系的词语进行掩码，并利用掩码后的正模板样本文本和所述样本标签对BERT的掩码语言模型进行训练，获取训练后的BERT模型，将训练后的BERT模型作为所述关系抽取模型。8.根据权利要求7所述的关系抽取系统，其特征在于，所述样本构建单元包括样本构建子单元，其中：所述样本构建子单元用于对

相关资料

关系抽取方法、系统、设备及存储介质.pdf

本发明提出一种关系抽取方法、系统、设备及存储介质，该方法包括：获取待抽取目标文本；将所述待抽取目标文本输入到关系抽取模型中，获取所述待抽取目标文本对应的实体关系，其中，所述关系抽取模型为神经网络模型，所述关系抽取模型通过样本文本和样本标签进行训练得到，所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。本发明采用对prompt进行部分掩码掉的操作可以有效的降低预训练模型微调和训练过程中的误差，同时对prompt和原始文本构建句子对原始一条文本数据构建出多条数据的方式可以解决微调语料不足的情况，将已

2023-07-22

459KB

关系抽取方法、装置、设备和存储介质.pdf

本申请公开了一种关系抽取方法、装置、设备和存储介质，涉及人工智能、智慧交通等技术领域。所述方法包括：获取包含第一实体和第二实体的目标文本；对目标文本中的第一实体、第二实体和关键词进行标注，得到带标注的目标文本；对带标注的目标文本进行编码处理，得到第一实体对应的编码表示向量和实体关键词表示向量，以及第二实体对应的编码表示向量和实体关键词表示向量；根据第一实体对应的编码表示向量和实体关键词表示向量，以及第二实体对应的编码表示向量和实体关键词表示向量，确定第一实体和第二实体间的关系。本申请提供了一种泛化性更强的

2023-07-24

1.4MB

一种实体关系抽取方法、系统、设备及可读存储介质.pdf

本发明涉及一种实体关系抽取方法、系统、设备及可读存储介质,包括:将待进行实体关系抽取的句子输入至word2vec网络中得到句子的特征输入向量,将所述特征输入向量输入至BiGRU网络中进行前向后向学习得到目标特征向量,利用多分支注意力机制计算目标特征向量权重值,采用softmax函数根据所述目标特征向量权重值计算句子中每个词被选作实体关系的概率,本发明提供的实体关系抽取方法将可以更好地处理实体特征表达,使句子特征信息在传递过程中保留句子前后的依赖信息,减少句子特征值在传递过程中的退化问题,更好地解决长期依赖

2023-04-26

746KB

文本中实体关系的抽取方法、装置、设备及存储介质.pdf

本申请公开了一种文本中实体关系的抽取方法、装置、设备及存储介质，涉及人工智能领域。方法包括：对目标文本进行编码，得到目标文本中各个词对应的词向量；基于各个词对应的词向量，确定目标文本对应的潜在实体关系，目标文本中存在潜在实体关系的概率高于存在潜在实体关系外其它候选实体关系的概率；基于潜在实体关系以及各个词对应的词向量，确定目标文本中的目标主体和目标客体，目标主体和目标客体属于实体；基于目标主体、潜在实体关系以及目标客体，从目标文本中抽取实体关系三元组。通过对候选实体关系进行筛选得到潜在实体关系，减少冗余实

2023-07-25

1.2MB

基于实体感知的关系抽取方法、装置、设备及存储介质.pdf

本发明公开了基于实体感知的关系抽取方法、装置、设备及存储介质，步骤：为实体构建标记序列，并将标记序列与文本拼接得到输入序列；构建输入序列的掩码矩阵；使用预训练语言模型编码输入序列得到文本向量序列；取出已知实体的首尾向量拼接并映射得到实体向量表示；将各个实体向量两两拼接预测实体对关系。本发明的基于实体感知的关系抽取方法，在不改变预训练模型结构的基础上，通过重新定义预训练模型预留字符，结合掩码机制和位置编码，在文本编码层融合了多实体信息，实现了融合实体信息的一次编码模型，相比于现有技术，其步序较为简单，抽取效

2023-11-05

475KB