预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114969372A(43)申请公布日2022.08.30(21)申请号202210616979.XG06F40/30(2020.01)(22)申请日2022.06.01(71)申请人中译语通科技股份有限公司地址100131北京市石景山区石景山路20号中铁建设大厦16层(72)发明人徐芳蔡超武学敏杨万征王雪(74)专利代理机构北京兴智翔达知识产权代理有限公司11768专利代理师郭卫芹(51)Int.Cl.G06F16/36(2019.01)G06F16/28(2019.01)G06F40/216(2020.01)G06F40/279(2020.01)权利要求书2页说明书7页附图2页(54)发明名称关系抽取方法、系统、设备及存储介质(57)摘要本发明提出一种关系抽取方法、系统、设备及存储介质,该方法包括:获取待抽取目标文本;将所述待抽取目标文本输入到关系抽取模型中,获取所述待抽取目标文本对应的实体关系,其中,所述关系抽取模型为神经网络模型,所述关系抽取模型通过样本文本和样本标签进行训练得到,所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。本发明采用对prompt进行部分掩码掉的操作可以有效的降低预训练模型微调和训练过程中的误差,同时对prompt和原始文本构建句子对原始一条文本数据构建出多条数据的方式可以解决微调语料不足的情况,将已有知识进行最大化利用,提高本发明实施例中关系抽取方法的准确性。CN114969372ACN114969372A权利要求书1/2页1.一种关系抽取方法,其特征在于,包括:获取待抽取目标文本;将所述待抽取目标文本输入到关系抽取模型中,获取所述待抽取目标文本对应的实体关系,其中,所述关系抽取模型为神经网络模型,所述关系抽取模型通过样本文本和样本标签进行训练得到,所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。2.根据权利要求1所述的关系抽取方法,其特征在于,所述关系抽取模型通过样本文本和样本标签进行训练得到,通过如下步骤得到:对所述样本文本进行特征提取,获取所述样本文本中的样本实体;根据所述样本实体,基于预设实体关系模板,对所述样本实体构建模板样本文本,所述模板样本文本包括正模板样本文本和负模板样本文本;利用所述模板样本文本对BERT中的句子对预测任务构建模型进行训练;对所述正模板样本文本中表征关系的词语进行掩码,并利用掩码后的正模板样本文本和所述样本标签对BERT的掩码语言模型进行训练,获取训练后的BERT模型,将训练后的BERT模型作为所述关系抽取模型。3.根据权利要求2所述的关系抽取方法,其特征在于,所述对所述样本文本进行特征提取,获取所述样本文本中的样本实体,包括:利用机器学习,对所述样本文本进行识别,获取样本实体。4.根据权利要求2所述的关系抽取方法,其特征在于,所述根据所述样本实体,基于预设实体关系模板,对所述样本实体构建模板样本文本,包括:对于所述样本实体中第一样本实体和第二样本实体,对于所述预设实体关系模板中的每一预设实体关系,构造出所有能表达所述第一样本实体和所述第二样本实体为预设实体关系的语句,构造成的语句即为模板样本文本。5.根据权利要求3所述的关系抽取方法,其特征在于,所述对所述正模板样本文本中表征关系的词语进行掩码,包括:保留所述正模板样本文本中的实体字样,对所述正模板样本文本中的关系字样进行掩码。6.一种关系抽取系统,其特征在于,包括:获取模块,用于获取待抽取目标文本;抽取模块,用于将所述待抽取目标文本输入到关系抽取模型中,获取所述待抽取目标文本对应的实体关系,其中,所述关系抽取模型为神经网络模型,所述关系抽取模型通过样本文本和样本标签进行训练得到,所述关系抽取模型在训练过程中构建的模板实体关系进行部分掩码。7.根据权利要求6所述的关系抽取系统,其特征在于,所述抽取模块包括特征提取单元、样本构建单元、第一训练单元、第二训练单元所述特征提取单元用于对所述样本文本进行特征提取,获取所述样本文本中的样本实体;所述样本构建单元用于根据所述样本实体,基于预设实体关系模板,对所述样本实体构建模板样本文本,所述模板样本文本包括正模板样本文本和负模板样本文本;所述第一训练单元用于利用所述模板样本文本对BERT中的句子对预测任务构建模型2CN114969372A权利要求书2/2页进行训练;所述第二训练单元用于对所述正模板样本文本中表征关系的词语进行掩码,并利用掩码后的正模板样本文本和所述样本标签对BERT的掩码语言模型进行训练,获取训练后的BERT模型,将训练后的BERT模型作为所述关系抽取模型。8.根据权利要求7所述的关系抽取系统,其特征在于,所述样本构建单元包括样本构建子单元,其中:所述样本构建子单元用于对