预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114969353A(43)申请公布日2022.08.30(21)申请号202210383166.0(22)申请日2022.04.13(71)申请人迈容智能科技(上海)有限公司地址200433上海市杨浦区邯郸路10号8号楼309室(72)发明人吴昆丁国栋(74)专利代理机构上海诺衣知识产权代理事务所(普通合伙)31298专利代理师张若川(51)Int.Cl.G06F16/36(2019.01)G06F16/35(2019.01)G06F40/295(2020.01)权利要求书2页说明书5页附图3页(54)发明名称基于实体感知的关系抽取方法、装置、设备及存储介质(57)摘要本发明公开了基于实体感知的关系抽取方法、装置、设备及存储介质,步骤:为实体构建标记序列,并将标记序列与文本拼接得到输入序列;构建输入序列的掩码矩阵;使用预训练语言模型编码输入序列得到文本向量序列;取出已知实体的首尾向量拼接并映射得到实体向量表示;将各个实体向量两两拼接预测实体对关系。本发明的基于实体感知的关系抽取方法,在不改变预训练模型结构的基础上,通过重新定义预训练模型预留字符,结合掩码机制和位置编码,在文本编码层融合了多实体信息,实现了融合实体信息的一次编码模型,相比于现有技术,其步序较为简单,抽取效率较高,对设备计算能力要求较低,可适用于各种预训练语言模型,其适用性较好,极具应用前景。CN114969353ACN114969353A权利要求书1/2页1.一种基于实体感知的关系抽取方法,其特征在于,包括以下步骤:1)为实体构建标记序列,并将标记序列与文本拼接得到输入序列;2)构建输入序列的掩码矩阵;3)使用预训练语言模型编码输入序列得到文本向量序列HL;4)取出已知实体的首尾向量拼接并映射得到实体向量表示;5)将各个实体向量两两拼接预测实体对关系。2.根据权利要求1所述的一种基于实体感知的关系抽取方法,其特征在于,所述步骤1)具体为:在原文后添加标记字符,所述标记字符的样式为类型‑位置,所述类型与实体类型一致,所述位置为S或E表示该字符标记出了某类型实体的起始位置或结束位置,将所有标记字符附加到原文序列之后,形成原文‑标记序列,再将标记字符的位置编码与实体在原文中的位置设置一致。3.根据权利要求1所述的一种基于实体感知的关系抽取方法,其特征在于,步骤2)中,所述掩码矩阵的构建原则为:原文中的除实体外的字仅可见原文中的字,原文中实体所包含的字可见原文中的字以及其对应的实体标记,实体标记字符可见原文中的字和自己这对的两个标记字符。4.根据权利要求1所述的一种基于实体感知的关系抽取方法,其特征在于,所述步骤3)具体为:将原文与标记的序列、结合位置编码和掩码矩阵一同输入基于Transformer的预训练语言模型,得到文本向量序列HL。5.根据权利要求1所述的一种基于实体感知的关系抽取方法,其特征在于,所述步骤4)具体为:取出各个实体的开始和结束位置对应的向量,将各实体的两个向量各自拼接并通过全连接网络映射,以此作为各自实体的向量表示。6.根据权利要求1所述的一种基于实体感知的关系抽取方法,其特征在于,所述步骤5)具体为:将各个实体向量区分前后的两两拼接并映射,以此作为各个实体对的向量表示,再通过分类层判断实体对类型,对于不存在关系的实体对,预测为NONE。7.一种关系抽取装置,其特征在于,所述装置包括:输入序列获取模块,用于为实体构建标记序列,并将标记序列与文本拼接得到输入序列;掩码矩阵构建模块,用于构建输入序列的掩码矩阵;预训练语言模型处理模块,用于使用预训练语言模型编码输入序列得到文本向量序列HL;实体向量获取模块,用于取出已知实体的首尾向量拼接并映射得到实体向量表示;实体对关系预测模块,用于将各个实体向量两两拼接预测实体对关系。8.一种计算机设备,其特征在于,所述计算机设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,2CN114969353A权利要求书2/2页所述存储器存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1~6任一项所述的基于实体感知的关系抽取方法。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1~6任一项所述的基于实体感知的关系抽取方法。3CN114969353A说明书1/5页基于实体感知的关系抽取方法、装置、设备及存储介质技术领域[0001]本发明涉及机器学习与自然语言处理的信息抽取技术领域,涉及一种基于实体感知的关系抽取方法、装置、设备及存储介质。背景技术[0002]自互联网被发明到现在,互联网上已经积累了不计其数的数据,而其中非结构化文本占了很