预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共31页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115934953A(43)申请公布日2023.04.07(21)申请号202211199328.1G06N3/044(2023.01)(22)申请日2022.09.29G06N3/047(2023.01)G06N3/048(2023.01)(71)申请人中国科学院计算技术研究所G06N3/08(2023.01)地址100080北京市海淀区中关村科学院南路6号(72)发明人靳小龙郭嘉丰程学旗王炫力席鹏弼廖华明(74)专利代理机构北京律诚同业知识产权代理有限公司11006专利代理师祁建国陈思远(51)Int.Cl.G06F16/36(2019.01)G06F40/30(2020.01)G06F40/289(2020.01)G06N3/0455(2023.01)权利要求书8页说明书19页附图3页(54)发明名称基于实体森林的实体语义关系联合抽取方法及系统(57)摘要本发明提出一种基于实体森林的实体语义关系联合抽取方法和系统,包括:获取待识别实体语义关系的语料;得到句子及其对应的词序列,对句子的词序列进行编码,得到训练语料中句子的分布式表示;句子的分布式表示进行序列标注,得到实体头部,作为实体树的根节点,以根节点为循环神经网络模型的初始状态,依次输入句子中子词至循环神经网络模型,以森林的形式识别嵌套实体,得到多棵嵌套实体树;将嵌套实体树的实体表示输入TransformerDecoder模块,通过多头注意力机制,得到嵌套实体树中包含实体树间交互信息、实体和输入文本之间的交互信息的隐层向量;将隐层向量和实体表示输入由多棵嵌套实体树构成的分层三元组森林,获得语料的实体语义关系三元组。CN115934953ACN115934953A权利要求书1/8页1.一种基于实体森林的实体语义关系联合抽取方法,其特征在于,包括:步骤1、获取待识别实体语义关系的语料,作为当前文本;步骤2、将该当前文本进行分句和分词处理,得到句子及其对应的词序列,使用BERT模型对句子的词序列进行编码,得到该训练语料中句子的分布式表示;步骤3、对句子的该分布式表示进行序列标注,得到实体头部,作为实体树的根节点,以该根节点为循环神经网络模型的初始状态,依次输入句子中子词至该循环神经网络模型,以森林的形式识别嵌套实体,得到多棵嵌套实体树;步骤4、将该嵌套实体树的实体表示输入TransformerDecoder模块,通过多头注意力机制,得到该嵌套实体树中包含实体树间交互信息、实体和输入文本之间的交互信息的隐层向量;步骤5、将该隐层向量和该实体表示输入由该多棵嵌套实体树构成的分层三元组森林,获得该当前文本的实体语义关系三元组。2.如权利要求1所述的基于实体森林的实体语义关系联合抽取方法,其特征在于,包括:获取已标注〈头实体,关系,尾实体〉三元组标签的训练语料,作为当前文本执行该步骤2到该步骤4,并根据该步骤2得到的根节点和嵌套实体树以及该三元组标签,构建根节点损失和嵌套实体树损失,根据该步骤4得到的实体语义关系三元组与该三元组标签,构建三元组森林的损失;将该节点损失、该嵌套实体树损失和该三元组森林的损失加权求和,得到总损失,以该总损失训练该BERT模型、循环神经网络模型、TransformerDecoder模块和该分层三元组森林,训练完成后,执行该步骤1。3.如权利要求1或2所述的基于实体森林的实体语义关系联合抽取方法,其特征在于,该步骤2包括:使用经过预训练的该BERT模型对该词序列进行编码,获得该分布式表示He:eH=BERT(concat(SWsub,Wp,Ws))该步骤3包括:通过线性层进行序列标注,获得各个子词属于实体头部的概率P,如下方公式,其中c2=2,eP=softmax(dropout(H)Wner+bner)计算交叉熵损失函数,作为根节点损失LB,其中真实标注对每个子词选择概率最大的标签yB*,预测为实体头部的子词n表示共有n个实体头部,同时作为实体树中的根节点;yB*=argmax(P)获得实体树的根节点在训练时,Es+=Es+Es′,其中,真实实2CN115934953A权利要求书2/8页体E的头部为而负采样得到的虚假实体头部为在预测时,ES+=ES*;使用He中对应根节点位置的子词向量表示获得根节点的向量表示对每一个根节点的向量,使用该循环神经网络模型生成实体树,该循环神经网络模型的初始隐层状态为其记忆单元初始化为第t个时间步的输入为从实体头部开始第t个子词的隐层向量表示,记作其中,时间t∈[1,3];具体每个时间步计算如下:对每个时间步的隐层输出进行两次二分类:第一个分类判断该分支是否继续,继续为1,终止为0;第二个分类则判断当前节点是否已经构成一个实体,构成为1,未构成为0;使用二分类交叉