预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115859940A(43)申请公布日2023.03.28(21)申请号202211397450.X(22)申请日2022.11.09(71)申请人南京烽火天地通信科技有限公司地址211161江苏省南京市江宁区滨江经济开发区盛安大道739号(72)发明人汪洋陈洲朱丹王栋平于立佳(74)专利代理机构江苏圣典律师事务所32237专利代理师韩天宇(51)Int.Cl.G06F40/205(2020.01)G06F40/211(2020.01)G06F40/284(2020.01)G06N20/00(2019.01)权利要求书3页说明书9页附图1页(54)发明名称一种面向中文人物关系网络的实体关系联合抽取方法(57)摘要本发明公开了一种面向中文人物关系网络的实体关系联合抽取方法,涉及自然语言信息抽取领域,包含人物关系文本预处理、预定义知识库SCHEMA、基于ALBERT的TPLinker模型训练、人物关系三元组抽取四部分,本发明帮助构建中文人物关系知识库,向用户推送更加准确的信息;针对TPLinker模型存在大量参数,而在海量数据训练过程中达到内存限制,导致训练过慢等问题,做出了以下改进;采用预训练的ALBERT词嵌入向量作为模型的词嵌入层输入,它设计了参数减少的方法,用来降低内存消耗,同时加快模型的训练速度;对于TPLinker算法在解码时无法输出三元组头尾实体类型的问题,采用预定义知识库SCHEMA的方式解决该问题。CN115859940ACN115859940A权利要求书1/3页1.一种面向中文人物关系网络的实体关系联合抽取方法,其特征在于:包含人物关系文本预处理、预定义知识库SCHEMA、基于轻量级的词嵌入模型ALBERT的TPLinker模型训练、人物关系三元组抽取四部分;其中,基于ALBERT的TPLinker模型训练,具体包含如下步骤:步骤C1,设置隐含层数hidden_size,向量维度embedding_dim,跨层共享参数标识reuse;ALBERT将使用以下步骤对词嵌入模型参数进行优化:步骤C11,对词嵌入参数进行因式分解,ALBERT采用因式分解的方法来降低BERT算法的参数量,针对大小为V的词汇表,它认为embedding_dim<<hiddern_size,故ALBERT算法首先把one‑hot向量映射到一个大小为E的低尺寸的向量空间,然后再将其投影到H大小的隐藏空间中,即O(V×H)转换成O(V×E+E×H),其中,E就是embedding_dim的大小,H为hidden_size的大小,V是词表的大小,是词嵌入模型所有词汇的个数;一般设置embedding_dim=128,hidden_size=768;步骤C12,跨层的参数共享Cross‑layerparametersharing,对BERT算法的全连接层与注意力层都进行参数共享,即共享编码器内的所有参数,通过设置reuse=True开启跨层参数共享,以此减少模型参数;其中,reuse为跨层共享参数标识;步骤C2,初始化嵌入层模型参数:当前数据批次大小batch_size,最大序列长度max_seq_len,向量维度embedding_dim,根据ALBERT算法输出当前批次的词嵌入向量,步骤如下;步骤C21,将输入序列转换成向量作为嵌入层模型输入,向量表达式为:Xembedding=Tokenembedding+Segmentembedding+Positionembedding其中,Tokenembedding是当前token的词向量,Segmentembedding表明当前词属于哪个句子,Positionembedding为学习到的位置编码;步骤C22,注意力机制进行特征提取,表达式为:其中,Q、K、V是词向量矩阵,dK为向量维度;步骤C23,特征输出,得到输入序列的词嵌入表示,表达式为:Xattention=LayerNorm(X+Xattention)Xhidden=Activate(Linear(Linear(Xattention)))其中,LayerNorm为归一化函数,Linear为全连接层,Activate为RELU激活函数;步骤C3,设置TPLinker算法的模型参数,学习因子lr,训练迭代次数epoch和向量维度embedding_dim,数据批次大小batch_size,滑动块大小sliding_len,TPlinker对词嵌入向量进行编码操作。2.根据权利要求1所述的一种面向中文人物关系网络的实体关系联合抽取方法,其特征在于:所述步骤C3具体如下:步骤C31,token词对的表示法:给定一个长度为n的句子[w1,···,wn],通过一个基本编码器将每个wi映射成