预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113672727A(43)申请公布日2021.11.19(21)申请号202110855621.8(22)申请日2021.07.28(71)申请人重庆大学地址400044重庆市沙坪坝区沙正街174号(72)发明人杨智翔邹东升陈香张晓彤宋心仪杨钰铭席康(74)专利代理机构重庆信必达知识产权代理有限公司50286代理人刘竹(51)Int.Cl.G06F16/35(2019.01)G06F16/36(2019.01)G06F16/901(2019.01)G06N3/08(2006.01)权利要求书2页说明书6页附图2页(54)发明名称一种金融文本实体关系抽取方法及系统(57)摘要本发明公开了一种金融文本实体关系抽取方法,涉及人工智能领域的技术领域,具体方案为:S1:在金融数据集上使用BERT预训练单词嵌入;S2:建立实体关系图:以金融文本中的实体作为节点,实体所在的文本作为节点之间的关系边;S3:更新实体关系图:通过关系边的转移矩阵对节点嵌入使用聚合函数更新节点嵌入,重复更新实体关系图;S4:预测关系类别:从S3过程中获取若干次更新实体关系图的各层目标实体对嵌入的输出,经变换拼接后送入多层感知机进行分类,选择概率最大的类别作为关系输出。本发明建立在金融数据基础上,因此对金融领域文本的实体关系抽取具有领域优势。CN113672727ACN113672727A权利要求书1/2页1.一种金融文本实体关系抽取方法,其特征在于,包括以下步骤:S1:在金融数据集上使用BERT预训练单词嵌入,包括两个阶段:阶段一:随机遮罩的单次预测;阶段二:遮罩金融实体的单次预测;S2:建立实体关系图:以金融文本中的实体作为节点,实体所在的文本作为节点之间的关系边;其中节点分为3类编码,参与关系抽取的实体、实体关系相关的文本序列开始及结尾实体、无关实体;参与关系抽取的实体使用S1中阶段二BERT单词嵌入表示;实体关系相关的文本序列开始及结尾实体使用零向量表示;无关实体使用flag标志向量表示;实体所在的金融文本经过BERT的阶段一编码获得单词嵌入,拼接位置嵌入后,获取实体节点间的关系转移矩阵;S3:更新实体关系图:通过关系边的转移矩阵对节点嵌入使用聚合函数更新节点嵌入,重复更新实体关系图;S4:预测关系类别:从S3过程中获取若干次更新实体关系图的各层目标实体对嵌入的输出,经变换拼接后送入多层感知机进行分类,选择概率最大的类别作为关系输出。2.根据权利要求1所述的金融文本实体关系抽取方法,其特征在于,所述S1过程中,通过使用两次预训练BERT分别获取面向实体关系图中文本关系建模的单次嵌入,以及面向实体关系图中目标实体初始嵌入。3.根据权利要求2所述的金融文本实体关系抽取方法,其特征在于,所述预训练BERT使用金融文本数据:预处理金融文本具体包括以下步骤:准备两份数据,其中一份数据用于阶段一训练,随机遮罩15%的单词,其中遮罩的单词中的80%被替换为[MASK],10%使用随机单词替换,10%保持不变;另一份数据用于阶段二训练,随机遮罩15%的金融实体,并使被遮罩的实体距离两个以上句子。4.根据权利要求1所述的金融文本实体关系抽取方法,其特征在于,所述S2过程中,实体关系边的转移矩阵计算方法如下:其中:vi和vj分别代表两个实体,这两个实体所在的文本是E(x)表示BERTh的单词嵌入编码,n代表第n次传播,MLP(·)是多层感知机,[·]是将括号内转换为矩阵,n是图更新传播的第n次,BiGRU(·)编码文本,然后将最后一个前向编码和最后一个后向编码的隐藏层输出拼接;GRU(·)的第t步更新具体计算方法如下:zt=σ(Wzxt+Uzht‑1)rt=σ(Wtxt+Utht‑1)其中:xt是当前时间步输入,ht‑1是前一个时间步的隐藏状态。5.根据权利要求1所述的金融文本实体关系抽取方法,其特征在于,所述S3过程中,使用聚合函数更新节点嵌入,更新计算方法如下:2CN113672727A权利要求书2/2页其中:是第i个实体的第n+1次聚合后的嵌入表示,N(vi)表示第i个实体的邻居节点,是S2计算得到的转移矩阵,σ(·)是激活函数。6.根据权利要求5所述的金融文本实体关系抽取方法,其特征在于,所述S3过程中,重复传播聚合函数3次。7.根据权利要求5所述的金融文本实体关系抽取方法,其特征在于,所述S4过程中,对实体关系图中的目标实体对融合、各层嵌入融合具体包括以下步骤:然后将融合的嵌入送入MLP进行关系分类,具体包括以下步骤:8.一种金融文本实体关系抽取系统,基于权利要求1至7任一所述的金融文本实体关系抽取方法,其特征在于,包括单词嵌入预训练模块、实体关系图构建模块、实体关系图更新模块和关系预测模