预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115905458A(43)申请公布日2023.04.04(21)申请号202111168223.5(22)申请日2021.09.30(71)申请人四川大学地址610065四川省成都市武侯区一环路南一段24号(72)发明人何小海刘露平周欣卿粼波魏鑫吴小强滕奇志(51)Int.Cl.G06F16/33(2019.01)G06F16/35(2019.01)G06F40/211(2020.01)G06F40/216(2020.01)G06F40/295(2020.01)权利要求书2页说明书7页附图1页(54)发明名称一种基于机器阅读理解模型的事件抽取方法(57)摘要本发明公开了一种基于机器阅读理解模型的事件抽取方法。该方法将事件抽取的两个子任务:事件检测和事件元素提取都建模成机器阅读理解任务,并采用多轮问答的方式来抽取出事件的完整信息。本发明通过使用BERT预训练模型来构建机器阅读理解框架。为了使模型能学习到句子中的实体信息,在输入句子中对句子中的实体进行显式地标记。此外还构建了历史会话信息编码模块,并采用注意力机制从历史会话中捕获重要信息以辅助当前轮次的问答。相比于现有方法,本发明方法能更好的利用先验知识来辅助进行事件抽取,在自动文摘、自动问答以及事理图谱构建等方面具有广阔应用前景。CN115905458ACN115905458A权利要求书1/2页1.一种基于机器阅读理解模型的事件抽取方法,其特征在于包括以下步骤:步骤一:首先根据问题模板构造触发词抽取问题;步骤二:对输入句子中的实体信息进行显式的标记;步骤三:将步骤一中的生成的问题和步骤二得到的句子进行拼接后送入到机器阅读理解模型后抽取出触发词;步骤四:针对步骤三中抽取的触发词,进一步根据问题模板构造事件类型抽取问题;步骤五:将所有的事件类型以标识符“[EVENT_TYPE]”进行拼接到步骤二中得到的句子后形成新的输入段落,然后进一步将其拼接到步骤四中生成的问题后输入到机器阅读理解模型后抽取出相应的事件类型;步骤六:根据触发词和事件的角色进一步构造事件角色元素抽取问题,然后将步骤二中得到的句子拼接到生成的问题后,输入到融合历史会话信息的阅读理解模型抽取出相应的事件角色元素;步骤七:重复步骤三继续抽取新的事件信息,直到句子中所有的事件抽取完成。2.根据权利要求1所述的基于机器阅读理解模型的事件抽取方法,其特征在于:在对输入句子中的实体信息进行显式标注时的标注过程如下:通过在实体词前后分别增加实体类型符后得到新的句子;例如针对句子“TheIraqiunitinpossessionofthosegunsfiredmortarsinthedirectionofthe7thCavalry”,增加实体标记符后得到如下形式的句子“The<org>Iraqiunit</org>inpossessionofthose<wea>guns</wea>fired<wea>mortars</wea>inthedirectionofthe<org>7thCavalry</org>.”,其中“<org>、<wea>”分别表示组织和武器。3.根据权利要求1所述的基于机器阅读理解模型的事件抽取方法,其特征在于:在构造事件角色抽取的问题时,一个问题由问题类型和问题内容两部分构成,其中问题类型表示应该使用什么类型的疑问代词;事件角色与相应疑问代码的对应关系由说明书中的表1描述;而问题内容则根据模板来构造,其问题生成模板如下:“(Where/Which/What)isthe_③_inthe_④_eventtriggerby_②_?”,其中空格③处为事件角色类型,空格④处为事件类型,空格②为触发词。4.根据权利要求1所述的基于机器阅读理解模型的事件抽取方法,其特征在于:融合历史会话信息的阅读理解模由机器阅读理解模块和历史会话信息编码模块两部分构成;其中机器阅读理解模块用于事件信息的抽取,而历史会话信息模块则用于对历史问答会话中的答案句子进行编码,在进行特征融合时,按如下步骤进行:a)首先将历史问答对中的答案句子分别在开始和结尾处加上“[CLS]”和“[SEP]”标志位后送入到BERT模型进行编码得到相应的句子表示,计算形式如下:上式中,A′i表示第i轮次答案句子经过拆分后的序列,而为则为编码后得到的句子特征向量表示;b)随后,通过点乘注意力计算每个历史问答对中的答案句子与当前轮次问答的关联度得分,注意力权重系数的计算形式如下:2CN115905458A权利要求书2/2页式中,为映射矩阵,为第i轮次问答对中的答案句子所对应的注意力权重;c)接着,根据注意力权重,对所有轮次答对中的答案句子的特征向量表示进行加权求和后得到整个历史会话信息的特征表示ch:d)最后在