预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113626577A(43)申请公布日2021.11.09(21)申请号202110743035.4(22)申请日2021.07.01(71)申请人昆明理工大学地址650093云南省昆明市五华区学府路253号(72)发明人余正涛赵庆珏朱恩昌高盛祥张勇丙(74)专利代理机构昆明人从众知识产权代理有限公司53204代理人何娇(51)Int.Cl.G06F16/335(2019.01)G06F40/211(2020.01)G06F40/30(2020.01)G06K9/62(2006.01)权利要求书2页说明书8页附图2页(54)发明名称基于阅读理解的汉越跨语言新闻事件要素抽取方法(57)摘要本发明涉及基于阅读理解的汉越跨语言新闻事件要素抽取方法,属于自然语言处理技术领域。本发明首先进行数据集的构建,然后训练了一个新闻文本句子打分模型,来动态检索出有可能包含答案的序列;同时对源语言和目标语言的训练数据进行建模,从而实现源语言到目标语言的知识迁移,获得新闻事件要素抽取结果,提高越南语新闻事件要素抽取的性能。本发明提出的基于阅读理解的汉越跨语言新闻事件要素抽取方法在自建的汉越双语新闻事件要素抽取数据集上的实验证明了本文方法的有效性。CN113626577ACN113626577A权利要求书1/2页1.基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述方法的具体步骤如下:Step1、实验数据集构建:构建实验所需要的数据集,数据集包含阅读理解中文数据集、中文事件可比数据集和越南语新闻事件要素抽取数据集;Step2、新闻文本关键句检索模型构建:训练了一个新闻文本句子打分模型,来动态检索出有可能包含答案的序列;Step3、新闻事件要素抽取模型构建:在Step2的基础上,同时对源语言和目标语言的训练数据进行建模,从而实现源语言到目标语言的知识迁移,获得新闻事件要素抽取结果。2.根据权利要求1所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述Step1包括:Step1.1、阅读理解中文数据集采用CMRC2018;在越南网站爬取了708篇越南新闻文本,并根据抽取式阅读理解的形式进行标注;Step1.2、然后根据预先定义的事件类型的关键词爬取并筛选了932篇中文新闻,形成了中文事件可比数据集。3.根据权利要求1所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述Step2的具体步骤为:Step2.1、切分新闻文本数据:使用Step1中的语料作为输入,通过使用动态规划算法将新闻长文本P切分成[X0,X1,…,XT‑1];Step2.2、检索关键句子:训练了一个新闻文本句子打分模型,对新闻长文本中的句子序列[X0,X1,…,XT‑1]进行评分,以实现动态地抽取出和问题高度相关的句子。4.根据权利要求3所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述Step2.2的具体步骤为:Step2.2.1、给定一个问题Q={q1,q2,…,qn},其中n表示问题中序列长度;将打分模型的输入初始化;Step2.2.2、训练一个基于mBERT的一个评分模型,对每个子序列进行评分将得分最高的子序列加到关键子序列中;经过多次迭代推理最终得到新闻长文本的关键子序列。5.根据权利要求1所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述Step3的具体步骤为:Step3.1、问题生成:将所有的语义角色划分为不同的类别,与时间相关的语义角色、与地点相关的语义角色、与人物相关的语义角色、与组织机构相关的语义角色,然后为每个类别设计不同的问题模板;Step3.2、双语编码器进行编码:利用mBERT对源语言和目标语言进行编码,提取新闻文本特征;Step3.3、双语解码器进行解码:利用多头注意力机制来提取源语言知识,以提高目标语言答案抽取性能;Step3.4、新闻事件要素过滤层进行过滤:通过启发式规则来过滤非法答案,得到新闻事件要素集。6.根据权利要求5所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述步骤Step3.2的具体步骤为:2CN113626577A权利要求书2/2页使用mBERT对中文和越南语的问题Q和新闻文本的关键子序列Z进行编码;给定越南语的问题QT和关键子序列ZT,使用特殊字符[CLS]和[SEP]拼接成PT输入到mBERT;相应地将中文问题QS和关键子序列ZS拼接成PS输入到mBERT中;PT和PS经过编码后分别得到隐层表示其中L表示输入关键文本的长度,h表示mBERT的隐层大小。7.根据权利要求5所述的基于阅读理解的汉越跨语言新闻事件要素抽取方法,其特征在于:所述步骤Step3.3的具体步骤为