预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113934909A(43)申请公布日2022.01.14(21)申请号202111170651.1G06K9/62(2022.01)(22)申请日2021.10.08G06N20/00(2019.01)G06Q40/02(2012.01)(71)申请人中电积至(海南)信息技术有限公司G06V10/762(2022.01)地址571924海南省海口市澄迈县老城高新技术产业示范区海南生态软件园A09幢三层301(72)发明人郑超黄园园张智勇孙彦斌田志宏(74)专利代理机构重庆百润洪知识产权代理有限公司50219代理人陈付玉(51)Int.Cl.G06F16/951(2019.01)G06F40/216(2020.01)G06F40/289(2020.01)权利要求书2页说明书6页附图2页(54)发明名称基于预训练语言结合深度学习模型的金融事件抽取方法(57)摘要本发明提供基于预训练语言结合深度学习模型的金融事件抽取方法。所述基于预训练语言结合深度学习模型的金融事件抽取方法,包括以下操作步骤:S1、数据获取和预处理:使用网络爬虫爬取公开金融事件文本语料,对原始金融事件文本语料进行文本预处理。本发明提供基于预训练语言结合深度学习模型的金融事件抽取方法,通过使用机器学习结合领域知识的方式,定义金融领域事件类型以及模板,大大减少了人工定义事件的时间成本和劳动成本;通过使用远程监督学习的方式,实现金融领域事件语料数据的大规模自动标注,并使用启发式剪枝的方法有效地减少了数据噪音,填补了目前金融事件抽取领域缺少大规模语料数据的空白。CN113934909ACN113934909A权利要求书1/2页1.基于预训练语言结合深度学习模型的金融事件抽取方法,其特征在于,包括以下操作步骤:S1、数据获取和预处理:使用网络爬虫爬取公开金融事件文本语料,对原始金融事件文本语料进行文本预处理,获得可用的初级金融事件文本语料数据;S2、定义金融事件模板:对金融领域中出现的高频词组、关键名词进行聚类处理,根据聚类结果将距离相近的近似词,参考相关领域知识定义金融事件以及建立金融事件类型模板;S3、远程监督结合模板方法的数据自动标注及降噪处理:利用规则或模式的方法从半结构化的初级金融事件文本语料数据中获取种子金融事件,构建原始金融事件数据库;获取关键事件元素角色,构建动词、名词触发词集;利用近义词表对触发词集进行拓展;利用远程监督学习结合模板的方式进行语料数据自动标注,然后对生成的数据进行启发式标签剪枝来消除远程监督产生的噪声数据并将处理好的数据加入事件数据库中;S4、使用预训练语言模型结合深度学习模型来对爬取的文本内容进行金融事件的抽取识别任务。2.根据权利要求1所述的基于预训练语言结合深度学习模型的金融事件抽取方法,其特征在于,在所述S1中,对原始金融事件文本语料进行文本预处理包括:依次进行分句、分词、去噪、替换。3.根据权利要求1所述的基于预训练语言结合深度学习模型的金融事件抽取方法,其特征在于,在所述S1中,获取可用的金融事件文本语料数据的具体步骤为:S11、使用爬虫从金融新闻网站爬取公开的金融事件文本数据;S12、对获取的部分金融事件文本数据按照事件类型进行整理,将金融事件文本数据的标点符号统一为中文格式,按照包括的中文标点断句符号对文书数据切分为句子形式,构成句子集合;S13、使用自然语言处理工具对句子集合中的每个句子进行分词处理;S14、构建金融领域停用词表,结合通用领域停用词表,去除停用词。4.根据权利要求1所述的基于预训练语言结合深度学习模型的金融事件抽取方法,其特征在于,在所述步骤S2中,定义金融事件模板的具体步骤为:S21、基于步骤S14的分词结果,使用开源词性标注工具对词语进行词性标注,使用TF‑IDF算法获取最能代表句子的N个关键词;S22、基于步骤S14的分词结果,使用word2vec模型获取金融事件文本中词对应的词向量;S23、基于步骤S22提取出的S21中关键词进行基于语义距离的k‑means聚类;S24、基于步骤S23的聚类结果集合,结合人工经验和金融领域的专业知识总结金融领域的事件类型和模板,事件模板包括触发词和事件元素。5.根据权利要求4所述的基于预训练语言结合深度学习模型的金融事件抽取方法,其特征在于,在所述步骤S24中,后续对于新增金融事件文本语料数据使用增量聚类的方式对关键词集合进行拓展,或者同时可能新增事件类型以及模板。2CN113934909A权利要求书2/2页6.根据权利要求1所述的基于预训练语言结合深度学习模型的金融事件抽取方法,其特征在于,在所述步骤S3中,远程监督结合模板方法的数据自动标注及降噪处理包括以下步骤:S31、利用规则或模式