预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114282533A(43)申请公布日2022.04.05(21)申请号202111650452.0(22)申请日2021.12.31(71)申请人上海犀语科技有限公司地址200082上海市杨浦区伟德路6号1005-18室(72)发明人金鑫李鹏辉(74)专利代理机构北京卫智易创专利代理事务所(普通合伙)16015代理人朱春野(51)Int.Cl.G06F40/279(2020.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书5页附图2页(54)发明名称一种文本要素抽取方法及系统(57)摘要本发明提供一种文本要素抽取方法及系统,首先获取目标文本,按照预设业务规则对目标文本的文本内容进行段落分割,将目标文本拆分为多个段落文本;获取每个段落文本的文本内容;利用预训练模型对每个段落文本中的句子进行编码,得到对应的编码结果;通过卷积神经网络从编码结果中聚合每个句子的内部信息,获取每个句子的表征;通过条件随机场从每个句子的表征中获取对应句子的上下文信息,得到目标文本的要素信息。由此可知,本发明提出了基于长文本预训练模型段落级的要素抽取方案,不仅能够解决传统模型输入长度的限制和无法充分利用上下文信息,而且还能够以90%的准确率抽取出长文本要素信息。CN114282533ACN114282533A权利要求书1/2页1.一种文本要素抽取方法,其特征在于,包括以下步骤:获取待进行文本要素抽取的目标文本,所述目标文本的字数超过预设值;按照预设业务规则对所述目标文本的文本内容进行段落分割,将所述目标文本拆分为多个段落文本;获取每个段落文本的文本内容;其中,每个段落文本的文本内容包括句子和词;利用预训练模型对每个段落文本中的句子进行编码,得到对应的编码结果;通过卷积神经网络从所述编码结果中聚合每个句子的内部信息,获取每个句子的表征;通过条件随机场从每个句子的表征中获取对应句子的上下文信息,得到所述目标文本的要素信息。2.根据权利要求1所述的文本要素抽取方法,其特征在于,所述方法还包括:获取符合业务规则的文本语料;对所述文本语料按照句号进行句子划分,得到多个句子级文本;将所述句子级文本的内容按照预先设定的要素标签进行标注,并将标准后的句子级文本转换为训练语料;根据所述训练语料进行训练,生成所述预训练模型。3.根据权利要求2所述的文本要素抽取方法,其特征在于,预先设定的要素标签包括:甲方名称和乙方名称,其中,所述甲方是指提出目标的一方,所述乙方是指实现所述甲方所提出的目标的另一方。4.根据权利要求1或2所述的文本要素抽取方法,其特征在于,按照预设业务规则对所述目标文本的文本内容进行段落分割的过程包括:按照换行符对所述目标文本的文本内容进行段落分割,将所述目标文本拆分为多个段落文本。5.根据权利要求1所述的文本要素抽取方法,其特征在于,所述预设值为512。6.一种文本要素抽取系统,其特征在于,包括有:第一采集模块,用于获取待进行文本要素抽取的目标文本,所述目标文本的字数超过预设值;分割模块,用于按照预设业务规则对所述目标文本的文本内容进行段落分割,将所述目标文本拆分为多个段落文本;编码模块,用于获取每个段落文本的文本内容,并利用预训练模型对每个段落文本中的句子进行编码,得到对应的编码结果;其中,每个段落文本的文本内容包括句子和词;聚合表征模块,用于通过卷积神经网络从所述编码结果中聚合每个句子的内部信息,获取每个句子的表征;要素抽取模块,用于通过条件随机场从每个句子的表征中获取对应句子的上下文信息,得到所述目标文本的要素信息。7.根据权利要求6所述的文本要素抽取系统,其特征在于,所述系统还包括:获取符合业务规则的文本语料;对所述文本语料按照句号进行句子划分,得到多个句子级文本;将所述句子级文本的内容按照预先设定的要素标签进行标注,并将标准后的句子级文2CN114282533A权利要求书2/2页本转换为训练语料;根据所述训练语料进行训练,生成所述预训练模型。8.根据权利要求7所述的文本要素抽取系统,其特征在于,预先设定的要素标签包括:甲方名称和乙方名称,其中,所述甲方是指提出目标的一方,所述乙方是指实现所述甲方所提出的目标的另一方。9.根据权利要求6或7所述的文本要素抽取系统,其特征在于,按照预设业务规则对所述目标文本的文本内容进行段落分割的过程包括:按照换行符对所述目标文本的文本内容进行段落分割,将所述目标文本拆分为多个段落文本。10.根据权利要求6所述的文本要素抽取系统,其特征在于,所述预设值为512。3CN114282533A说明书1/5页一种文本要素抽取方法及系统技术领域[0001]本发明涉及深度学习技术领域,特别是涉及一种文本要素