预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115906880A(43)申请公布日2023.04.04(21)申请号202310016097.4(22)申请日2023.01.06(71)申请人昆明理工大学地址650500云南省昆明市呈贡区景明南路727号(72)发明人余正涛曾文颢赖华张勇丙(74)专利代理机构昆明隆合知识产权代理事务所(普通合伙)53220专利代理师何娇(51)Int.Cl.G06F40/58(2020.01)G06F40/49(2020.01)G06F40/211(2020.01)G06F16/951(2019.01)权利要求书2页说明书6页附图1页(54)发明名称融合翻译记忆库的法律领域神经机器翻译方法(57)摘要本发明涉及融合翻译记忆库的法律领域神经机器翻译方法,属于自然语言处理技术领域。本发明包括步骤:首先获取中英法律领域平行数据,利用句法解析树工具抽取翻译模版,构建法律领域翻译记忆库;然后训练跨语言检索模型,从翻译记忆库中检索与输入源句相关的翻译记忆和翻译模版;最后利用注意力机制将检索到的翻译记忆和翻译模版融入到解码器中,约束译文生成,以提升法律文本翻译质量。本发明通过引入外部信息来缓解法律领域双语平行语料稀缺对法律领域机器翻译质量的影响,从而提升法律领域神经机器翻译性能。CN115906880ACN115906880A权利要求书1/2页1.融合翻译记忆库的法律领域神经机器翻译方法,其特征在于:所述方法的具体步骤如下:Step1、首先获取中英法律领域平行数据,构建双语语料库;Step2、然后对语料库中目标端语句使用句法解析树工具做句法解析抽取翻译模版,将目标语句及其对应的翻译模版一起构建为翻译记忆库;Step3、接着训练跨语言检索模型,用于检索与输入源句相关的翻译记忆和翻译模版;Step4、最后利用注意力机制将检索到翻译记忆和翻译模版融入到解码器中,引导译文生成。2.根据权利要求1所述的融合翻译记忆库的法律领域神经机器翻译方法,其特征在于:所述Step1的具体步骤为:Step1.1、使用爬虫技术在双语法例系统爬取中英平英数据,去除过长或过短以及乱码的句子;Step1.2、使用jieba分词工具对中文语料进行分词,构建中英法律领域双语语料库。3.根据权利要求1所述的融合翻译记忆库的法律领域神经机器翻译方法,其特征在于:所述Step2的具体步骤为:Step2.1、使用句法解析树工具BerkeleyParser对目标语言句子做句法解析,去掉其中的名词短语并用<DOS>标记替代,构建翻译模版,然后和目标语言句子一起构建为翻译记忆库。4.根据权利要求1所述的融合翻译记忆库的法律领域神经机器翻译方法,其特征在于:所述Step3包括:基于句子层面的交叉对齐任务训练跨语言检索模型,用于检索与输入源句相关的翻译记忆和翻译模版。5.根据权利要求1所述的融合翻译记忆库的法律领域神经机器翻译方法,其特征在于:所述Step3的具体步骤如下:Step3.1、Esrc编码器对输入源句X和其对应的翻译模版Xtem编码,编码器Etgt_s和Etgt_t分别对目标端翻译记忆DS和目标端翻译模版DT编码;Step3.2、基于句子层面的交叉对齐任务来训练检索模型:TS=Esrc(X)·Etgt_s(DS)是输入源句和目标端翻译记忆关联的矩阵,T=Etgt_s(Xtem)·TEtgt_t(DT)是源句翻译模版和目标端翻译模版关联的矩阵;任何(Xi,DSj)和(Xtemi,DTj)在i=j时都应对齐,否则不应对齐;训练的目标是沿矩阵的对角线将分数最大化,其损失函数分别为公式(1)(2)所示:6.根据权利要求1所述的融合翻译记忆库的法律领域神经机器翻译方法,其特征在于:所述Step4的具体步骤为:Step4.1、在检索模型端检索与输入源句相关的目标端翻译记忆和翻译模版,并计算与2CN115906880A权利要求书2/2页输入源句的相似性分数;Step4.2、翻译模型中的Memory编码器分别对翻译记忆和翻译模版编码,然后使用交叉注意力机制计算翻译记忆和翻译模版中每个token的关注度分数;Step4.3、利用注意力机制将翻译记忆和翻译模版这两部分的外部信息融入到transformer模型中,引导模型翻译。3CN115906880A说明书1/6页融合翻译记忆库的法律领域神经机器翻译方法技术领域[0001]本发明涉及融合翻译记忆库的法律领域神经机器翻译方法,属于自然语言处理技术领域。背景技术[0002]由于缺少大规模、高质量的法律领域平行语料,现有的神经机器翻译模型在法律领域翻译任务上表现不理想。针对此问题,目前有效的方法是融入翻译记忆或翻译模版等外部信息。Xu等人利用数据扩充来训练神经机器翻译模型,以提供模型更多的翻译语义信息。