预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113850089A(43)申请公布日2021.12.28(21)申请号202111112986.8(22)申请日2021.09.23(71)申请人内蒙古工业大学地址010051内蒙古自治区呼和浩特市新城区爱民街49号(72)发明人仁庆道尔吉庞蕊张倩文丽霞刘永超张毕力格图李雷孝萨和雅(74)专利代理机构武汉菲翔知识产权代理有限公司42284代理人李慧奇(51)Int.Cl.G06F40/58(2020.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书5页附图1页(54)发明名称一种基于融合统计机器翻译模型的蒙汉神经机器翻译方法(57)摘要本发明公开了一种基于融合统计机器翻译模型的蒙汉神经机器翻译方法,具体包括以下步骤:S1、NMT分类器继承标准的基于注意力的NMT后在规则词表上估计单词的预测概率;S2、SMT分类器计算由辅助SMT模型生成的SMT建议的概率;S3、将SMT建议整合到NMT中;本发明涉及神经机器翻译技术领域。该基于融合统计机器翻译模型的蒙汉神经机器翻译方法,通过将统计机器翻译模型合并到神经机器翻译框架中,以利用统计机器翻译和神经机器翻译模型的优点来实现更好的翻译,SMT分类器和门控函数在NMT结构中以端到端方式联合训练,此外,为了更好地缓解测试阶段的UNK问题,通过联合考虑NMT模型的注意概率和SMT模型的覆盖率信息,选择合适的SMT建议来代替目标UNK单词。CN113850089ACN113850089A权利要求书1/2页1.一种基于融合统计机器翻译模型的蒙汉神经机器翻译方法,其特征在于:具体包括以下步骤:S1、NMT分类器继承标准的基于注意力的NMT后在规则词表上估计单词的预测概率;S2、SMT分类器计算由辅助SMT模型生成的SMT建议的概率;S3、将SMT建议整合到NMT中。2.根据权利要求1所述的一种基于融合统计机器翻译模型的蒙汉神经机器翻译方法,其特征在于:所述S1中标准的基于注意力的NMT的翻译过程为,给定源句子NMT将其编码为一个向量序列,之后使用该向量序列生成目标句子3.根据权利要求2所述的一种基于融合统计机器翻译模型的蒙汉神经机器翻译方法,其特征在于:所述基于注意力的NMT使用一个由正向RNN和反向RNN组成的双向RNN对源句子进行编码,其中正向RNN顺序阅读源句子x,生成一个正向的隐藏状态序列反向RNN则反向阅读源句子x并生成一个反向的隐藏状态序列将每个位置的隐藏状态对串联起来,形成该位置的单词注释,从而得到整个源句的注释,其中4.根据权利要求2所述的一种基于融合统计机器翻译模型的蒙汉神经机器翻译方法,其特征在于:所述在解码的时间步t,输出目标序列y<t=y1,y2,...,yt‑1之后,下一个单词yt由下式所示条件概率生成:p(yt|y<t,x)=softmax(f(st,yt‑1,ct)),其中f(·)为非线性激活函数,st是时间步t时解码器的隐藏状态:st=g(st‑1,yt‑1,ct),其中g(·)为非线性激活函数,此处使用门控循环单元作为编码器和解码器的激活函数;ct是上下文向量,由源句子注释的加权和计算而得:其中hj为源单词xj的注释,其权重αt,j由注意力模型计算而得。5.根据权利要求1所述的一种基于融合统计机器翻译模型的蒙汉神经机器翻译方法,其特征在于:所述S2中的所述统计机器翻译模型由对数线性框架定义:其中hm(y,x)为特征函数,λm为它的权重。在翻译过程中,SMT解码器通过从双语短语表中为未翻译的源句子部分选择合适的目标词或短语翻译来扩展局部翻译y<t=y1,y2,...,yt‑1(在SMT中称为翻译假设)。6.根据权利要求1或5所述的一种基于融合统计机器翻译模型的蒙汉神经机器翻译方法,其特征在于:所述S2中的实现方式为:给定NMT生成的词y<t=y1,y2,...,yt‑1,SMT生成下一个单词的建议,并用下式计算建议分数:其中yt是SMT的一个建议,xt是对应的源跨度,hm(yt,xt)是特征函数,λm是其权重,SMT模型可以通过扩展生成的单词来生成适当的单词推荐(局部翻译)。7.根据权利要求1所述的一种基于融合统计机器翻译模型的蒙汉神经机器翻译方法,2CN113850089A权利要求书2/2页其特征在于:所述S3中采用两种策略来过滤低质量的建议以保证SMT建议的质量:①根据翻译分数,仅保留前Ntm的源词翻译,翻译分数作为翻译概率的权重和进行计算;②选择最高SMT得分的前Nrec的建议,每一个都作为SMT特征的加权和进行计算。8.根据权利要求1所述的一种基于融合统计机器翻译模型的蒙汉神经机器翻译方法,其特征在于:所述S3中引入门机制来更新所提出模