预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113657124A(43)申请公布日2021.11.16(21)申请号202110792912.7G06N3/04(2006.01)(22)申请日2021.07.14G06N3/08(2006.01)G06N5/04(2006.01)(71)申请人内蒙古工业大学地址010080内蒙古自治区呼和浩特市土默特左旗内蒙古工业大学金川校区(72)发明人苏依拉崔少东仁庆道尔吉吉亚图李雷孝石宝梁衍锋吕苏艳(74)专利代理机构西安智大知识产权代理事务所61215代理人段俊涛(51)Int.Cl.G06F40/58(2020.01)G06F40/44(2020.01)G06K9/62(2006.01)权利要求书3页说明书14页附图4页(54)发明名称基于循环共同注意力Transformer的多模态蒙汉翻译方法(57)摘要一种基于循环共同注意力Transformer的多模态蒙汉翻译方法,利用YOLO‑V4对输入图像进行目标检测,通过相关性检测对比蒙古文本与目标标签,保留与蒙古文本相关的目标图像,并利用编码层将蒙古文本编码为张量;利用重参数化VGG网络和三重注意力机制提取并关注目标图像特征,采用形变双向长短期记忆网络对目标图像特征与编码后的蒙古文本特征即张量分别进行数次交互,之后送入到循环共同注意力Transformer网络中进行蒙汉翻译,通过数次循环交互,将蒙古语言特征与视觉特征充分融合,输出目标语言。本发明从视觉和语言两个角度捕获特征信息,通过多轮循环,可有效的提高翻译质量,解决蒙古文翻译质量不佳的问题。CN113657124ACN113657124A权利要求书1/3页1.一种基于循环共同注意力Transformer的多模态蒙汉翻译方法,其特征在于,包括:步骤1,目标检测利用YOLO‑V4对输入图像进行目标检测,输入图像是蒙古文本的图像描述,通过相关性检测对比蒙古文本与目标标签,剔除与蒙古文本不相关的目标图像,保留与蒙古文本相关的目标图像,并利用编码层将蒙古文本编码为张量;步骤2,特征提取利用重参数化VGG网络和三重注意力机制提取并关注目标图像特征,采用形变双向长短期记忆网络对目标图像特征与编码后的蒙古文本特征即张量分别进行数次交互,之后送入到循环共同注意力Transformer网络中;步骤3,多模态翻译以经过数次交互之后得到的目标图像特征与编码后的蒙古文本特征为输入,利用循环共同注意力Transformer网络进行蒙汉翻译,通过数次循环交互,将蒙古语言特征与视觉特征充分融合,输出目标语言。2.根据权利要求1所述基于循环共同注意力Transformer的多模态蒙汉翻译方法,其特征在于,所述YOLO‑V4网络由CSPDenseNet、路径聚合网络、回归预测网络组成,其中CSPDenseNet作为主干网络提取图像特征,路径聚合网络作为颈部网络,并将空间金字塔池化加入CSPDenseNet,产生固定大小的输出。3.根据权利要求2所述基于循环共同注意力Transformer的多模态蒙汉翻译方法,其特征在于,所述CSPDenseNet由CBM模块和跨阶段局部模块构成,CBM模块由卷积层、批归一化层、Mish激活函数组成,跨阶段局部模块将输入的视觉信息划分为两部分,一部分与原始网络计算相同,另一部分不参与计算,直接与第一部分计算的结果进行拼接,其由两条支路构成,一条对主干部分进行卷积,另一条用来产生一个残差边,通过对两条支路的跨级拼接与通道整合以增强卷积神经网络的学习能力;所述路径聚合网络采用自下而上的方式,创建一条从底层特征到顶层特征的路径,从而缩短底层特征信息到顶层特征信息的传播路径,准确地保存空间信息,正确定位像素点;所述空间金字塔池化通过使用三个不同尺寸的最大池化层对全连接层前的卷积层进行池化操作并进行拼接,输出一个一维的向量,以此使得输入图像尺寸不受约束。4.根据权利要求1所述基于循环共同注意力Transformer的多模态蒙汉翻译方法,其特征在于,所述重参数化VGG将VGG网络分为训练阶段与推理阶段,在训练阶段采用多分支网络结构提升模型精度,在推理阶段采用单分支网络结构,使用重参数化将多分支网络的权值转换到单分支网络中;所述三重注意力机制通过使用三分支结构捕获跨维度交互来计算注意力权重,通过旋转操作与残差变换建立维度间的依存关系;所述形变双向长短期记忆网络通过将当前时间的输入xt和上一个时间的隐藏状态ht‑1在输入长短期记忆网络之前进行多次交互,然后将所得向量作为长短期记忆网络的输入,获得上下文的相关表达。5.根据权利要求4所述基于循环共同注意力Transformer的多模态蒙汉翻译方法,其特征在于,所述多分支网络由大量小网络组成,所述重参数化VGG在VGG网络的