预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共25页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN116011470A(43)申请公布日2023.04.25(21)申请号202211619814.4(22)申请日2022.12.15(71)申请人山东科讯信息科技有限公司地址266500山东省青岛市黄岛区江山南路480号青岛研创中心5号楼101室(72)发明人韩雯方明陈霆刘鹏(74)专利代理机构北京集佳知识产权代理有限公司11227专利代理师李金(51)Int.Cl.G06F40/58(2020.01)G06F40/30(2020.01)G06N3/094(2023.01)G06F18/22(2023.01)G06F18/214(2023.01)权利要求书3页说明书15页附图6页(54)发明名称翻译、对抗样本生成、模型鲁棒性增强方法及相关装置(57)摘要本申请公开了翻译、对抗样本生成、模型鲁棒性增强方法及相关装置,利用预训练的鲁棒性增强的机器翻译模型对待翻译文本进行翻译,得到文本翻译结果,鲁棒性增强的机器翻译模型以标注参考翻译文本标签的训练对抗样本作为训练数据进行对抗性训练,训练对抗样本通过对训练源输入文本中的待替换词用候选的同义词替换得到,候选的同义词为根据训练源输入文本添加待替换词的候选词集中的词对应的正则化后的扰动信息前后文本的信息散度,以及候选词集中的词替换待替换词前后文本的语义相似度,从候选词集中筛选出的词。本申请在尽可能小的扰动下得到训练对抗样本,然后训练模型,提高了模型的翻译准确度,模型训练阶段无需额外构建网络,训练效率更高。CN116011470ACN116011470A权利要求书1/3页1.一种翻译方法,其特征在于,包括:获取待翻译文本;利用预训练的鲁棒性增强的机器翻译模型对所述待翻译文本进行翻译,得到所述待翻译文本对应的文本翻译结果;所述鲁棒性增强的机器翻译模型的训练过程,包括:获取训练源输入文本,并确定所述训练源输入文本中的待替换词的候选词集,所述待替换词为所述训练源输入文本中与上下文的语义关联程度低于预设的关联度阈值的分词,所述候选词集中的词与所述待替换词的语义相似度高于预设的相似度阈值;计算所述候选词集中的词替换所述待替换词前后文本的语义相似度;计算所述训练源输入文本上添加所述候选词集中的词对应的正则化后的扰动信息前后文本的信息散度;根据所述语义相似度和所述信息散度,从所述候选词集中筛选所述待替换词对应的候选的同义词,将所述候选的同义词替换所述待替换词后的文本作为训练对抗样本;将标注所述参考翻译文本标签的所述训练对抗样本作为训练数据对预训练的机器翻译模型进行对抗性训练,得到鲁棒性增强的机器翻译模型。2.根据权利要求1所述的方法,其特征在于,所述确定所述训练源输入文本中的待替换词的候选词集,包括:将所述训练源输入文本包含的各分词依次掩盖,在每次掩盖一个分词后,将掩盖分词后的文本输入预训练的掩码语言模型,得到模型输出的被掩盖分词的显著性得分,其中,一分词的显著性得分越高,表征该分词与上下文的语义关联程度越低,所述掩码语言模型为,以标注有被掩盖分词的显著性得分标签的掩盖分词后的训练文本作为训练数据训练得到;将所述训练源输入文本中显著性得分最高的至少一个分词分别确定为所述待替换词;从预设的字典集中筛选与所述待替换词的欧氏距离小于预设的距离阈值的候选词,由筛选出的候选词组成所述候选词集。3.根据权利要求1所述的方法,其特征在于,所述计算所述候选词集中的词替换所述待替换词前后文本的语义相似度,包括:确定替换前的所述训练源输入文本的第一向量表示,并确定所述候选词集中的词替换所述待替换词后的文本的第二向量表示;计算所述第一向量表示分别与所述候选词集中的词替换所述待替换词后的文本的第二向量表示的余弦相似度,所述余弦相似度作为所述语义相似度。4.根据权利要求1所述的方法,其特征在于,所述计算所述训练源输入文本上添加所述候选词集中的词对应的正则化后的扰动信息前后文本的信息散度,包括:根据所述训练源输入文本进行分布估计处理,得到扰动前所述训练源输入文本对应的第一概率分布函数;根据所述候选词集中的词对应的正则化后的扰动信息和所述训练源输入文本进行分布估计处理,得到扰动后文本对应的第二概率分布函数,并计算所述第二概率分布函数和所述第一概率分布函数的KL散度。5.根据权利要求1所述的方法,其特征在于,所述根据所述语义相似度和所述信息散度,从所述候选词集中筛选所述待替换词对应的候选的同义词,包括:2CN116011470A权利要求书2/3页针对所述候选词集包含的每个词,将该词替换所述待替换词前后文本的语义相似度,和所述训练源输入文本添加该词对应的正则化后的扰动信息前后文本的信息散度进行加权求和,加权求和值作为该词对应的综合损失值;将所述候选词集中综合损失值最小的至少一