预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115034239A(43)申请公布日2022.09.09(21)申请号202210787747.0(22)申请日2022.07.06(71)申请人昆明理工大学地址650500云南省昆明市呈贡区景明南路727号(72)发明人赖华杨汉清余正涛于志强相艳(74)专利代理机构昆明隆合知识产权代理事务所(普通合伙)53220专利代理师何娇(51)Int.Cl.G06F40/58(2020.01)G06F40/211(2020.01)G06F40/295(2020.01)G06F40/30(2020.01)权利要求书3页说明书8页附图1页(54)发明名称基于降噪原型序列的汉越神经机器翻译方法(57)摘要本发明涉及基于降噪原型序列的汉越神经机器翻译方法,属自然语言处理领域。本发明包括:将汉语和越南语的句子语映射到向量空间,利用跨语言相似性检索出目标端原型序列;接着将子词粒度原型序列进行还原为音节粒度,再依据构建好的实体词典做噪声掩盖;之后依据原型序列与源端的相似性以及稀有词词频对其进行权重分配;最后将处理好的原型序列作为模板信息,应用在双编码器‑单解码器结构,指导翻译任务。针对汉越数据集的实验结果表明,与当前最优模型相比,本发明在利用越南语单语数据缓解双语资源匮乏的同时,将原型序列进行噪声过滤并将其中对机器翻译有益的知识特征进行增强,有效提升了汉越机器翻译的性能。CN115034239ACN115034239A权利要求书1/3页1.基于降噪原型序列的汉越神经机器翻译方法,其特征在于:所述方法的具体步骤如下:Step1、将汉语‑越南语平行语料、越南语候选句子库进行分词处理,并利用Underthesea‑VietnamNLP工具构建越南语单语词典;Step2、将词粒度的汉语句子、子词粒度越南语候选句子通过两个编码器映射到向量空间,利用跨语言相似性检索出子词粒度的目标端原型序列,并在音节粒度的候选句子库中对照出音节粒度的目标端原型序列;Step3、对子词级原型序列进行粒度还原,再依据构建好的实体词典做噪声掩盖,之后依据原型序列与源端的相似性以及稀有词词频对其进行权重分配,赋予原型序列参考价值;Step4、将处理好的原型序列作为模板信息,应用在双编码器‑单解码器结构,指导翻译任务。2.根据权利要求1所述的基于降噪原型序列的汉越神经机器翻译方法,其特征在于:所述Step1的具体步骤为:Step1.1、利用Jieba分词工具对汉语语料进行分词,得到词粒度的汉语句子x,构建汉语词语表;Step1.2、利用subword‑nmt工具对越南语、候选句子库进行分词,得到子词粒度的越南语句子s以及音节粒度的越南语句子,构建越南语词语表;Step1.3、随后,利用Underthesea‑VietnamNLP工具识别出越南语候选句子库当中的人名、地名、数字,构建出实体词典。3.根据权利要求1所述的基于降噪原型序列的汉越神经机器翻译方法,其特征在于:所述Step2的具体步骤为:Step2.1、将词粒度的汉语句子x输入编码器,得到高维向量Ex;将子词粒度的越南语句子s输入编码器,得到高维向量Es,x与s之间的相关性分数通过计算得出:按照分数r(xi,si)筛选出与第i个源语言句子xi相关性高的前3个子词粒度的目标语言句子作为目标端语言原型序列S={sj,1,sj,2,sj,3};Step2.2、依据子词粒度的目标端语言原型序列S在音节粒度的候选句子库中对照出音节粒度的原型序列S1。4.根据权利要求1所述的基于降噪原型序列的汉越神经机器翻译方法,其特征在于:所述Step3的具体步骤为:Step3.1、将检索出的子词粒度的目标端语言原型序列S={sj,1,sj,2,sj,3}中,按照‘@@’符号为边界,将拆分过的音节还原;Step3.2、将音节粒度的原型序列S1遍历一遍词典,对照出音节粒度原型序列中实体的位置;Step3.3、对比Step3.1与Step3.2当中实体、数字的位置,将未处理过的子词粒度的目标端语言原型序列S中,实体、数字的位置用符号‘<mask>’替换,得到处理后的原型序列S′={s′j,1,s′j,2,s′j,3};Step3.4、根据越南语词语表,统计子词级候选句子库中的句子进行词频统计,将出现2CN115034239A权利要求书2/3页频率低于10%的词作为稀有词ωj,计算处理后的子词粒度的原型序列S′={s′j,1,s′j,2,s′j,3}中每个句子(s′j,k|k=1,2,3)的稀有词ωj的相对词频:为指示函数,当处理后的子词粒度的原型序列S′中的词ωi为稀有词时,函数值为1;相反,若不是稀有词时,函数值为0,Ntotal为原型序列中某个句子(s′j,k|k=1,2,3)所包含的子词