预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112257462A(43)申请公布日2021.01.22(21)申请号202011212042.3(22)申请日2020.11.03(71)申请人沈阳雅译网络技术有限公司地址110004辽宁省沈阳市和平区三好街78号东软电脑城C座11层(72)发明人刘兴宇杜权(74)专利代理机构沈阳优普达知识产权代理事务所(特殊普通合伙)21234代理人李晓光(51)Int.Cl.G06F40/58(2020.01)G06F40/211(2020.01)G06F40/289(2020.01)G06N3/08(2006.01)权利要求书1页说明书6页附图5页(54)发明名称一种基于神经机器翻译技术的超文本标记语言翻译方法(57)摘要本发明公开一种基于神经机器翻译技术的超文本标记语言翻译方法,从含有外文数据的网络中爬取海量数据作为超文本标记语言语料,从超文本标记语言语料中获取双语句对;对双语句对进行清洗过滤、分词、子词切分预处理,得到训练数据,并输入到神经网络模型中训练至模型收敛;对用户实时输入的超文本标记语言进行处理,提取出超文本标记语言文本中需要翻译的句子和需要保留的格式;对需要翻译的句子进行预处理,将句子标签状态进行保存并翻译;对输入句子和翻译结果进行词对齐使标签被正确添加到翻译结果中,获得与用户输入匹配的高精度译文。本发明使超文本标记语言的标签被正确的保留,获得与用户输入匹配的高精度译文,使翻译效果十分优越。CN112257462ACN112257462A权利要求书1/1页1.一种基于神经机器翻译技术的超文本标记语言翻译方法,其特征在于包括以下步骤:1)通过网络爬虫技术从含有外文数据的网络中爬取海量数据作为超文本标记语言语料,利用信息抽取技术从超文本标记语言语料中获取双语句对;2)对双语句对进行清洗过滤、分词、子词切分预处理,得到训练数据;3)将训练数据输入到神经网络模型中开始训练模型至模型收敛;4)对用户实时输入的超文本标记语言进行处理,提取出超文本标记语言文本中需要翻译的句子和需要保留的格式;5)对需要翻译的句子进行预处理,将句子标签状态进行保存,并使用训练完成的神经机器翻译模型对句子进行翻译;6)对输入句子和翻译结果进行词对齐使标签被正确添加到翻译结果中,获得与用户输入匹配的高精度译文。2.按权利要求1所述的基于神经机器翻译技术的超文本标记语言翻译方法,其特征在于:步骤4)中,对用户实时输入的超文本标记语言进行处理,提取出文本中需要翻译的句子和需要保留的格式,包括抽取需要翻译的句子,分词和子词切分方式,使送入神经机器翻译模型和训练模型时的训练数据的格式完全一致,减小数据和神经机器翻译模型的差异,减少未登录词的出现次数。3.按权利要求1所述的基于神经机器翻译技术的超文本标记语言翻译方法,其特征在于:步骤5)中,对句子进行预处理,将标签状态进行保存,并使用训练完成的神经机器翻译模型的编码器对源语句子进行翻译,具体为:501)对抽取出的句子进行预处理,分为标签部分和句子部分;502)将句子中每个词所处的标签状态进行保存,按照标签在句子中出现的顺序对标签进行保存;503)将抽取出的句子送入神经机器翻译模型中进行翻译,生成目标语言的翻译结果。4.按权利要求1所述的基于神经机器翻译技术的超文本标记语言翻译方法,其特征在于:步骤6)中,对输入句子和翻译结果进行词对齐使标签被正确添加到翻译结果中,获得与用户输入匹配的高精度译文,具体为:601)将源语句子与翻译结果进行词对齐处理,使每个词都获得精确的对应关系;602)根据词对齐关系把标签添加回翻译结果中,使原句子的标签状态得以保存;603)将处理完的句子按照抽取的顺序依次添加回初始文本中,使超文本标记语言样式得以保存。2CN112257462A说明书1/6页一种基于神经机器翻译技术的超文本标记语言翻译方法技术领域[0001]本发明涉及一种超文本标记语言翻译方法,具体为基于神经机器翻译技术的超文本标记语言翻译方法。背景技术[0002]随着科学技术的不断进步,互联网成为了现代人必不可少的基础资源,在现在这个信息化时代中,互联网就像电力资源一样不可或缺,人们可以十分便捷地从中获取知识,获取信息。但是,在人们浏览互联网时,有一个重大的问题摆在面前——语言障碍。出于人们对翻译的需求,机器翻译技术得以快速发展,而超文本标记语言翻译是机器翻译的一个重要问题。[0003]超文本标记语言(HTML)是在标准通用标记语言(SGML)基础上建立的一种用于描述超文本的标记语言,SGML是ISO在1986年公布的文本描述标准。超文本指含有指向其他文档的指针的文本,标记是描述或分割文本中各对象的编码。HTML不是一种编程语言,而是一种标记语言。HT