预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共23页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113947093A(43)申请公布日2022.01.18(21)申请号202010681467.2(22)申请日2020.07.15(71)申请人阿里巴巴集团控股有限公司地址英属开曼群岛大开曼资本大厦一座四层847号邮箱(72)发明人陆军骆卫华赵宇施杨斌(74)专利代理机构北京市惠诚律师事务所11353代理人刘子敬(51)Int.Cl.G06F40/58(2020.01)G06F40/49(2020.01)权利要求书2页说明书14页附图6页(54)发明名称数据处理方法和装置、电子设备以及计算机可读存储介质(57)摘要本申请公开了一种数据处理方法和装置、电子设备以及计算机可读存储介质。该方法包括:根据多语言单语和特定领域的源语言单语获得正向伪语料;根据多语言单语和所述正向伪语料获得所述特定领域的目标语言单语;根据所述特定领域的目标语言单语获得反向伪语料;根据所述正向伪语料和所述反向伪语料得到用于翻译的双语数据。本申请实施例省去了人工挑选正向伪语料和反向伪语料尤其是挑选用于生成正向伪语料和反向伪语料的基础单语语料的工作,大大提高了自动化生成用于翻译的双语数据的效率。CN113947093ACN113947093A权利要求书1/2页1.一种数据处理方法,包括:根据多语言单语和特定领域的源语言单语获得正向伪语料;根据多语言单语和所述正向伪语料获得所述特定领域的目标语言单语;根据所述特定领域的目标语言单语获得反向伪语料;根据所述正向伪语料和所述反向伪语料得到用于翻译的双语数据。2.根据权利要求1所述的方法,其中,所述方法还包括:获得具有互译关系的双语语料,所述双语语料用于与所述正向伪语料、所述反向伪语料共同构成所述用于翻译的双语数据。3.根据权利要求1或2所述的方法,其中,所述方法还包括:使用所述双语数据构成双语训练集;利用所述双语训练集对翻译模型进行训练。4.根据权利要求3所述的方法,其中,所述方法还包括:获取多个翻译日志,每个翻译日志中包括至少一对源语言与目标语言的互译对;对多个翻译日志的翻译质量进行评估,获得评估结果低于第一预设阈值的第一翻译日志;在所述多语言单语中获取与所述第一翻译日志相关联的第一源语言单语;在所述双语数据中,获取与所述第一源语言单语相关联的第一双语数据;使用所述第一双语数据对所述第一翻译日志进行校对。5.根据权利要求4所述的方法,其中,所述方法还包括:使用所述第一双语数据对所述翻译模型进行训练。6.根据权利要求1所述的方法,其中,所述方法还包括:对所述多语言单语和/或所述特定领域的源语言单语进行筛选;则所述根据多语言单语和特定领域的源语言单语获得正向伪语料,包括:根据筛选后的多语言单语和特定领域的源语言单语获得正向伪语料;或者,根据多语言单语和筛选后的特定领域的源语言单语获得正向伪语料;或者,根据筛选后的多语言单语和筛选后的特定领域的源语言单语获得正向伪语料。7.根据权利要求2所述的方法,其中,所述方法还包括:根据预定的过滤规则对所述具有互译关系的双语语料进行过滤处理;将过滤后的具有互译关系的双语语料添加到所述用于翻译的双语数据。8.一种数据处理装置,包括:第一获取模块,用于根据多语言单语和特定领域的源语言单语获得正向伪语料;第二获取模块,用于根据多语言单语和所述正向伪语料获得所述特定领域的目标语言单语;第三获取模块,用于根据所述特定领域的目标语言单语获得反向伪语料;第四获取模块,用于根据所述正向伪语料和所述反向伪语料得到用于翻译的双语数据。9.根据权利要求8所述的装置,其中,所述装置还包括:2CN113947093A权利要求书2/2页第五获取模块,用于获得具有互译关系的双语语料,所述双语语料用于与所述正向伪语料、所述反向伪语料共同构成所述用于翻译的双语数据。10.根据权利要求8或9所述的装置,其中,所述装置还包括:第一训练模块,用于使用所述双语数据构成双语训练集,利用所述双语训练集对翻译模型进行训练。11.根据权利要求10所述的装置,其中,所述装置还包括:校对模块,用于获取多个翻译日志,每个翻译日志中包括至少一对源语言与目标语言的互译对,对多个翻译日志的翻译质量进行评估,获得评估结果低于第一预设阈值的第一翻译日志,在所述多语言单语中获取与所述第一翻译日志相关联的第一源语言单语,在所述双语数据中,获取与所述第一源语言单语相关联的第一双语数据,使用所述第一双语数据对所述第一翻译日志进行校对。12.根据权利要求11所述的装置,其中,所述装置还包括:第二训练模块,用于使用所述第一双语数据对所述翻译模型进行训练。13.根据权利要求8所述的装置,其中,所述装置还包括:筛选模块,用于对所述多语言单语和/或所述特定领域单语进行筛选;则,所述第一获