预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111368561A(43)申请公布日2020.07.03(21)申请号202010130436.8G06F40/242(2020.01)(22)申请日2020.02.28(71)申请人北京字节跳动网络技术有限公司地址100041北京市石景山区实兴大街30号院3号楼2层B-0035房间(72)发明人曹军李磊王明轩朱培豪(74)专利代理机构北京远智汇知识产权代理有限公司11659代理人范坤坤(51)Int.Cl.G06F40/58(2020.01)G06F40/216(2020.01)G06F40/279(2020.01)G06F40/263(2020.01)G06F40/253(2020.01)权利要求书2页说明书12页附图6页(54)发明名称平行语料获取方法、装置、电子设备、及存储介质(57)摘要本公开实施例公开了一种平行语料获取方法、装置、电子设备、及存储介质。该方法包括:获取目标文档内的文本数据;对文本数据进行语种检测,若文本数据包括至少两个语种,则保留所述文本数据;检测保留的文本数据中,各语种的词汇分布比例,若词汇分布比例最高的第一语种和第二语种的词汇分布比例均大于预定比例阈值,则保留所检测的文本数据;从保留的所检测的文本数据中抽取第一语种的语句作为第一语句集,以及抽取第二语种的语句作为第二语句集,将所述第一语句集和所述第二语句集进行语句对齐,以及确定对齐度大于预定对齐度阈值的语句对作为平行语料。能够自动从海量文档中获取大量平行语料数据,能够基于所获取的平行语料数据训练更精准的翻译模型。CN111368561ACN111368561A权利要求书1/2页1.一种平行语料获取方法,其特征在于,包括:获取目标文档内的文本数据;对所述文本数据进行语种检测;若所述文本数据包括至少两个语种,则保留所述文本数据;检测保留的文本数据中,各语种的词汇分布比例;若词汇分布比例最高的第一语种和第二语种的词汇分布比例均大于预定比例阈值,则保留所检测的文本数据;从保留的所检测的文本数据中抽取所述第一语种的语句作为第一语句集,以及抽取所述第二语种的语句作为第二语句集;将所述第一语句集和所述第二语句集进行语句对齐;以及确定对齐度大于预定对齐度阈值的语句对作为平行语料。2.根据权利要求1所述的方法,其特征在于,将所述第一语句集和所述第二语句集进行语句对齐包括:确定用于对齐所述第一语种语句和所述第二语种语句的对齐双向词典;对所述第一语句集中的任一源语句,从所述第二语句集中取出一个比对语句,执行如下操作;对所述源语句进行分词和词性过滤得到第一词集,确定所述第一词集中属于所述对齐双向词典中的第一对齐词集;以及对所述比对语句进行分词和词性过滤得到第二词集,确定所述第二词集中属于所述对齐双向词典中的第二对齐词集;根据所述第一词集的词数、第一对齐词集的词数、所述第二词集的词数、以及所述第二对齐词集的词数确定所述源词句和所述比对语句之间的对齐度。3.根据权利要求2所述的方法,其特征在于,对所述第一语句集中的任一源语句,从所述第二语句集中取出一个比对语句包括:顺次获取所述第一语句集中的一个语句作为所述源语句,若所述源语句的前一语句与所述第二语句集中的第I语句之间的对齐度大于所述预定对齐度阈值,且所述I小于所述第二语句集的语句数,则从所述第二语句集中取出所述第I语句的下一语句作为所述对比语句,其中所述I为自然数。4.根据权利要求2所述的方法,其特征在于,所述方法还包括,在确定对齐度大于预定对齐度阈值的语句对作为平行语料之后:筛选出对齐度大于预定第二对齐度阈值的平行语料,其中所述预定第二对齐度阈值大于所述预定对齐度阈值;将所筛选的平行语料传送给用于生成对齐双向词典的训练模型进行训练以优化所述训练模型;采用优化后的所述训练模型生成新的对齐双向词典以更新所述对齐双向词典。5.根据权利要求1所述的方法,其特征在于,所述方法还包括,在确定对齐度大于预定对齐度阈值的语句对作为平行语料之后:计算所述文本数据中作为平行语料的文本数据所占的比例;若所述比例大于预定第二比例阈值,则根据所述目标文档确定新的目标文档。6.根据权利要求5所述的方法,其特征在于,根据所述目标文档确定新的目标文档包2CN111368561A权利要求书2/2页括:获取所述目标文档的URL地址;获取所述URL地址关联的URL地址对应的文档作为新的目标文档。7.根据权利要求5所述的方法,其特征在于,根据所述目标文档确定新的目标文档包括:获取所述目标文档内的子链接的URL地址;获取所述子链接的URL地址对应的文档作为新的目标文档。8.根据权利要求1所述的方法,其特征在于,所述目标文档包括网络中的HTML页面、帮助文件页面、pfg文件、word文