预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111310465A(43)申请公布日2020.06.19(21)申请号202010099153.1(22)申请日2020.02.18(71)申请人北京字节跳动网络技术有限公司地址100041北京市石景山区实兴大街30号院3号楼2层B-0035房间(72)发明人曹军李磊王明轩朱培豪(74)专利代理机构北京远智汇知识产权代理有限公司11659代理人范坤坤(51)Int.Cl.G06F40/289(2020.01)G06F16/33(2019.01)G06F16/951(2019.01)权利要求书2页说明书11页附图4页(54)发明名称平行语料获取方法、装置、电子设备、及存储介质(57)摘要本公开实施例公开了一种平行语料获取方法、装置、电子设备、及存储介质,方法包括:识别存在平行语料的网页;对所述网页进行分组;对分组内的网页基于网页文本的主要语种的比例确定是否保留与主要语种有关的文本数据;将分组内保留的文本数据根据不同语种两两组合,对各组合所包含的文本数据对进行文本对齐获取平行语料。本公开实施例能够提高获取平行语料的效率,应用该方法能够从海量网页中自动获取大量平行语料数据。CN111310465ACN111310465A权利要求书1/2页1.一种平行语料获取方法,其特征在于,包括:识别存在平行语料的网页;对所述网页进行分组;对分组内的网页基于网页文本的主要语种的比例确定是否保留与主要语种有关的文本数据;将分组内保留的文本数据根据不同语种两两组合,对各组合所包含的文本数据对进行文本对齐获取平行语料。2.根据权利要求1所述的方法,其特征在于,识别存在平行语料的网页包括:从预定网页集中确定网址中包含代表语种的语种信息片段的网页作为所述存在平行语料的网页。3.根据权利要求2所述的方法,其特征在于,在从预定网页集中确定网址中包含代表语种的语种信息片段的网页作为所述存在平行语料的网页之前还包括:从周期性抓取的网页中,将当天新增的网页和前N天抓取的网页进行汇聚后作为所述预定网页集,其中所述N为自然数。4.根据权利要求2所述的方法,其特征在于,对所述网页进行分组包括:对所述网页的网址去除所述语种信息片段后进行正则匹配,根据正则匹配结果对所述网页进行分组。5.根据权利要求4所述的方法,其特征在于,在对所述网页进行分组之前还包括,获取语种信息片段样本集,根据所述样本集生成正则表达式;对所述网页的网址去除所述语种信息片段后进行正则匹配包括:对所述网页的网址去除所述语种信息片段后,基于所述正则表达式进行正则匹配。6.根据权利要求1所述的方法,其特征在于,对分组内的网页基于网页文本的主要语种的比例确定是否保留与主要语种有关的文本数据包括:对分组内的网页,获取该网页内的网页文本,对所述网页文本进行语种比例成分检测,若比例最高语种的比例小于预定比例阈值,则过滤掉该网页,否则保留该网页文本中该比例最高语种的文本数据。7.根据权利要求1所述的方法,其特征在于,对各组合所包含的文本数据对进行文本对齐获取平行语料之前还包括:对各组合所包含的两个文本数据基于长度比例确定是否保留该组合。8.根据权利要求1所述的方法,其特征在于,对各组合所包含的文本数据对进行文本对齐获取平行语料包括:确定该文本数据对的两个语种对应的对齐双向词典;对该文本数据对的第一文本数据中的各源语句,从该文本数据对的第二文本数据中取出一个比对语句,执行如下操作:对所述源语句进行分词和词性过滤得到第一词集,确定所述第一词集中属于所述对齐双向词典中的第一对齐词集;以及对所述比对语句进行分词和词性过滤得到第二词集,确定所述第二词集中属于所述对齐双向词典中的第二对齐词集;根据所述第一词集的词数、第一对齐词集的词数、所述第二词集的词数、以及所述第二对齐词集的词数确定所述源词句和所述比对语句之间的对齐度;2CN111310465A权利要求书2/2页若所述对齐度大于预定对齐度阈值,则将所述源语句和所述比对语句组成的语句对作为平行语料。9.根据权利要求8所述的方法,其特征在于,对该文本数据对的第一文本数据中的各源语句,从该文本数据对的第二文本数据中取出一个比对语句包括:顺次获取所述第一文本数据中的一个语句作为所述源语句,若所述源语句的前一语句与所述第二文本数据中的第I语句之间的对齐度大于所述预定对齐度阈值,且所述I小于所述第二文本数据中语句数,则从所述第二文本数据中取出所述第I语句的下一语句作为所述对比语句,其中所述I为自然数。10.根据权利要求8所述的方法,其特征在于,在对各组合所包含的文本数据对进行文本对齐获取平行语料之后还包括:筛选出对齐度大于预定第二对齐度阈值的平行语料,其中所述预定第二对齐度阈值大于所述预定对齐度阈值;将所筛选的平行