平行语料获取方法、装置、电子设备、及存储介质.pdf
闪闪****魔王
亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
平行语料获取方法、装置、电子设备、及存储介质.pdf
本公开实施例公开了一种平行语料获取方法、装置、电子设备、及存储介质。该方法包括:获取目标文档内的文本数据;对文本数据进行语种检测,若文本数据包括至少两个语种,则保留所述文本数据;检测保留的文本数据中,各语种的词汇分布比例,若词汇分布比例最高的第一语种和第二语种的词汇分布比例均大于预定比例阈值,则保留所检测的文本数据;从保留的所检测的文本数据中抽取第一语种的语句作为第一语句集,以及抽取第二语种的语句作为第二语句集,将所述第一语句集和所述第二语句集进行语句对齐,以及确定对齐度大于预定对齐度阈值的语句对作为平行
平行语料获取方法、装置、电子设备、及存储介质.pdf
本公开实施例公开了一种平行语料获取方法、装置、电子设备、及存储介质,方法包括:识别存在平行语料的网页;对所述网页进行分组;对分组内的网页基于网页文本的主要语种的比例确定是否保留与主要语种有关的文本数据;将分组内保留的文本数据根据不同语种两两组合,对各组合所包含的文本数据对进行文本对齐获取平行语料。本公开实施例能够提高获取平行语料的效率,应用该方法能够从海量网页中自动获取大量平行语料数据。
语料的获取方法、装置、设备及存储介质.pdf
本公开实施例涉及一种语料的获取方法、装置、设备及存储介质,其中,该方法通过获取对象的多个信息文本,分别对每个信息文本进行处理,得到每个信息文本的中间语料,中间语料中包括信息文本中的至少部分词语,之后可以针对每个中间语料,对中间语料中的词语进行组合,并基于组合得到的组合词在多个信息文本中的词频和词频逆向文件频率TFIDF值,确定对象的目标语料。本方案避免了相关技术中仅依赖词频造成的语料倾向于出现更多的词的问题,能够解决重要但是词频不高的语料发现问题,提升了语料确定的准确性和全面性,并且不需要构建数据量非常大
语料处理方法、装置、存储介质及电子设备.pdf
本申请实施例公开了语料处理方法、装置、存储介质及电子设备,上述方法包括确定目标语料中每个语料单元的置信度,上述语料单元的置信度表征上述语料单元正确表达关联语料单元的可靠程度,上述关联语料单元为上述目标语料对应的原始语料中,与上述语料单元对应的原始语料单元;基于上述每个语料单元的置信度,对上述每个语料单元进行特征提取,得到上述每个语料单元的特征信息;根据上述每个语料单元的特征信息,得到上述目标语料对应的语料特征信息;对上述语料特征信息进行语料修正处理,得到上述目标语料对应的修正语料。本申请实施例可以显著提升
语料的处理方法及装置、电子设备、存储介质.pdf
本发明提供了一种语料的处理方法及装置、电子设备、存储介质,该方法包括:将目标语料拆分成多个子语料;选定所述多个子语料中任一与时间有关的子语料为目标子语料,提取所述目标子语料中的时间信息;关联所述时间信息和所述目标子语料中包含的多个实体关键词,得到关联语料;其中,所述关联语料用于表征所述目标子语料中的时间信息和多个实体关键词之间的对应关系。通过本发明,解决了现有的实体识别方案无法识别出各个实体之间与时间的对应关系的技术问题。