语料的获取方法、装置、设备及存储介质.pdf
一吃****春艳
亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
语料的获取方法、装置、设备及存储介质.pdf
本公开实施例涉及一种语料的获取方法、装置、设备及存储介质,其中,该方法通过获取对象的多个信息文本,分别对每个信息文本进行处理,得到每个信息文本的中间语料,中间语料中包括信息文本中的至少部分词语,之后可以针对每个中间语料,对中间语料中的词语进行组合,并基于组合得到的组合词在多个信息文本中的词频和词频逆向文件频率TFIDF值,确定对象的目标语料。本方案避免了相关技术中仅依赖词频造成的语料倾向于出现更多的词的问题,能够解决重要但是词频不高的语料发现问题,提升了语料确定的准确性和全面性,并且不需要构建数据量非常大
平行语料获取方法、装置、电子设备、及存储介质.pdf
本公开实施例公开了一种平行语料获取方法、装置、电子设备、及存储介质。该方法包括:获取目标文档内的文本数据;对文本数据进行语种检测,若文本数据包括至少两个语种,则保留所述文本数据;检测保留的文本数据中,各语种的词汇分布比例,若词汇分布比例最高的第一语种和第二语种的词汇分布比例均大于预定比例阈值,则保留所检测的文本数据;从保留的所检测的文本数据中抽取第一语种的语句作为第一语句集,以及抽取第二语种的语句作为第二语句集,将所述第一语句集和所述第二语句集进行语句对齐,以及确定对齐度大于预定对齐度阈值的语句对作为平行
平行语料获取方法、装置、电子设备、及存储介质.pdf
本公开实施例公开了一种平行语料获取方法、装置、电子设备、及存储介质,方法包括:识别存在平行语料的网页;对所述网页进行分组;对分组内的网页基于网页文本的主要语种的比例确定是否保留与主要语种有关的文本数据;将分组内保留的文本数据根据不同语种两两组合,对各组合所包含的文本数据对进行文本对齐获取平行语料。本公开实施例能够提高获取平行语料的效率,应用该方法能够从海量网页中自动获取大量平行语料数据。
音转文训练语料的获取方法、装置、设备以及存储介质.pdf
本申请实施例公开了一种音转文训练语料的获取方法、装置、设备以及存储介质,该方法包括:获取目标视频的多个目标视频关键帧,并从各目标视频关键帧中确定出文字位置和文字内容;根据各目标视频关键帧中的文字位置和文字内容确定出目标视频的字幕识别区间,不同目标视频关键帧对应于字幕识别区间中的同一位置的文字内容不同;根据字幕识别区间对目标视频的字幕进行识别,以获取待处理字幕,并根据预设语料获取规则对待处理字幕进行字符处理以得到目标视频的目标字幕,根据目标视频和目标字幕生成用于视频语音识别的音转文训练语料。采用本发明实施例
文本语料处理方法、装置、设备及存储介质.pdf
本申请提供了一种文本语料处理方法、装置、设备及存储介质,属于数据处理技术领域。所述方法包括:获取多条文本语料;按照重复语料的最大保留数量,将所述多条文本语料划分为所述最大保留数量个文本语料分组,每个文本语料分组包括至少一条文本语料,所述最大保留数量为大于1的整数;对划分得到的多个文本语料分组分别进行去重处理;将去重处理后的所述多个文本语料分组进行合并。上述方法能够处理得到符合语言模型训练要求的文本语料。