音转文训练语料的获取方法、装置、设备以及存储介质.pdf
岚风****55
亲,该文档总共31页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
音转文训练语料的获取方法、装置、设备以及存储介质.pdf
本申请实施例公开了一种音转文训练语料的获取方法、装置、设备以及存储介质,该方法包括:获取目标视频的多个目标视频关键帧,并从各目标视频关键帧中确定出文字位置和文字内容;根据各目标视频关键帧中的文字位置和文字内容确定出目标视频的字幕识别区间,不同目标视频关键帧对应于字幕识别区间中的同一位置的文字内容不同;根据字幕识别区间对目标视频的字幕进行识别,以获取待处理字幕,并根据预设语料获取规则对待处理字幕进行字符处理以得到目标视频的目标字幕,根据目标视频和目标字幕生成用于视频语音识别的音转文训练语料。采用本发明实施例
语料的获取方法、装置、设备及存储介质.pdf
本公开实施例涉及一种语料的获取方法、装置、设备及存储介质,其中,该方法通过获取对象的多个信息文本,分别对每个信息文本进行处理,得到每个信息文本的中间语料,中间语料中包括信息文本中的至少部分词语,之后可以针对每个中间语料,对中间语料中的词语进行组合,并基于组合得到的组合词在多个信息文本中的词频和词频逆向文件频率TFIDF值,确定对象的目标语料。本方案避免了相关技术中仅依赖词频造成的语料倾向于出现更多的词的问题,能够解决重要但是词频不高的语料发现问题,提升了语料确定的准确性和全面性,并且不需要构建数据量非常大
平行语料获取方法、装置、电子设备、及存储介质.pdf
本公开实施例公开了一种平行语料获取方法、装置、电子设备、及存储介质。该方法包括:获取目标文档内的文本数据;对文本数据进行语种检测,若文本数据包括至少两个语种,则保留所述文本数据;检测保留的文本数据中,各语种的词汇分布比例,若词汇分布比例最高的第一语种和第二语种的词汇分布比例均大于预定比例阈值,则保留所检测的文本数据;从保留的所检测的文本数据中抽取第一语种的语句作为第一语句集,以及抽取第二语种的语句作为第二语句集,将所述第一语句集和所述第二语句集进行语句对齐,以及确定对齐度大于预定对齐度阈值的语句对作为平行
平行语料获取方法、装置、电子设备、及存储介质.pdf
本公开实施例公开了一种平行语料获取方法、装置、电子设备、及存储介质,方法包括:识别存在平行语料的网页;对所述网页进行分组;对分组内的网页基于网页文本的主要语种的比例确定是否保留与主要语种有关的文本数据;将分组内保留的文本数据根据不同语种两两组合,对各组合所包含的文本数据对进行文本对齐获取平行语料。本公开实施例能够提高获取平行语料的效率,应用该方法能够从海量网页中自动获取大量平行语料数据。
目标信息的获取方法、装置、设备以及存储介质.pdf
本申请涉及人工智能技术,本申请提供了一种目标信息的获取方法、装置、设备以及存储介质;其中,方法包括获取当前产品的唯一标识性信息,并从预设的知识图谱中获取所述当前产品的各维度的维度值,将收集到维度值的各维度按照设定的属性规则进行聚类处理,并获取各个属性对应的属性数据,将各所述属性数据分别发送给对应的属性目标信息计算子公式模型中,得到对应的子公式,将各个所述子公式按照预先设定的组合方法进行组合,得到所述当前产品的目标信息计算公式,并基于所述目标信息计算公式获取所述目标信息。从而无需开发人员进行相应代码的开发,