短语语料获取方法及短语语料获取装置.pdf
雨巷****可歆
亲,该文档总共21页,到这已经超出免费预览范围,如果喜欢就直接下载吧~
相关资料
短语语料获取方法及短语语料获取装置.pdf
本发明涉及语音合成技术领域,提供一种短语语料获取方法及短语语料获取装置。短语语料获取方法,包括:获取待处理长句语料。拆分待处理长句语料,得到至少一个子句语料。将子句语料的字数与预设句长阈值进行对比。若子句语料的字数小于或等于预设句长阈值,则保留子句语料作为短句语料。通过本公开提供的获取短语语料方法,将待处理长句语料拆分成独立的子句语料进行处理,有助于提高语料清洗句子利用率,减少待处理长句语料中有用语料的损失,进而节省人工校对的成本。
个性语料获取方法及个性语料获取装置.pdf
本发明涉及语音合成技术领域,提供一种个性语料获取方法及个性语料获取装置。个性语料获取方法,包括:获取待选语句集,待选语句集包括至少一个待选语句。获取录音者的个人属性信息。基于待选语句和个人属性信息,得到待选语句与录音者之间的适配值。根据适配值,判断待选语句是否保留。根据判断待选语句是否保留的判断结果,得到适配于录音者的个性语料,其中,个性语料由待选语句集中保留的待选语句组成。通过本公开提供的个性语料获取方法,能够根据待选语句自身的易读性和录音者的个人属性信息,筛选适合录音者的待选语句,进而获得适合录音者的
语料获取方法及装置.pdf
本发明实施例提供了一种语料获取方法及装置,所述方法包括:获取针对任一类型的语法文件;所述语法文件采用规范化标记语言预先编译获得,定义了所述类型对应的词串以及各个词串之间的组织关系;所述词串为所述语法文件中的终结字符,包括字、词和/或短语;将所述语法文件进行解析,按照所述组织关系将所述各个词串进行任意组合,获得多个文本句子;将所述多个文本句子作为语料,构建获得语料库,本发明实施例提高了降低了语料获取难度,提高了语料获取的准确度。
用户语料信息的获取方法及装置.pdf
本发明实施例提供一种用户语料信息的获取方法及装置,涉及数据挖掘技术领域,主要目的是提高获取语料的质量。本发明实施例所采用的技术方案是:根据候选用户观看的多媒体对应的用户行为的属性分布信息,评估所述候选用户在不同的属性类别上的偏好值,所述多媒体对应的用户行为的属性分布信息用于表示所述多媒体对应的用户行为在所述不同的属性类别上的分布信息;根据所述候选用户在不同的属性类别上的偏好值获取所述候选用户在不同的属性类别上的置信度;根据所述置信度从所述候选用户中选择目标用户,将所述目标用户的用户语料信息作为样本用户的用
语料的获取方法、装置、设备及存储介质.pdf
本公开实施例涉及一种语料的获取方法、装置、设备及存储介质,其中,该方法通过获取对象的多个信息文本,分别对每个信息文本进行处理,得到每个信息文本的中间语料,中间语料中包括信息文本中的至少部分词语,之后可以针对每个中间语料,对中间语料中的词语进行组合,并基于组合得到的组合词在多个信息文本中的词频和词频逆向文件频率TFIDF值,确定对象的目标语料。本方案避免了相关技术中仅依赖词频造成的语料倾向于出现更多的词的问题,能够解决重要但是词频不高的语料发现问题,提升了语料确定的准确性和全面性,并且不需要构建数据量非常大