预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107507619A(43)申请公布日2017.12.22(21)申请号201710812770.X(22)申请日2017.09.11(71)申请人厦门美图之家科技有限公司地址361000福建省厦门市火炬高新区软件园华讯楼C区B1F-089(72)发明人方博伟张康卓鹏鹏张伟尤嘉华(74)专利代理机构北京超凡志成知识产权代理事务所(普通合伙)11371代理人邓超(51)Int.Cl.G10L21/013(2013.01)G10L13/033(2013.01)G10L25/48(2013.01)G10L25/24(2013.01)权利要求书3页说明书9页附图7页(54)发明名称语音转换方法、装置、电子设备及可读存储介质(57)摘要本发明提供一种语音转换方法、装置、电子设备及可读存储介质。所述方法包括基于预设切分规则将待转换语音切分为多个待转换帧单元;提取每个所述待转换帧单元的梅尔倒谱特征;根据音素字典及每个待转换帧单元的梅尔倒谱特征,计算得到多个候选帧单元;根据待转换说话人的帧单元与目标音色说话人的帧单元之间的对应关系,匹配得到目标帧单元;计算转换代价,得到最佳路径;对最佳路径上的目标帧单元进行处理,得到目标语音。该方法在音素字典中计算得到多个候选帧单元,相对于现有技术从整个技术特征字典中查找能节省计算资源提高计算速度,同时将传统的单帧的计算改进为多帧的计算,极大地改善了合成语音不连续,音质较差的技术问题。CN107507619ACN107507619A权利要求书1/3页1.一种语音转换方法,其特征在于,所述方法包括:基于预设切分规则将待转换说话人的待转换语音切分为多个待转换帧单元,其中,每个待转换帧单元包括多个连续语音帧;提取每个所述待转换帧单元的梅尔倒谱特征;根据预先得到的待转换说话人的音素字典及每个所述待转换帧单元的梅尔倒谱特征,计算得到多个候选帧单元;根据预先得到的待转换说话人的帧单元与目标音色说话人的帧单元之间的对应关系,匹配得到候选帧单元对应的目标帧单元;计算转换代价,得到待转换语音转换为目标音色说话人语音的最佳路径;对所述最佳路径上的目标帧单元进行处理,得到所述待转换语音对应的目标音色说话人的目标语音。2.如权利要求1所述的方法,其特征在于,所述方法还包括:对语音数据进行预处理的步骤,该步骤包括:采用所述预设切分规则对待转换说话人对应的原始语音库中的原始语音及目标音色说话人对应的目标语音库中的目标语音进行切分,得到原始语音对应的多个帧单元和目标语音对应的多个帧单元;提取原始语音和目标语音的梅尔倒谱特征,构建原始语音特征字典及目标语音特征字典;建立所述原始语音的帧单元与目标语音的帧单元之间的对应关系;将原始语音特征字典按照已标注的音素信息进行归类得到音素字典;提取原始语音与目标语音的基频特征,计算基频均值及基频方差;根据基频均值及基频方差建立待转换说话人与目标音色说话人之间基频的映射关系。3.根据权利要求2所述的方法,其特征在于,所述根据预先得到的待转换说话人的音素字典及每个所述待转换帧单元的梅尔倒谱特征,计算得到多个候选帧单元的步骤包括:由每个所述待转换帧单元的梅尔倒谱特征构成每个所述待转换帧单元的特征向量;计算各个待转换帧单元的特征向量与音素字典中各帧单元的特征向量之间的欧式距离并进行排序;采用K近邻算法从所述音素字典中筛选出各个待转换帧单元对应的多个候选帧单元。4.根据权利要求2所述的方法,其特征在于,所述计算转换代价,得到待转换语音转换为目标音色说话人语音的最佳路径的步骤包括:计算待转换帧单元与目标帧单元之间的目标代价,及相邻时刻的目标帧单元之间的转移代价;根据计算得到的目标代价及转移代价采用维特比算法搜索得到最佳路径。5.根据权利要求2所述的方法,其特征在于,所述对所述最佳路径上的目标帧单元进行处理,得到所述待转换语音对应的目标音色说话人的目标语音的步骤包括:根据所述原始语音的帧单元与目标语音的帧单元之间的对应关系,获得待转换帧单元对应的目标帧单元的梅尔倒谱特征;对所述最佳路径上的各个目标帧单元的梅尔倒谱特征,按照时间顺序和预设的切分规则进行平滑连接处理;2CN107507619A权利要求书2/3页根据待转换说话人与目标音色说话人之间基频的映射关系,获得待转换帧单元对应的目标帧单元的基频特征;将目标帧单元的梅尔倒谱特征和基频特征转换为目标语音的频谱;将目标语音的频谱进行频时域转换得到目标音色说话人的目标语音。6.一种语音转换装置,其特征在于,所述装置包括:切分模块,用于基于预设切分规则将待转换说话人的待转换语音切分为多个待转换帧单元,其中,每个待转换帧单元包括多个连续语音帧;提取模块,用于提取每个所述待转换帧单元的梅尔倒谱特征;计算