预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107705802A(43)申请公布日2018.02.16(21)申请号201710814245.1(22)申请日2017.09.11(71)申请人厦门美图之家科技有限公司地址361000福建省厦门市火炬高新区软件园华讯楼C区B1F-089(72)发明人方博伟卓鹏鹏张康尤嘉华张伟(74)专利代理机构北京超凡志成知识产权代理事务所(普通合伙)11371代理人苏胜(51)Int.Cl.G10L25/18(2013.01)G10L25/24(2013.01)G10L15/06(2013.01)权利要求书3页说明书10页附图5页(54)发明名称语音转换方法、装置、电子设备及可读存储介质(57)摘要本发明提供一种语音转换方法、装置、电子设备及可读存储介质。方法包括基于预设切分规则将输入语音切分为多个帧单元;提取每个帧单元的梅尔倒谱特征和基频特征;将帧单元归类到相应的音素集合;根据帧单元的梅尔倒谱特征和平行训练得到的高斯混合模型参数,计算得到输出梅尔倒谱特征;根据输入语音帧单元基频,原始音素集合的基频特征和目标语音素集合的基频特征,计算得到输出基频;根据输出梅尔倒谱特征及输出基频计算得到输入语音转换后对应的输出语音。该方法不仅改善因忽略语音瞬时信息而导致的语音连续性差的缺点,还弥补整体训练的高斯混合模型导致的频谱细节缺失的问题,使得合成语音发音更准确,连续,以及韵律保持更完好。CN107705802ACN107705802A权利要求书1/3页1.一种语音转换方法,其特征在于,所述方法包括:基于预设切分规则将待转换说话人的输入语音切分为多个帧单元,其中,每个帧单元包括多个连续语音帧;提取每个所述帧单元的梅尔倒谱特征和基频特征;将所述帧单元归类到相应的语音音素集合;根据所述帧单元的梅尔倒谱特征和所述帧单元对应语音音素集合的高斯混合模型参数,计算得到输出梅尔倒谱特征;基于所述帧单元的基频和帧单元对应的原始语音音素集合的基频特征和目标语音音素集合的基频特征,计算得到输出基频,其中,所述原始语音音素集合为待转换说话人语音对应的语音音素集合,所述目标语音音素为目标音色说话人语音对应的语音音素集合;根据所述输出梅尔倒谱特征及输出基频计算得到所述输入语音对应的目标音色说话人的输出语音。2.如权利要求1所述的语音转换方法,其特征在于,所述方法还包括通过原始语音音素集合和目标语音音素集合平行训练得到高斯混合模型参数及基频转换参数,其中,原始语音库为待转换说话人语音库,目标语音库为目标音色说话人的语音库;所述通过原始语音音素集合和目标语音音素集合平行训练得到高斯混合模型参数及基频转换参数的步骤包括:采用所述预设切分规则对原始语音库中的原始语音及目标语音库中的目标语音进行切分,得到原始语音对应的多个帧单元和目标语音对应的多个帧单元;提取原始语音和目标语音的梅尔倒谱特征及基频特征;建立所述原始语音与目标语音之间的对应关系;将原始语音库划分为单语音音素集合和多语音音素集合;根据所述原始语音与目标语音之间的对应关系,将所述目标语音库划分成与所述原始语音库相对应的语音音素集合;将原始语音的帧单元与目标语音的帧单元添加到相应的至少一个语音音素集合中;基于所述原始语音的基频特征及所述目标语音的基频特征计算每个语音音素集合的基频转换参数;基于每个语音音素集合,联合原始语音与目标语音的梅尔倒谱特征,训练获得每个语音音素集合的高斯混合模型参数。3.根据权利要求1所述的语音转换方法,其特征在于,所述提取所述帧单元的梅尔倒谱特征和基频特征的步骤包括:对所述帧单元进行时频域变化得到每一帧单元的频谱信息;从所述频谱信息中提取得到所述帧单元的基频特征;采用梅尔滤波器组提取得到所述帧单元的梅尔倒谱特征。4.根据权利要求3所述的语音转换方法,其特征在于,所述基于所述帧单元的梅尔倒谱特征和所述帧单元对应语音音素集合的高斯混合模型参数,计算得到输出梅尔倒谱特征的步骤包括:根据所述帧单元对应语音音素集合的序号,提取得到所述语音音素集合对应的高斯混合模型参数;2CN107705802A权利要求书2/3页通过提取的高斯混合模型参数构建所述输出梅尔倒谱特征与所述帧单元的梅尔倒谱特征之间的映射关系,计算得到所述输出梅尔倒谱特征。5.如权利要求1所述的语音转换方法,其特征在于,输入语音信息包括输入语音基频序列,以及其对应的原始语音音素集合的基频均值和基频方差及目标语音音素集合的基频均值和基频方差,计算得到输出基频的步骤包括:将输入语音基频序列与对应的原始语音音素集合的基频均值相减,所得的差值与目标语音音素集合的基频方差和原始语音音素集合的基频方差之商相乘,相乘得到的乘积与目标语音音素集合的基频均值相加即得到输出基频。6.一种语音转换