语音转换方法、装置、电子设备及可读存储介质-豆柴文库

语音转换方法、装置、电子设备及可读存储介质.pdf

2023-06-25

10金币

1MB

19页

一条****轩吗

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共19页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107705802A(43)申请公布日2018.02.16(21)申请号201710814245.1(22)申请日2017.09.11(71)申请人厦门美图之家科技有限公司地址361000福建省厦门市火炬高新区软件园华讯楼C区B1F-089(72)发明人方博伟卓鹏鹏张康尤嘉华张伟(74)专利代理机构北京超凡志成知识产权代理事务所(普通合伙)11371代理人苏胜(51)Int.Cl.G10L25/18(2013.01)G10L25/24(2013.01)G10L15/06(2013.01)权利要求书3页说明书10页附图5页(54)发明名称语音转换方法、装置、电子设备及可读存储介质(57)摘要本发明提供一种语音转换方法、装置、电子设备及可读存储介质。方法包括基于预设切分规则将输入语音切分为多个帧单元；提取每个帧单元的梅尔倒谱特征和基频特征；将帧单元归类到相应的音素集合；根据帧单元的梅尔倒谱特征和平行训练得到的高斯混合模型参数，计算得到输出梅尔倒谱特征；根据输入语音帧单元基频，原始音素集合的基频特征和目标语音素集合的基频特征，计算得到输出基频；根据输出梅尔倒谱特征及输出基频计算得到输入语音转换后对应的输出语音。该方法不仅改善因忽略语音瞬时信息而导致的语音连续性差的缺点，还弥补整体训练的高斯混合模型导致的频谱细节缺失的问题，使得合成语音发音更准确，连续，以及韵律保持更完好。CN107705802ACN107705802A权利要求书1/3页1.一种语音转换方法，其特征在于，所述方法包括：基于预设切分规则将待转换说话人的输入语音切分为多个帧单元，其中，每个帧单元包括多个连续语音帧；提取每个所述帧单元的梅尔倒谱特征和基频特征；将所述帧单元归类到相应的语音音素集合；根据所述帧单元的梅尔倒谱特征和所述帧单元对应语音音素集合的高斯混合模型参数，计算得到输出梅尔倒谱特征；基于所述帧单元的基频和帧单元对应的原始语音音素集合的基频特征和目标语音音素集合的基频特征，计算得到输出基频，其中，所述原始语音音素集合为待转换说话人语音对应的语音音素集合，所述目标语音音素为目标音色说话人语音对应的语音音素集合；根据所述输出梅尔倒谱特征及输出基频计算得到所述输入语音对应的目标音色说话人的输出语音。2.如权利要求1所述的语音转换方法，其特征在于，所述方法还包括通过原始语音音素集合和目标语音音素集合平行训练得到高斯混合模型参数及基频转换参数，其中，原始语音库为待转换说话人语音库，目标语音库为目标音色说话人的语音库；所述通过原始语音音素集合和目标语音音素集合平行训练得到高斯混合模型参数及基频转换参数的步骤包括：采用所述预设切分规则对原始语音库中的原始语音及目标语音库中的目标语音进行切分，得到原始语音对应的多个帧单元和目标语音对应的多个帧单元；提取原始语音和目标语音的梅尔倒谱特征及基频特征；建立所述原始语音与目标语音之间的对应关系；将原始语音库划分为单语音音素集合和多语音音素集合；根据所述原始语音与目标语音之间的对应关系，将所述目标语音库划分成与所述原始语音库相对应的语音音素集合；将原始语音的帧单元与目标语音的帧单元添加到相应的至少一个语音音素集合中；基于所述原始语音的基频特征及所述目标语音的基频特征计算每个语音音素集合的基频转换参数；基于每个语音音素集合，联合原始语音与目标语音的梅尔倒谱特征，训练获得每个语音音素集合的高斯混合模型参数。3.根据权利要求1所述的语音转换方法，其特征在于，所述提取所述帧单元的梅尔倒谱特征和基频特征的步骤包括：对所述帧单元进行时频域变化得到每一帧单元的频谱信息；从所述频谱信息中提取得到所述帧单元的基频特征；采用梅尔滤波器组提取得到所述帧单元的梅尔倒谱特征。4.根据权利要求3所述的语音转换方法，其特征在于，所述基于所述帧单元的梅尔倒谱特征和所述帧单元对应语音音素集合的高斯混合模型参数，计算得到输出梅尔倒谱特征的步骤包括：根据所述帧单元对应语音音素集合的序号，提取得到所述语音音素集合对应的高斯混合模型参数；2CN107705802A权利要求书2/3页通过提取的高斯混合模型参数构建所述输出梅尔倒谱特征与所述帧单元的梅尔倒谱特征之间的映射关系，计算得到所述输出梅尔倒谱特征。5.如权利要求1所述的语音转换方法，其特征在于，输入语音信息包括输入语音基频序列，以及其对应的原始语音音素集合的基频均值和基频方差及目标语音音素集合的基频均值和基频方差，计算得到输出基频的步骤包括：将输入语音基频序列与对应的原始语音音素集合的基频均值相减，所得的差值与目标语音音素集合的基频方差和原始语音音素集合的基频方差之商相乘，相乘得到的乘积与目标语音音素集合的基频均值相加即得到输出基频。6.一种语音转换

相关资料

语音转换方法、装置、电子设备及可读存储介质.pdf

本发明提供一种语音转换方法、装置、电子设备及可读存储介质。方法包括基于预设切分规则将输入语音切分为多个帧单元；提取每个帧单元的梅尔倒谱特征和基频特征；将帧单元归类到相应的音素集合；根据帧单元的梅尔倒谱特征和平行训练得到的高斯混合模型参数，计算得到输出梅尔倒谱特征；根据输入语音帧单元基频，原始音素集合的基频特征和目标语音素集合的基频特征，计算得到输出基频；根据输出梅尔倒谱特征及输出基频计算得到输入语音转换后对应的输出语音。该方法不仅改善因忽略语音瞬时信息而导致的语音连续性差的缺点，还弥补整体训练的高斯混合模

2023-06-25

1MB

语音转换方法、装置、电子设备及可读存储介质.pdf

本发明提供一种语音转换方法、装置、电子设备及可读存储介质。所述方法包括基于预设切分规则将待转换语音切分为多个待转换帧单元；提取每个所述待转换帧单元的梅尔倒谱特征；根据音素字典及每个待转换帧单元的梅尔倒谱特征，计算得到多个候选帧单元；根据待转换说话人的帧单元与目标音色说话人的帧单元之间的对应关系，匹配得到目标帧单元；计算转换代价，得到最佳路径；对最佳路径上的目标帧单元进行处理，得到目标语音。该方法在音素字典中计算得到多个候选帧单元，相对于现有技术从整个技术特征字典中查找能节省计算资源提高计算速度，同时将传统

2023-06-25

1.3MB

数据转换方法、装置、电子设备及可读存储介质.pdf

本申请提供一种数据转换方法、装置、电子设备及可读存储介质，涉及数据处理技术领域。该方法获取第一类数据和第二类数据之间的转换映射关系，并根据转换映射关系将属于第一类数据的源数据转换为属于第二类数据的目标数据，如此可自动实现数据转换，从而可避免人工转换导致的耗时长、效率低的问题，还可避免人工转换导致的错误率高的问题。

2023-07-25

853KB

语音转换方法、装置、电子设备和存储介质.pdf

本发明提供一种语音转换方法、装置、电子设备和存储介质，其中方法包括：确定源发音人语音的发音人无关特征；基于样本语音的发音人无关特征和声学特征，对所述源发音人语音的发音人无关特征进行声学转换，得到目标声学特征，所述样本语音中的部分为类人声音频；基于所述目标声学特征进行语音合成，得到目标发音人的目标语音。本发明提供的方法、装置、电子设备和存储介质，通过在样本语音中添加类人声音频，使得样本语音能够覆盖人声各声部的音域，由此能够学习到更广音域下语音的发音人无关特征和声学特征，因此能够克服跨音域转换时的音域匹配问题

2023-07-24

514KB

文本语音转化方法、装置、电子设备及可读存储介质.pdf

本申请提供了一种文本语音转化方法、装置、电子设备及可读存储介质，其中，该方法包括：根据配置信息，为待处理文本配置目标语音属性，所述配置信息包括所述目标语音属性；获取语音数据库中所述待处理文本对应的音频文件；根据所述目标语音属性，播放所述音频文件。本申请通过为待处理文本配置相应的目标语音属性，使得通过语音属性实现对待处理文本的播放进行控制，以实现音频输出的声音富有人类情感，能够逼真的模拟人类的声音。

2023-07-25

430KB