语音转换方法、装置、电子设备及可读存储介质-豆柴文库

语音转换方法、装置、电子设备及可读存储介质.pdf

2023-06-25

10金币

1.3MB

20页

努力****采萍

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共20页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107507619A(43)申请公布日2017.12.22(21)申请号201710812770.X(22)申请日2017.09.11(71)申请人厦门美图之家科技有限公司地址361000福建省厦门市火炬高新区软件园华讯楼C区B1F-089(72)发明人方博伟张康卓鹏鹏张伟尤嘉华(74)专利代理机构北京超凡志成知识产权代理事务所(普通合伙)11371代理人邓超(51)Int.Cl.G10L21/013(2013.01)G10L13/033(2013.01)G10L25/48(2013.01)G10L25/24(2013.01)权利要求书3页说明书9页附图7页(54)发明名称语音转换方法、装置、电子设备及可读存储介质(57)摘要本发明提供一种语音转换方法、装置、电子设备及可读存储介质。所述方法包括基于预设切分规则将待转换语音切分为多个待转换帧单元；提取每个所述待转换帧单元的梅尔倒谱特征；根据音素字典及每个待转换帧单元的梅尔倒谱特征，计算得到多个候选帧单元；根据待转换说话人的帧单元与目标音色说话人的帧单元之间的对应关系，匹配得到目标帧单元；计算转换代价，得到最佳路径；对最佳路径上的目标帧单元进行处理，得到目标语音。该方法在音素字典中计算得到多个候选帧单元，相对于现有技术从整个技术特征字典中查找能节省计算资源提高计算速度，同时将传统的单帧的计算改进为多帧的计算，极大地改善了合成语音不连续，音质较差的技术问题。CN107507619ACN107507619A权利要求书1/3页1.一种语音转换方法，其特征在于，所述方法包括：基于预设切分规则将待转换说话人的待转换语音切分为多个待转换帧单元，其中，每个待转换帧单元包括多个连续语音帧；提取每个所述待转换帧单元的梅尔倒谱特征；根据预先得到的待转换说话人的音素字典及每个所述待转换帧单元的梅尔倒谱特征，计算得到多个候选帧单元；根据预先得到的待转换说话人的帧单元与目标音色说话人的帧单元之间的对应关系，匹配得到候选帧单元对应的目标帧单元；计算转换代价，得到待转换语音转换为目标音色说话人语音的最佳路径；对所述最佳路径上的目标帧单元进行处理，得到所述待转换语音对应的目标音色说话人的目标语音。2.如权利要求1所述的方法，其特征在于，所述方法还包括：对语音数据进行预处理的步骤，该步骤包括：采用所述预设切分规则对待转换说话人对应的原始语音库中的原始语音及目标音色说话人对应的目标语音库中的目标语音进行切分，得到原始语音对应的多个帧单元和目标语音对应的多个帧单元；提取原始语音和目标语音的梅尔倒谱特征，构建原始语音特征字典及目标语音特征字典；建立所述原始语音的帧单元与目标语音的帧单元之间的对应关系；将原始语音特征字典按照已标注的音素信息进行归类得到音素字典；提取原始语音与目标语音的基频特征，计算基频均值及基频方差；根据基频均值及基频方差建立待转换说话人与目标音色说话人之间基频的映射关系。3.根据权利要求2所述的方法，其特征在于，所述根据预先得到的待转换说话人的音素字典及每个所述待转换帧单元的梅尔倒谱特征，计算得到多个候选帧单元的步骤包括：由每个所述待转换帧单元的梅尔倒谱特征构成每个所述待转换帧单元的特征向量；计算各个待转换帧单元的特征向量与音素字典中各帧单元的特征向量之间的欧式距离并进行排序；采用K近邻算法从所述音素字典中筛选出各个待转换帧单元对应的多个候选帧单元。4.根据权利要求2所述的方法，其特征在于，所述计算转换代价，得到待转换语音转换为目标音色说话人语音的最佳路径的步骤包括：计算待转换帧单元与目标帧单元之间的目标代价，及相邻时刻的目标帧单元之间的转移代价；根据计算得到的目标代价及转移代价采用维特比算法搜索得到最佳路径。5.根据权利要求2所述的方法，其特征在于，所述对所述最佳路径上的目标帧单元进行处理，得到所述待转换语音对应的目标音色说话人的目标语音的步骤包括：根据所述原始语音的帧单元与目标语音的帧单元之间的对应关系，获得待转换帧单元对应的目标帧单元的梅尔倒谱特征；对所述最佳路径上的各个目标帧单元的梅尔倒谱特征，按照时间顺序和预设的切分规则进行平滑连接处理；2CN107507619A权利要求书2/3页根据待转换说话人与目标音色说话人之间基频的映射关系，获得待转换帧单元对应的目标帧单元的基频特征；将目标帧单元的梅尔倒谱特征和基频特征转换为目标语音的频谱；将目标语音的频谱进行频时域转换得到目标音色说话人的目标语音。6.一种语音转换装置，其特征在于，所述装置包括：切分模块，用于基于预设切分规则将待转换说话人的待转换语音切分为多个待转换帧单元，其中，每个待转换帧单元包括多个连续语音帧；提取模块，用于提取每个所述待转换帧单元的梅尔倒谱特征；计算

相关资料

语音转换方法、装置、电子设备及可读存储介质.pdf

本发明提供一种语音转换方法、装置、电子设备及可读存储介质。方法包括基于预设切分规则将输入语音切分为多个帧单元；提取每个帧单元的梅尔倒谱特征和基频特征；将帧单元归类到相应的音素集合；根据帧单元的梅尔倒谱特征和平行训练得到的高斯混合模型参数，计算得到输出梅尔倒谱特征；根据输入语音帧单元基频，原始音素集合的基频特征和目标语音素集合的基频特征，计算得到输出基频；根据输出梅尔倒谱特征及输出基频计算得到输入语音转换后对应的输出语音。该方法不仅改善因忽略语音瞬时信息而导致的语音连续性差的缺点，还弥补整体训练的高斯混合模

2023-06-25

1MB

语音转换方法、装置、电子设备及可读存储介质.pdf

本发明提供一种语音转换方法、装置、电子设备及可读存储介质。所述方法包括基于预设切分规则将待转换语音切分为多个待转换帧单元；提取每个所述待转换帧单元的梅尔倒谱特征；根据音素字典及每个待转换帧单元的梅尔倒谱特征，计算得到多个候选帧单元；根据待转换说话人的帧单元与目标音色说话人的帧单元之间的对应关系，匹配得到目标帧单元；计算转换代价，得到最佳路径；对最佳路径上的目标帧单元进行处理，得到目标语音。该方法在音素字典中计算得到多个候选帧单元，相对于现有技术从整个技术特征字典中查找能节省计算资源提高计算速度，同时将传统

2023-06-25

1.3MB

数据转换方法、装置、电子设备及可读存储介质.pdf

本申请提供一种数据转换方法、装置、电子设备及可读存储介质，涉及数据处理技术领域。该方法获取第一类数据和第二类数据之间的转换映射关系，并根据转换映射关系将属于第一类数据的源数据转换为属于第二类数据的目标数据，如此可自动实现数据转换，从而可避免人工转换导致的耗时长、效率低的问题，还可避免人工转换导致的错误率高的问题。

2023-07-25

853KB

语音转换方法、装置、电子设备和存储介质.pdf

本发明提供一种语音转换方法、装置、电子设备和存储介质，其中方法包括：确定源发音人语音的发音人无关特征；基于样本语音的发音人无关特征和声学特征，对所述源发音人语音的发音人无关特征进行声学转换，得到目标声学特征，所述样本语音中的部分为类人声音频；基于所述目标声学特征进行语音合成，得到目标发音人的目标语音。本发明提供的方法、装置、电子设备和存储介质，通过在样本语音中添加类人声音频，使得样本语音能够覆盖人声各声部的音域，由此能够学习到更广音域下语音的发音人无关特征和声学特征，因此能够克服跨音域转换时的音域匹配问题

2023-07-24

514KB

文本语音转化方法、装置、电子设备及可读存储介质.pdf

本申请提供了一种文本语音转化方法、装置、电子设备及可读存储介质，其中，该方法包括：根据配置信息，为待处理文本配置目标语音属性，所述配置信息包括所述目标语音属性；获取语音数据库中所述待处理文本对应的音频文件；根据所述目标语音属性，播放所述音频文件。本申请通过为待处理文本配置相应的目标语音属性，使得通过语音属性实现对待处理文本的播放进行控制，以实现音频输出的声音富有人类情感，能够逼真的模拟人类的声音。

2023-07-25

430KB