音色转换处理方法、装置、电子设备及存储介质-豆柴文库

音色转换处理方法、装置、电子设备及存储介质.pdf

2023-07-24

10金币

820KB

21页

文宣****66

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共21页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114171037A(43)申请公布日2022.03.11(21)申请号202111327316.8(22)申请日2021.11.10(71)申请人北京达佳互联信息技术有限公司地址100085北京市海淀区上地西路6号1幢1层101D1-7(72)发明人邹逸张冉张凯翔(74)专利代理机构北京润泽恒知识产权代理有限公司11319代理人李娜(51)Int.Cl.G10L21/013(2013.01)G10H1/02(2006.01)权利要求书2页说明书14页附图4页(54)发明名称音色转换处理方法、装置、电子设备及存储介质(57)摘要本公开关于一种音色转换处理方法、装置、电子设备及存储介质。其中，所述方法包括：获取原始音频，并提取所述原始音频的音色转换信息；根据音色转换信息，合成具有目标音色的参考音频，参考音频至少包含谐波音频，所述谐波音频为与所述原始音频的音频内容一致，且仅包含谐波的音频；获取所述原始音频的正弦成分，并基于预设的插值系数，通过频谱特征插值方法对所述谐波音频与所述正弦成分做插值处理，得到音色转换后的目标音频，所述目标音频的音色介于所述原始音频的音色与所述目标音色之间。这样，合成具有目标音色的参考音频后，结合基于听觉感知特征研究的时频域特征插值技术，实现一种可控的音色转换方案，提高音色转换的有效性和灵活性。CN114171037ACN114171037A权利要求书1/2页1.一种音色转换处理方法，其特征在于，包括：获取原始音频，并提取所述原始音频的音色转换信息；根据所述音色转换信息，合成具有目标音色的参考音频，所述参考音频至少包含谐波音频，所述谐波音频为与所述原始音频的音频内容一致，且仅包含谐波的音频；获取所述原始音频的正弦成分，并基于预设的插值系数，通过频谱特征插值方法对所述谐波音频与所述正弦成分做插值处理，得到音色转换后的目标音频，所述目标音频的音色介于所述原始音频的音色与所述目标音色之间。2.根据权利要求1所述的方法，其特征在于，所述根据所述音色转换信息，合成具有目标音色的参考音频的步骤包括：根据所述音色转换信息，通过解码器组件合成具有目标音色的参考音频；其中，所述解码器组件是对待训练自编码器模型训练得到，所述待训练自编码器模型中至少包含一个待训练解码器组件。3.根据权利要求2所述的方法，其特征在于，在所述根据所述音色转换信息，通过解码器组件合成具有目标音色的参考音频的步骤之前，还包括：获取至少一个样本音频以及所述样本音频对应的标准音频，所述标准音频具有目标音色且与所述样本音频的音频内容一致；将所述样本音频输入至所述待训练自编码器模型，得到预测音频；计算所述预测音频与所述标准音频之间的损失值，根据所述损失值对所述待训练自编码器模型进行迭代调整，得到所述解码器组件。4.根据权利要求3所述的方法，其特征在于，所述待训练自编码器模型包括待训练解码器组件和待训练编码器组件，所述待训练编码器组件用于对所述样本音频进行编码，得到所述样本音频的音色转换信息，所述待训练解码器组件用于基于所述样本音频的音色转换信息进行解码并合成，生成所述预测音频。5.根据权利要求3所述的方法，其特征在于，所述计算所述预测音频与所述标准音频之间的损失值，包括：计算所述预测音频与所述标准音频之间的多尺度频谱损失。6.根据权利要求1‑5中任一项所述的方法，其特征在于，所述提取所述原始音频的音色转换信息的步骤，包括：计算所述原始音频的响度信息，并将所述响度信息通过第一滤波器，得到所述原始音频的响度曲线，所述第一滤波器包括中值平滑滤波器；通过第二滤波器获得所述原始音频的时域波形包络，所述第二滤波器包括希尔伯特滤波器；提取所述原始音频的基音频率，将所述响度曲线、所述时域波形包络以及所述基音频率作为所述原始音频的音色转换信息。7.根据权利要求1‑5中任一项所述的方法，其特征在于，所述获取所述原始音频的正弦成分，包括：对所述原始音频进行分解处理，得到所述原始音频中的正弦音频和噪声成分，所述正弦音频包括基频与谐波；基于所述正弦音频，通过第三滤波器建模获取所述原始音频的频谱包络和谐波频率2CN114171037A权利要求书2/2页值，作为所述原始音频的正弦成分，所述第三滤波器包括源滤波器模型。8.根据权利要求7所述的方法，其特征在于，所述基于预设的插值系数，通过频谱特征插值方法对所述谐波音频与所述正弦成分做插值处理，得到音色转换后的目标音频的步骤，包括：基于预设的插值系数，通过频谱特征插值方法对所述谐波音频与所述正弦成分做插值处理，得到第一音频；对所述第一音频赋予所述噪声成分，得到音色转换后的目标音频；其中，所述插值系数用于控制谐波频率值的插值比例和频谱包络的变形程度，以控制所述目标音频相

相关资料

音色转换处理方法、装置、电子设备及存储介质.pdf

本公开关于一种音色转换处理方法、装置、电子设备及存储介质。其中，所述方法包括：获取原始音频，并提取所述原始音频的音色转换信息；根据音色转换信息，合成具有目标音色的参考音频，参考音频至少包含谐波音频，所述谐波音频为与所述原始音频的音频内容一致，且仅包含谐波的音频；获取所述原始音频的正弦成分，并基于预设的插值系数，通过频谱特征插值方法对所述谐波音频与所述正弦成分做插值处理，得到音色转换后的目标音频，所述目标音频的音色介于所述原始音频的音色与所述目标音色之间。这样，合成具有目标音色的参考音频后，结合基于听觉感知

2023-07-24

820KB

音色转换方法、装置、电子设备及存储介质.pdf

本申请提供一种音色转换方法、装置、电子设备及存储介质，所述方法包括：获取第一音频数据，并提取所述第一音频数据的语音频域特征；根据所述语音频域特征得到所述第一音频数据的语义特征向量；将所述语义特征向量以及预先确定的第二音色数据输入到预先构建的音色转换模型中，得到具有目标音色的语音特征向量；根据所述语音特征向量，生成第二语音数据；其中，所述第二语音数据与所述第一语音数据的音色不同。

2023-05-31

944KB

一种音色转换方法、装置、电子设备及可读存储介质.pdf

本发明提供了一种音色转换方法、装置、电子设备及可读存储介质，涉及音频处理技术领域。其中，所述方法包括：提取待转换语音的输入谱参数；基于所述输入谱参数，确定第一语音文本参数；基于所述音色转换模型，对所述输入谱参数进行变分自编码处理及注意力机制处理，确定所述语音声音参数；基于所述音色转换模型，对所述语音声音参数及所述第一语音文本参数进行处理，确定输出谱参数；基于所述输出谱参数，得到音色转换后的目标语音。通过在变分自编码处理获得语音声音参数的过程中，加入注意力机制处理，可以提升VAE模型克服音频波动的鲁棒性，从

2023-07-25

799KB

对象转换方法、装置、电子设备及存储介质.pdf

本发明公开了一种对象转换方法、装置、电子设备及存储介质。该方法包括：获取待转换对象；基于静态转换规则，对所述待转换对象进行转换，得到目标类型对象，并将所述待转换对象的属性值赋值给所述目标类型对象；其中，所述静态转换规则通过反射机制实现对象转换。上述技术方案，通过反射机制实现了多种对象类型的转换。

2023-06-28

503KB

函数转换方法、装置、电子设备及存储介质.pdf

本发明实施例公开了一种函数转换方法、装置、电子设备及存储介质。该方法包括：获取代码块中的待转换函数，并根据待转换函数确定待转换函数对应的待转换参数类型；通过调用以待转换参数类型作为入口参数的参数类型转换宏定义，将待转换函数转换为目标转换函数。本发明实施例的技术方案，解决了现有技术中以人工的方式进行函数转换存在代码安全性降低，函数的参数类型转换的准确率低以及降低软件程序开发效率的问题，从而实现提升了代码的安全性、提高了函数转换的准确性，从而提升了软件程序代码开发效率的技术效果。

2023-07-21

831KB