一种音色转换方法、装置、电子设备及可读存储介质-豆柴文库

一种音色转换方法、装置、电子设备及可读存储介质.pdf

2023-07-25

10金币

799KB

18页

是你****优呀

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共18页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113611309A(43)申请公布日2021.11.05(21)申请号202110790316.5(22)申请日2021.07.13(71)申请人北京捷通华声科技股份有限公司地址100193北京市海淀区东北旺西路8号中关村软件园2号楼A座一层201(72)发明人王愈武卫东陈明李健(74)专利代理机构北京润泽恒知识产权代理有限公司11319代理人莎日娜(51)Int.Cl.G10L15/26(2006.01)G10L25/24(2013.01)G10L25/30(2013.01)G10L21/013(2013.01)G10L21/007(2013.01)权利要求书2页说明书12页附图3页(54)发明名称一种音色转换方法、装置、电子设备及可读存储介质(57)摘要本发明提供了一种音色转换方法、装置、电子设备及可读存储介质，涉及音频处理技术领域。其中，所述方法包括：提取待转换语音的输入谱参数；基于所述输入谱参数，确定第一语音文本参数；基于所述音色转换模型，对所述输入谱参数进行变分自编码处理及注意力机制处理，确定所述语音声音参数；基于所述音色转换模型，对所述语音声音参数及所述第一语音文本参数进行处理，确定输出谱参数；基于所述输出谱参数，得到音色转换后的目标语音。通过在变分自编码处理获得语音声音参数的过程中，加入注意力机制处理，可以提升VAE模型克服音频波动的鲁棒性，从而进一步提升音色转换模型对误识别的纠错和容错，保证音色转换的转换效果，提高音色转换的可靠性。CN113611309ACN113611309A权利要求书1/2页1.一种音色转换方法，其特征在于，所述方法包括：提取待转换语音的输入谱参数；基于所述输入谱参数，确定第一语音文本参数；基于所述音色转换模型，对所述输入谱参数进行变分自编码处理及注意力机制处理，确定所述语音声音参数；基于所述音色转换模型，对所述语音声音参数及所述第一语音文本参数进行处理，确定输出谱参数；基于所述输出谱参数，得到音色转换后的目标语音。2.根据权利要求1所述的方法，其特征在于，所述基于所述音色转换模型，对所述输入谱参数进行变分自编码处理及注意力机制处理，确定所述语音声音参数，包括：基于所述音色转换模型，对所述输入谱参数进行所述变分自编码处理，确定语音声音参数的第一概率分布参数；对所述第一概率分布参数进行所述注意力机制处理，得到第二概率分布参数；根据所述第二概率分布参数，确定所述语音声音参数。3.根据权利要求2所述的方法，其特征在于，所述基于所述音色转换模型，对所述语音声音参数及所述第一语音文本参数进行处理，确定输出谱参数，包括：基于所述音色转换模型，对所述第一语音文本参数进行预设伦次的长度减半的卷积操作，得到中间文本参数；根据所述中间文本参数及所述语音声音参数，确定目标语音参数；对所述目标语音参数进行所述预设伦次的长度加倍的反卷积操作，确定所述输出谱参数。4.根据权利要求3所述的方法，其特征在于，所述对所述输入谱参数进行变分自编码处理，确定语音声音参数的第一概率分布参数，包括：基于所述音色转换模型，对所述输入谱参数进行所述预设轮次的长度减半的所述卷积操作，确定目标输入谱参数；基于所述目标输入谱参数，确定所述语音声音参数的所述第一概率分布参数。5.根据权利要求2所述的方法，其特征在于，所述第一概率分布参数包括第一均值及方差；所述基于所述音色转换模型，对所述第一概率分布参数进行注意力机制处理，得到第二概率分布参数，包括：利用所述注意力机制，对所述第一均值进行处理，得到第二均值；由所述第二均值与所述方差，确定所述第二概率分布参数。6.根据权利要求5所述的方法，其特征在于，所述音色转换模型包括预先设置的L个维度与所述第一均值相同的向量序列；所述利用所述注意力机制，对所述第一均值进行处理，得到第二均值，包括：根据所述第一均值及所述向量序列进行注意力机制计算，确定所述第二均值。7.根据权利要求6所述的方法，其特征在于，所述根据所述第一均值及所述向量序列进行注意力机制计算，确定所述第二均值，包括：将所述中间文本参数与所述向量序列组合，获得组合向量序列；2CN113611309A权利要求书2/2页通过所述第一均值对所述组合向量序列进行注意力机制计算，确定所述第二均值。8.根据权利要求6所述的方法，其特征在于，设所述向量序列为Encoder＝{e1,e2,…,eL}，对于任意时刻的第一均值ml，设对应的第二均值为μl，所述根据所述第一均值及所述向量序列进行注意力机制计算，确定所述第二均值，包括：μl＝Attention(ml)＝Value(Encoder)·Weight(Encoder,ml)＝v1·w1+v2·w2+…+vL·wL；其中，Valu

相关资料

一种音色转换方法、装置、电子设备及可读存储介质.pdf

本发明提供了一种音色转换方法、装置、电子设备及可读存储介质，涉及音频处理技术领域。其中，所述方法包括：提取待转换语音的输入谱参数；基于所述输入谱参数，确定第一语音文本参数；基于所述音色转换模型，对所述输入谱参数进行变分自编码处理及注意力机制处理，确定所述语音声音参数；基于所述音色转换模型，对所述语音声音参数及所述第一语音文本参数进行处理，确定输出谱参数；基于所述输出谱参数，得到音色转换后的目标语音。通过在变分自编码处理获得语音声音参数的过程中，加入注意力机制处理，可以提升VAE模型克服音频波动的鲁棒性，从

2023-07-25

799KB

音色转换方法、装置、电子设备及存储介质.pdf

本申请提供一种音色转换方法、装置、电子设备及存储介质，所述方法包括：获取第一音频数据，并提取所述第一音频数据的语音频域特征；根据所述语音频域特征得到所述第一音频数据的语义特征向量；将所述语义特征向量以及预先确定的第二音色数据输入到预先构建的音色转换模型中，得到具有目标音色的语音特征向量；根据所述语音特征向量，生成第二语音数据；其中，所述第二语音数据与所述第一语音数据的音色不同。

2023-05-31

944KB

音色转换处理方法、装置、电子设备及存储介质.pdf

本公开关于一种音色转换处理方法、装置、电子设备及存储介质。其中，所述方法包括：获取原始音频，并提取所述原始音频的音色转换信息；根据音色转换信息，合成具有目标音色的参考音频，参考音频至少包含谐波音频，所述谐波音频为与所述原始音频的音频内容一致，且仅包含谐波的音频；获取所述原始音频的正弦成分，并基于预设的插值系数，通过频谱特征插值方法对所述谐波音频与所述正弦成分做插值处理，得到音色转换后的目标音频，所述目标音频的音色介于所述原始音频的音色与所述目标音色之间。这样，合成具有目标音色的参考音频后，结合基于听觉感知

2023-07-24

820KB

语音转换方法、装置、电子设备及可读存储介质.pdf

本发明提供一种语音转换方法、装置、电子设备及可读存储介质。所述方法包括基于预设切分规则将待转换语音切分为多个待转换帧单元；提取每个所述待转换帧单元的梅尔倒谱特征；根据音素字典及每个待转换帧单元的梅尔倒谱特征，计算得到多个候选帧单元；根据待转换说话人的帧单元与目标音色说话人的帧单元之间的对应关系，匹配得到目标帧单元；计算转换代价，得到最佳路径；对最佳路径上的目标帧单元进行处理，得到目标语音。该方法在音素字典中计算得到多个候选帧单元，相对于现有技术从整个技术特征字典中查找能节省计算资源提高计算速度，同时将传统

2023-06-25

1.3MB

语音转换方法、装置、电子设备及可读存储介质.pdf

本发明提供一种语音转换方法、装置、电子设备及可读存储介质。方法包括基于预设切分规则将输入语音切分为多个帧单元；提取每个帧单元的梅尔倒谱特征和基频特征；将帧单元归类到相应的音素集合；根据帧单元的梅尔倒谱特征和平行训练得到的高斯混合模型参数，计算得到输出梅尔倒谱特征；根据输入语音帧单元基频，原始音素集合的基频特征和目标语音素集合的基频特征，计算得到输出基频；根据输出梅尔倒谱特征及输出基频计算得到输入语音转换后对应的输出语音。该方法不仅改善因忽略语音瞬时信息而导致的语音连续性差的缺点，还弥补整体训练的高斯混合模

2023-06-25

1MB