预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共18页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113611309A(43)申请公布日2021.11.05(21)申请号202110790316.5(22)申请日2021.07.13(71)申请人北京捷通华声科技股份有限公司地址100193北京市海淀区东北旺西路8号中关村软件园2号楼A座一层201(72)发明人王愈武卫东陈明李健(74)专利代理机构北京润泽恒知识产权代理有限公司11319代理人莎日娜(51)Int.Cl.G10L15/26(2006.01)G10L25/24(2013.01)G10L25/30(2013.01)G10L21/013(2013.01)G10L21/007(2013.01)权利要求书2页说明书12页附图3页(54)发明名称一种音色转换方法、装置、电子设备及可读存储介质(57)摘要本发明提供了一种音色转换方法、装置、电子设备及可读存储介质,涉及音频处理技术领域。其中,所述方法包括:提取待转换语音的输入谱参数;基于所述输入谱参数,确定第一语音文本参数;基于所述音色转换模型,对所述输入谱参数进行变分自编码处理及注意力机制处理,确定所述语音声音参数;基于所述音色转换模型,对所述语音声音参数及所述第一语音文本参数进行处理,确定输出谱参数;基于所述输出谱参数,得到音色转换后的目标语音。通过在变分自编码处理获得语音声音参数的过程中,加入注意力机制处理,可以提升VAE模型克服音频波动的鲁棒性,从而进一步提升音色转换模型对误识别的纠错和容错,保证音色转换的转换效果,提高音色转换的可靠性。CN113611309ACN113611309A权利要求书1/2页1.一种音色转换方法,其特征在于,所述方法包括:提取待转换语音的输入谱参数;基于所述输入谱参数,确定第一语音文本参数;基于所述音色转换模型,对所述输入谱参数进行变分自编码处理及注意力机制处理,确定所述语音声音参数;基于所述音色转换模型,对所述语音声音参数及所述第一语音文本参数进行处理,确定输出谱参数;基于所述输出谱参数,得到音色转换后的目标语音。2.根据权利要求1所述的方法,其特征在于,所述基于所述音色转换模型,对所述输入谱参数进行变分自编码处理及注意力机制处理,确定所述语音声音参数,包括:基于所述音色转换模型,对所述输入谱参数进行所述变分自编码处理,确定语音声音参数的第一概率分布参数;对所述第一概率分布参数进行所述注意力机制处理,得到第二概率分布参数;根据所述第二概率分布参数,确定所述语音声音参数。3.根据权利要求2所述的方法,其特征在于,所述基于所述音色转换模型,对所述语音声音参数及所述第一语音文本参数进行处理,确定输出谱参数,包括:基于所述音色转换模型,对所述第一语音文本参数进行预设伦次的长度减半的卷积操作,得到中间文本参数;根据所述中间文本参数及所述语音声音参数,确定目标语音参数;对所述目标语音参数进行所述预设伦次的长度加倍的反卷积操作,确定所述输出谱参数。4.根据权利要求3所述的方法,其特征在于,所述对所述输入谱参数进行变分自编码处理,确定语音声音参数的第一概率分布参数,包括:基于所述音色转换模型,对所述输入谱参数进行所述预设轮次的长度减半的所述卷积操作,确定目标输入谱参数;基于所述目标输入谱参数,确定所述语音声音参数的所述第一概率分布参数。5.根据权利要求2所述的方法,其特征在于,所述第一概率分布参数包括第一均值及方差;所述基于所述音色转换模型,对所述第一概率分布参数进行注意力机制处理,得到第二概率分布参数,包括:利用所述注意力机制,对所述第一均值进行处理,得到第二均值;由所述第二均值与所述方差,确定所述第二概率分布参数。6.根据权利要求5所述的方法,其特征在于,所述音色转换模型包括预先设置的L个维度与所述第一均值相同的向量序列;所述利用所述注意力机制,对所述第一均值进行处理,得到第二均值,包括:根据所述第一均值及所述向量序列进行注意力机制计算,确定所述第二均值。7.根据权利要求6所述的方法,其特征在于,所述根据所述第一均值及所述向量序列进行注意力机制计算,确定所述第二均值,包括:将所述中间文本参数与所述向量序列组合,获得组合向量序列;2CN113611309A权利要求书2/2页通过所述第一均值对所述组合向量序列进行注意力机制计算,确定所述第二均值。8.根据权利要求6所述的方法,其特征在于,设所述向量序列为Encoder={e1,e2,…,eL},对于任意时刻的第一均值ml,设对应的第二均值为μl,所述根据所述第一均值及所述向量序列进行注意力机制计算,确定所述第二均值,包括:μl=Attention(ml)=Value(Encoder)·Weight(Encoder,ml)=v1·w1+v2·w2+…+vL·wL;其中,Valu