预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112735434A(43)申请公布日2021.04.30(21)申请号202011432039.2G10L25/27(2013.01)(22)申请日2020.12.09G10L25/63(2013.01)(71)申请人中国人民解放军陆军工程大学地址210014江苏省南京市秦淮区后标营路88号(72)发明人孙蒙贾冲张雄伟邹霞李莉康凯曹铁勇杨吉斌(74)专利代理机构南京纵横知识产权代理有限公司32224代理人董建林(51)Int.Cl.G10L17/02(2013.01)G10L17/04(2013.01)G10L21/0216(2013.01)G10L25/03(2013.01)权利要求书3页说明书7页附图2页(54)发明名称一种具有声纹克隆功能的语音通话方法及系统(57)摘要本发明公开了一种具有声纹克隆功能的语音通话方法及系统,拾取待转换语音,输入到预先训练好的特定人语音转换模块,将待转换语音转换为目标语音,所述目标语音的内容、语调和情感保持与待转换语音一致;将所述特定人语音传输到接听方的扬声器。优点:相对于现有的变声方案,该系统实现了针对可由用户指定的任意特定人物的声纹克隆,能起到模仿和伪装该特定人物的作用;通过声音到声音的转换,比从文本到语音能更好的保留源语音的韵律和情感,使语音更加逼真生动;语音转换模块的算法和计算平台的设计可实现实时通话功能,更好的完成以模仿和伪装的身份来通话的目的。CN112735434ACN112735434A权利要求书1/3页1.一种具有声纹克隆功能的语音通话方法,其特征在于,拾取待转换语音,输入到预先训练好的特定人语音转换模块,将待转换语音转换为目标语音,所述目标语音的内容、语调和情感保持与待转换语音一致;将所述特定人语音传输到接听方的扬声器。2.根据权利要求1所述的具有声纹克隆功能的语音通话方法,其特征在于,所述拾取待转换语音的过程包括:通过具有窄指向性的麦克风阵列拾取待转换语音。3.根据权利要求1所述的具有声纹克隆功能的语音通话方法,其特征在于,所述输入到预先训练好的特定人语音转换模块,将待转换语音转换为特定人语音的过程包括:提取待转换语音的语音特征,所述语音特征包括基频、对数谱、非周期分量;利用预先确定的关于特定人语音的对数线性函数对待转换语音的基频进行转换,得到转换后的目标基频;将待转换语音的非周期分量复制为目标非周期分量;利用长短时记忆模型对特定人语音和待转换语音的对数谱差异进行预测,确定目标对数谱;将所述目标基频、目标非周期分量和目标对数谱整合生成所述目标语音。4.根据权利要求3所述的具有声纹克隆功能的语音通话方法,其特征在于,所述对数线性函数为:其中,F0t为目标基频,F0s为待转换语音的基频,μs和σs分别为待转换语音的基频的均值和标准差,μt和σt分别为特定人语音的基频的均值和标准差。5.根据权利要求3所述的具有声纹克隆功能的语音通话方法,其特征在于,所述利用长短时记忆模型对特定人语音和待转换语音的对数谱差异进行预测,确定目标对数谱的过程包括:所述特定人语音和待转换语音的对数谱差异表示为Δt=yt‑xt;所述长短时记忆模型的结构如公式(2)‑(7)所示:it=σ(Wxixt+Whiht‑1+bi)(3)ft=σ(Wxfxt+Whfht‑1+Wcfct‑1+bf)(4)ot=σ(Wxoxt+Whoht‑1+Wcoct‑1+bo)(6)ht=ot⊙tanh(ct)(7)其中,yt为特定人语音的第t帧的对数谱,xt为待转换语音的第t帧的对数谱,ht为长短时记忆模型的第t个时刻隐含单元矢量,ot表示第t个时刻的输出门,it表示第t个时刻的输入门,ft表示第t个时刻的遗忘门,t‑1表示上一时刻,为中间变量表示长短时记忆模型特有的细胞单元矢量,Wkl为各自的权重,bl为各自的偏置,下标k为x、c或h、下标l为c、i、f或o,2CN112735434A权利要求书2/3页σ为激活函数,⊙为点对点的元素相乘;在开始时刻,初始化h0和c0;在时刻t=1,输入第1帧的对数谱x1,经过公式(2)计算得到临时的细胞单元矢量c1;经过公式(3)和(4)计算得到输入门矢量i1和遗忘门矢量f1;经过公式(5)更新细胞单元矢量c1;经过公式(6)计算输出门o1;最后经过公式(7)计算得到本层输出的隐含单元矢量h1;以此类推到任意t时刻,直到序列结束;上述结构重复若干次,构成多层LSTM,下一层的输出ht当作上一层的输入xt即可;最终,将最后一个LSTM层的输出ht经过全连接网络后,输出残差Δt的预测,然后将残差的预测叠加于输入的对数谱xt,即得到转换后的对数谱。6.一种具有声纹克隆功能的语音通话系统,其特征在于,包括:拾取模块,用于