一种具有声纹克隆功能的语音通话方法及系统-豆柴文库

一种具有声纹克隆功能的语音通话方法及系统.pdf

2023-11-09

10金币

757KB

13页

mm****酱吖

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共13页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112735434A(43)申请公布日2021.04.30(21)申请号202011432039.2G10L25/27(2013.01)(22)申请日2020.12.09G10L25/63(2013.01)(71)申请人中国人民解放军陆军工程大学地址210014江苏省南京市秦淮区后标营路88号(72)发明人孙蒙贾冲张雄伟邹霞李莉康凯曹铁勇杨吉斌(74)专利代理机构南京纵横知识产权代理有限公司32224代理人董建林(51)Int.Cl.G10L17/02(2013.01)G10L17/04(2013.01)G10L21/0216(2013.01)G10L25/03(2013.01)权利要求书3页说明书7页附图2页(54)发明名称一种具有声纹克隆功能的语音通话方法及系统(57)摘要本发明公开了一种具有声纹克隆功能的语音通话方法及系统，拾取待转换语音，输入到预先训练好的特定人语音转换模块，将待转换语音转换为目标语音，所述目标语音的内容、语调和情感保持与待转换语音一致；将所述特定人语音传输到接听方的扬声器。优点：相对于现有的变声方案，该系统实现了针对可由用户指定的任意特定人物的声纹克隆，能起到模仿和伪装该特定人物的作用；通过声音到声音的转换，比从文本到语音能更好的保留源语音的韵律和情感，使语音更加逼真生动；语音转换模块的算法和计算平台的设计可实现实时通话功能，更好的完成以模仿和伪装的身份来通话的目的。CN112735434ACN112735434A权利要求书1/3页1.一种具有声纹克隆功能的语音通话方法，其特征在于，拾取待转换语音，输入到预先训练好的特定人语音转换模块，将待转换语音转换为目标语音，所述目标语音的内容、语调和情感保持与待转换语音一致；将所述特定人语音传输到接听方的扬声器。2.根据权利要求1所述的具有声纹克隆功能的语音通话方法，其特征在于，所述拾取待转换语音的过程包括：通过具有窄指向性的麦克风阵列拾取待转换语音。3.根据权利要求1所述的具有声纹克隆功能的语音通话方法，其特征在于，所述输入到预先训练好的特定人语音转换模块，将待转换语音转换为特定人语音的过程包括：提取待转换语音的语音特征，所述语音特征包括基频、对数谱、非周期分量；利用预先确定的关于特定人语音的对数线性函数对待转换语音的基频进行转换，得到转换后的目标基频；将待转换语音的非周期分量复制为目标非周期分量；利用长短时记忆模型对特定人语音和待转换语音的对数谱差异进行预测，确定目标对数谱；将所述目标基频、目标非周期分量和目标对数谱整合生成所述目标语音。4.根据权利要求3所述的具有声纹克隆功能的语音通话方法，其特征在于，所述对数线性函数为：其中，F0t为目标基频，F0s为待转换语音的基频，μs和σs分别为待转换语音的基频的均值和标准差，μt和σt分别为特定人语音的基频的均值和标准差。5.根据权利要求3所述的具有声纹克隆功能的语音通话方法，其特征在于，所述利用长短时记忆模型对特定人语音和待转换语音的对数谱差异进行预测，确定目标对数谱的过程包括：所述特定人语音和待转换语音的对数谱差异表示为Δt＝yt‑xt；所述长短时记忆模型的结构如公式(2)‑(7)所示：it＝σ(Wxixt+Whiht‑1+bi)(3)ft＝σ(Wxfxt+Whfht‑1+Wcfct‑1+bf)(4)ot＝σ(Wxoxt+Whoht‑1+Wcoct‑1+bo)(6)ht＝ot⊙tanh(ct)(7)其中，yt为特定人语音的第t帧的对数谱，xt为待转换语音的第t帧的对数谱，ht为长短时记忆模型的第t个时刻隐含单元矢量，ot表示第t个时刻的输出门，it表示第t个时刻的输入门，ft表示第t个时刻的遗忘门，t‑1表示上一时刻，为中间变量表示长短时记忆模型特有的细胞单元矢量，Wkl为各自的权重，bl为各自的偏置，下标k为x、c或h、下标l为c、i、f或o，2CN112735434A权利要求书2/3页σ为激活函数，⊙为点对点的元素相乘；在开始时刻，初始化h0和c0；在时刻t＝1，输入第1帧的对数谱x1，经过公式(2)计算得到临时的细胞单元矢量c1；经过公式(3)和(4)计算得到输入门矢量i1和遗忘门矢量f1；经过公式(5)更新细胞单元矢量c1；经过公式(6)计算输出门o1；最后经过公式(7)计算得到本层输出的隐含单元矢量h1；以此类推到任意t时刻，直到序列结束；上述结构重复若干次，构成多层LSTM，下一层的输出ht当作上一层的输入xt即可；最终，将最后一个LSTM层的输出ht经过全连接网络后，输出残差Δt的预测，然后将残差的预测叠加于输入的对数谱xt，即得到转换后的对数谱。6.一种具有声纹克隆功能的语音通话系统，其特征在于，包括：拾取模块，用于

相关资料

一种具有声纹克隆功能的语音通话方法及系统.pdf

本发明公开了一种具有声纹克隆功能的语音通话方法及系统，拾取待转换语音，输入到预先训练好的特定人语音转换模块，将待转换语音转换为目标语音，所述目标语音的内容、语调和情感保持与待转换语音一致；将所述特定人语音传输到接听方的扬声器。优点：相对于现有的变声方案，该系统实现了针对可由用户指定的任意特定人物的声纹克隆，能起到模仿和伪装该特定人物的作用；通过声音到声音的转换，比从文本到语音能更好的保留源语音的韵律和情感，使语音更加逼真生动；语音转换模块的算法和计算平台的设计可实现实时通话功能，更好的完成以模仿和伪装的身

2023-11-09

757KB

一种具有语音提示功能的拍照方法及系统.pdf

本发明公开了一种具有语音提示功能的拍照方法及系统。所述方法包括：拍照设备进入拍照模式后，识别预览屏幕中所有人脸外轮廓的矩形边框，并将所有人脸外轮廓的矩形边框合并为一个包含所有人脸的特定矩形边框；计算所述特定矩形边框中心点的坐标和预览屏幕中心点的坐标，以及两个中心点的偏移距离，并判断所述偏移距离是否处在预定范围内；当所述偏移距离未处在所述预定范围内时，发出移动提示语音，提示用户调整镜头居中或待拍摄人物移动，直至所述偏移距离处在所述预定范围内。本发明能够在拍照过程中给出语音提示，以便用户根据提示调整镜头居中，

2023-10-15

546KB

具有面部识别功能的通话系统及方法.pdf

本发明涉及一种具有面部识别功能的通话系统，包括通话主机、MSP430单片机、图像采集设备和面部识别设备，MSP430单片机分别与通话主机和图像采集设备连接，图像采集设备与面部识别设备连接。本发明还涉及一种具有面部识别功能的通话方法。通过本发明，能够避免非授权用户直接访问通话设备而造成的相关经济损失。

具有面部识别功能的通话系统及方法.pdf

一种具有语音评估功能的网络教学方法及系统.pdf

提供一种语音评估方法以及使用该方法的网络教学方法及系统。根据本发明的语音评估方法，语音的音素状态被用来替代传统的梅尔倒谱系数(MFCC)训练出来的多高斯混合模型，并以此为特征来计算后验概率和零阶Baum-Welch统计量；利用多种语言的音素识别器以提取基于音素的语音特征。本发明表明这基于多种语言提取的特征在捕捉非本土发音的信息时是互补的并且基于音素持续时间的特征在自动本土口音评估中是有效的。最终通过融合系统后，本发明的方法在开发集和测试集上达到了0.5706和0.6089的Spearman相关系数。此相关

2023-06-25

2.5MB