语音处理方法及装置、存储介质、电子设备-豆柴文库

语音处理方法及装置、存储介质、电子设备.pdf

2023-07-25

10金币

1.2MB

23页

小云****66

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共23页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113823300A(43)申请公布日2021.12.21(21)申请号202111098086.2(22)申请日2021.09.18(71)申请人京东方科技集团股份有限公司地址100015北京市朝阳区酒仙桥路10号(72)发明人卢运华张丽杰王炳乾宿绍勋(74)专利代理机构北京律智知识产权代理有限公司11438代理人王辉阚梓瑄(51)Int.Cl.G10L21/013(2013.01)G10L25/03(2013.01)G10L13/08(2013.01)G10L13/027(2013.01)G10L13/02(2013.01)权利要求书2页说明书14页附图6页(54)发明名称语音处理方法及装置、存储介质、电子设备(57)摘要本公开属于语音克隆技术领域，涉及一种语音处理方法及装置、存储介质、电子设备。该方法包括：对目标视频进行分离得到音频轨道和视频轨道，并采集被模仿者的第一语音；提取第一语音的第一语音特征，并将第一语音特征和音频轨道中的第二语音输入音色转换模型，以将音频轨道中第二语音的音色从第二音色转换至第一音色；其中，第一音色与第一语音对应，第二音色与第二语音对应；将音色转换后的音频轨道与视频轨道合并，以得到具有被模仿者音色的目标视频。在本公开中，通过识别第二语音的音素，实现了任意第二语音的音色的转换。CN113823300ACN113823300A权利要求书1/2页1.一种语音处理方法，其特征在于，所述方法包括：对目标视频进行分离得到音频轨道和视频轨道，并采集被模仿者的第一语音；提取所述第一语音的第一语音特征，并将所述第一语音特征和所述音频轨道中的第二语音输入音色转换模型，以将所述音频轨道中所述第二语音的音色从第二音色转换至第一音色；其中，所述第一音色与所述第一语音对应，所述第二音色与所述第二语音对应；将音色转换后的所述音频轨道与所述视频轨道合并，以得到具有所述被模仿者音色的所述目标视频。2.根据权利要求1所述的语音处理方法，其特征在于，所述第一语音特征包括说话人特征嵌入向量；所述提取所述第一语音的第一语音特征，包括：从所述第一语音中提取所述被模仿者的所述说话人特征嵌入向量。3.根据权利要求2所述的语音处理方法，其特征在于，所述音色转换模型中还包括语音合成模型以及音素识别模型；将所述第一语音特征和所述音频轨道中的第二语音输入音色转换模型，以将所述音频轨道的第二语音的音色从第二音色转换至第一音色，包括：通过所述音色转换模型中的所述音素识别模型，提取所述音频轨道中的第二语音的第二语音特征；其中，所述第二语音特征包括音素和梅尔频谱图；将所述说话人特征嵌入向量、与所述第二语音对应的所述音素以及所述梅尔频谱图输入所述语音合成模型，以合成与第一音色对应的第一目标梅尔频谱图；将所述第一目标梅尔频谱图转换为第一语音音频信号，并将所述第二语音的原始语音音频信号替换为所述第一语音音频信号，以将所述第二语音的音色从第二音色转换至第一音色；其中，所述原始语音音频信号与所述第二音色对应。4.根据权利要求3所述的语音处理方法，其特征在于，所述将所述第二语音的音色从所述第二音色转换至第一音色之后，所述方法还包括：将所述第一语音的内容替换为所述第二语音，并将所述第二语音的内容替换为所述第一语音；将与替换后的所述第一语音对应的所述说话人特征嵌入向量、与替换后的所述第二语音对应的所述音素以及与替换后的所述第二语音对应的所述梅尔频谱图输入所述语音合成模型，合成具有第二音色的第二目标梅尔频谱图；其中，所述第二音色与替换前的所述第二语音对应；将所述第二目标梅尔频谱图转换为第二语音音频信号，并将所述第一语音音频信号替换为所述第二语音音频信号，以构建循环语音克隆模型；确定与所述循环语音克隆模型对应的目标损失函数，以根据所述目标损失函数对所述语音合成模型进行训练。5.根据权利要求4所述的语音处理方法，其特征在于，所述建立与所述循环语音克隆模型对应的目标损失函数，包括：基于提取的与所述第二语音的音色对应的所述梅尔频谱图、所述第一目标梅尔频谱图、与替换后的所述第二语音对应的所述梅尔频谱图以及所述第二目标梅尔频谱图，建立第一损失函数；基于所述第一目标梅尔频谱图以及所述第二目标梅尔频谱图，建立第二损失函数，并2CN113823300A权利要求书2/2页对所述第一损失函数以及所述第二损失函数进行计算得到目标损失函数。6.根据权利要求5所述的语音处理方法，其特征在于，所述基于所述第一目标梅尔频谱图以及所述第二目标梅尔频谱图，建立第二损失函数，包括：将所述第一目标梅尔频谱图输入判别器模型，得到第一判别结果，并将所述第二目标梅尔频谱图输入所述判别器模型，得到第二判别结果；其中，所述判别器模型用于判别输入的梅尔

相关资料

语音处理方法及装置、存储介质、电子设备.pdf

本公开属于语音克隆技术领域，涉及一种语音处理方法及装置、存储介质、电子设备。该方法包括：对目标视频进行分离得到音频轨道和视频轨道，并采集被模仿者的第一语音；提取第一语音的第一语音特征，并将第一语音特征和音频轨道中的第二语音输入音色转换模型，以将音频轨道中第二语音的音色从第二音色转换至第一音色；其中，第一音色与第一语音对应，第二音色与第二语音对应；将音色转换后的音频轨道与视频轨道合并，以得到具有被模仿者音色的目标视频。在本公开中，通过识别第二语音的音素，实现了任意第二语音的音色的转换。

2023-07-25

1.2MB

语音处理方法、装置、存储介质及电子设备.pdf

本说明书公开了一种语音处理方法、装置、存储介质及电子设备，其中，方法包括：通过对目标语音数据进行语义识别处理以确定目标语音数据对应的至少一个目标语义标签，然后可以基于目标语音数据对应的各目标语义标签对参考语音集合进行语音匹配处理，可以得到目标语音数据对应的相似语音数据。

2023-05-25

987KB

语音处理方法、装置、电子设备及存储介质.pdf

本公开关于一种语音处理方法、装置、电子设备及存储介质，该方法包括：获取待处理语音的初始分词和音乐伴奏的伴奏节奏时间戳；所述初始分词为所述待处理语音的语音识别词；根据所述伴奏节奏时间戳，对所述初始分词进行更新，得到所述待处理语音的目标分词；将所述目标分词的分词时间戳和伴奏节奏时间戳进行时间对齐处理，得到所述目标分词的分词时间戳和所述伴奏节奏时间戳之间的目标对应关系；根据所述待处理语音、所述音乐伴奏和所述目标对应关系，生成所述待处理语音对应的音乐。采用本方法，有利于提高生成的音乐的音乐效果。

2023-07-24

869KB

语音处理方法、装置、电子设备及存储介质.pdf

本公开涉及一种语音处理方法、装置、电子设备及存储介质，其中，该方法通过获取待处理语音对应的频谱特征，将待处理语音对应的频谱特征输入至语音增强模型，语音增强模型的编码器对待处理语音对应的频谱特征进行编码，获得语音编码特征，由第一编码器对语音编码特征进行处理，得到共享频谱特征，第二编码器和第三编码器分别根据共享频谱特征，获得用于降噪的第一掩码和用于混响抑制的第二掩码；通过第一掩码、第二掩码及待处理语音对应的频谱特征进行掩码计算，获得目标频谱特征，进而根据目标频谱合成获得进行了降噪以及混响抑制的目标语音。本方案

2023-07-23

936KB

语音处理方法、装置、电子设备以及存储介质.pdf

本公开提供了语音处理方法、装置、电子设备、存储介质以及程序产品，涉及人工智能技术领域，尤其涉及车联网和智能座舱等技术领域。具体实现方案为：响应于语音交互功能被唤醒，获取被用于唤醒语音交互功能的唤醒语音的唤醒声纹特征；从接收到的交互语音中提取至少一个交互声纹特征，交互语音中包括至少一个单声源交互语音，至少一个单声源交互语音与至少一个交互声纹特征一一对应；从至少一个交互声纹特征中确定与唤醒声纹特征相匹配的目标交互声纹特征；从与目标交互声纹特征相对应的目标单声源交互语音中提取目标语音特征；以及发送目标语音特征，

2023-07-24

817KB