语音处理方法、装置、电子设备和存储介质-豆柴文库

语音处理方法、装置、电子设备和存储介质.pdf

2023-07-25

10金币

702KB

19页

努力****幻翠

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共19页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113889073A(43)申请公布日2022.01.04(21)申请号202111138464.5(22)申请日2021.09.27(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人侯建康孙涛聂志朋张立强贾磊王海峰(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201代理人罗岚(51)Int.Cl.G10L13/047(2013.01)G10L13/04(2013.01)G10L25/18(2013.01)G10L19/04(2013.01)权利要求书2页说明书11页附图5页(54)发明名称语音处理方法、装置、电子设备和存储介质(57)摘要本公开提供了一种语音处理方法、装置、电子设备和存储介质，涉及计算机技术领域，具体涉及语音技术和深度学习等人工智能技术领域。具体实现方案为：获取原始语音；从原始语音中提取频谱图；获取语音合成模型，其中，语音合成模型包括第一生成子模型和第二生成子模型；调用第一生成子模型对频谱图进行处理，以生成频谱图的谐波结构；以及调用第二生成子模型对谐波结构和频谱图进行处理，以生成目标语音。由此，该方法具有合成音质较好，音色还原度高，发音稳定且计算量小等特点。CN113889073ACN113889073A权利要求书1/2页1.一种语音处理方法，包括：获取原始语音；从所述原始语音中提取频谱图；获取语音合成模型，其中，所述语音合成模型包括第一生成子模型和第二生成子模型；调用所述第一生成子模型对所述频谱图进行处理，以生成所述频谱图的谐波结构；以及调用所述第二生成子模型对所述谐波结构和所述频谱图进行处理，以生成目标语音。2.根据权利要求1所述的方法，其中，所述调用所述第一生成子模型对所述频谱图进行处理，以生成所述频谱图的谐波结构，包括：对所述频谱图进行处理，以生成多组正弦波参数，其中，每组所述正弦波参数包括振幅和频率；分别生成所述多组正弦波参数的正弦波；将所述多组正弦波参数的正弦波进行叠加，以生成所述谐波结构。3.根据权利要求1所述的方法，其中，所述调用所述第二生成子模型对所述谐波结构和所述频谱图进行处理，以生成目标语音，包括：根据所述谐波结构和所述频谱图生成多个子带语音；将所述多个子带语音进行合成，以生成目标语音。4.根据权利要求1所述的方法，其中，所述第一生成子模型通过以下方式生成：获取样本语音，并从所述样本语音中提取样本频谱图；对所述样本频谱图进行处理，以生成滤波器组和多组样本正弦波参数；通过所述滤波器组对白噪声进行滤波，以生成所述样本频谱图的非周期信号；分别生成所述多组样本正弦波参数的正弦波；将所述多组样本正弦波参数的正弦波进行叠加，以生成所述样本频谱图的样本谐波结构；将所述样本谐波结构与所述非周期信号进行叠加，以得到预测的第一合成语音；根据所述第一合成语音和所述样本语音生成第一损失值，并根据所述第一损失值对所述第一生成子模型进行训练。5.根据权利要求4所述的方法，其中，所述第二生成子模型通过以下方式生成：将所述样本频谱图和所述样本谐波结构输入所述第二生成子模型，以生成预测的第二合成语音；根据判别器对所述样本语音和所述第二合成语音进行判别，以生成第二损失值；根据所述第二损失值对所述第二生成子模型进行训练。6.一种语音处理装置，包括：第一获取模块，用于获取原始语音；提取模块，用于从所述原始语音中提取频谱图；第二获取模块，用于获取语音合成模型，其中，所述语音合成模型包括第一生成子模型和第二生成子模型；第一生成模块，用于调用所述第一生成子模型对所述频谱图进行处理，以生成所述频谱图的谐波结构；以及2CN113889073A权利要求书2/2页第二生成模块，用于调用所述第二生成子模型对所述谐波结构和所述频谱图进行处理，以生成目标语音。7.根据权利要求6所述的装置，其中，所述第一生成模块，具体用于：对所述频谱图进行处理，以生成多组正弦波参数，其中，每组所述正弦波参数包括振幅和频率；分别生成所述多组正弦波参数的正弦波；将所述多组正弦波参数的正弦波进行叠加，以生成所述谐波结构。8.根据权利要求6所述的装置，其中，所述第二生成模块，具体用于：根据所述谐波结构和所述频谱图生成多个子带语音；将所述多个子带语音进行合成，以生成目标语音。9.根据权利要求6所述的装置，还包括：第一训练模块，用于通过以下方式生成所述第一生成子模型：获取样本语音，并从所述样本语音中提取样本频谱图；对所述样本频谱图进行处理，以生成滤波器组和多组样本正弦波参数；通过所述滤波器组对白噪声进行滤波，以生成所述样本频谱图的非周期信号；分别生成所述多组样本正弦波参数的正弦波；将所述多组样本正弦波参数的正弦波进行叠加，以生

相关资料

语音处理方法、装置、电子设备和存储介质.pdf

本公开提供了一种语音处理方法、装置、电子设备和存储介质，涉及计算机技术领域，具体涉及语音技术和深度学习等人工智能技术领域。具体实现方案为：获取原始语音；从原始语音中提取频谱图；获取语音合成模型，其中，语音合成模型包括第一生成子模型和第二生成子模型；调用第一生成子模型对频谱图进行处理，以生成频谱图的谐波结构；以及调用第二生成子模型对谐波结构和频谱图进行处理，以生成目标语音。由此，该方法具有合成音质较好，音色还原度高，发音稳定且计算量小等特点。

2023-07-25

702KB

语音处理方法、装置、存储介质及电子设备.pdf

本说明书公开了一种语音处理方法、装置、存储介质及电子设备，其中，方法包括：通过对目标语音数据进行语义识别处理以确定目标语音数据对应的至少一个目标语义标签，然后可以基于目标语音数据对应的各目标语义标签对参考语音集合进行语音匹配处理，可以得到目标语音数据对应的相似语音数据。

2023-05-25

987KB

语音处理方法及装置、存储介质、电子设备.pdf

本公开属于语音克隆技术领域，涉及一种语音处理方法及装置、存储介质、电子设备。该方法包括：对目标视频进行分离得到音频轨道和视频轨道，并采集被模仿者的第一语音；提取第一语音的第一语音特征，并将第一语音特征和音频轨道中的第二语音输入音色转换模型，以将音频轨道中第二语音的音色从第二音色转换至第一音色；其中，第一音色与第一语音对应，第二音色与第二语音对应；将音色转换后的音频轨道与视频轨道合并，以得到具有被模仿者音色的目标视频。在本公开中，通过识别第二语音的音素，实现了任意第二语音的音色的转换。

2023-07-25

1.2MB

语音处理方法、装置、电子设备及存储介质.pdf

本公开涉及一种语音处理方法、装置、电子设备及存储介质，其中，该方法通过获取待处理语音对应的频谱特征，将待处理语音对应的频谱特征输入至语音增强模型，语音增强模型的编码器对待处理语音对应的频谱特征进行编码，获得语音编码特征，由第一编码器对语音编码特征进行处理，得到共享频谱特征，第二编码器和第三编码器分别根据共享频谱特征，获得用于降噪的第一掩码和用于混响抑制的第二掩码；通过第一掩码、第二掩码及待处理语音对应的频谱特征进行掩码计算，获得目标频谱特征，进而根据目标频谱合成获得进行了降噪以及混响抑制的目标语音。本方案

2023-07-23

936KB

语音处理方法、装置、电子设备及存储介质.pdf

本公开关于一种语音处理方法、装置、电子设备及存储介质，该方法包括：获取待处理语音的初始分词和音乐伴奏的伴奏节奏时间戳；所述初始分词为所述待处理语音的语音识别词；根据所述伴奏节奏时间戳，对所述初始分词进行更新，得到所述待处理语音的目标分词；将所述目标分词的分词时间戳和伴奏节奏时间戳进行时间对齐处理，得到所述目标分词的分词时间戳和所述伴奏节奏时间戳之间的目标对应关系；根据所述待处理语音、所述音乐伴奏和所述目标对应关系，生成所述待处理语音对应的音乐。采用本方法，有利于提高生成的音乐的音乐效果。

2023-07-24

869KB