音频处理方法和装置、音频模型训练方法和装置、电子设备及计算机可读存储介质-豆柴文库

音频处理方法和装置、音频模型训练方法和装置、电子设备及计算机可读存储介质.pdf

2023-07-24

10金币

623KB

16页

春景****23

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共16页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113963686A(43)申请公布日2022.01.21(21)申请号202110932183.0G10K11/20(2006.01)(22)申请日2021.08.13(71)申请人阿里巴巴达摩院（杭州）科技有限公司地址310023浙江省杭州市余杭区五常街道文一西路969号3幢5层516室(72)发明人王子腾纳跃跃刘章田彪付强(74)专利代理机构北京市惠诚律师事务所11353代理人刘子敬(51)Int.Cl.G10L15/02(2006.01)G10L15/06(2013.01)G10L15/16(2006.01)权利要求书2页说明书10页附图3页(54)发明名称音频处理方法和装置、音频模型训练方法和装置、电子设备及计算机可读存储介质(57)摘要本申请公开了一种音频处理方法和装置、音频模型训练方法和装置、电子设备及计算机可读存储介质。该方法包括：获取待处理音频；提取所述待处理音频的特征向量；使用基于预定采样音频生成的混响训练音频训练获得的预定模型对所述特征向量进行计算以获得处理后音频。本申请实施例通过在模型训练中使用直达声和早期反射音频生成的音频作为训练的目标音频来对模型进行训练，并且在实际使用中使用经过这样训练的模型来对混合音频进行处理，因此，由于通过选用早期反射声，而不是直达声作为模型训练和恢复目标，可以有效地保护原始目标音频，保证处理后音频听感的自然度和清晰度。CN113963686ACN113963686A权利要求书1/2页1.一种音频模型训练方法，包括：使用预定的算法针对预定采样音频生成混响训练音频；根据所述预定采样音频和所述混响训练音频中的至少一部分生成训练目标音频；使用所述混响训练音频作为输入并且使用所述训练目标音频作为验证数据对预定模型进行训练。2.根据权利要求1所述的音频模型训练方法，其中，所述使用预定的算法针对预定采样音频生成混响训练音频包括：使用所述预定采样音频和预定的房间冲击响应数据进行卷积计算获得混响训练音频。3.根据权利要求1所述的音频模型训练方法，其中，其中，所述混响训练音频中的至少一部分是所述预定采样音频在预定时间内的早期反射音频，并且所述根据所述预定采样音频和所述混响训练音频中的至少一部分生成训练目标音频包括：使用所述预定采样音频和所述早期反射音频进行卷积计算获得所述训练目标音频。4.根据权利要求1所述的音频模型训练方法，其中，所述使用所述混响训练音频作为输入并且使用所述训练目标音频作为验证数据对所述预定模型进行训练进一步包括：根据所述预定模型的输出数据和所述验证数据计算损失函数；根据所述损失函数调整所述预定模型的参数；根据所述损失函数值与上一轮训练获得的损失函数值之间的差值确定所述模型训练已经收敛。5.根据权利要求4所述的音频模型训练方法，其中，所述根据所述预定模型的输出数据和所述验证数据计算损失函数包括：计算输出掩蔽与理想掩蔽之间的均方差，以及所述根据所述损失函数调整所述预定模型的参数包括：根据所述均方差通过梯度回传算法调整所述参数。6.一种音频处理方法，包括：获取待处理音频；提取所述待处理音频的特征向量；使用基于预定采样音频生成的混响训练音频训练获得的预定模型对所述特征向量进行计算以获得处理后音频。7.根据权利要求6所述的音频处理方法，其中，所述使用预定模型对所述特征向量进行计算以获得处理后音频包括：使用所述预定模型对所述特征向量进行前向计算以获得掩蔽数据；将所述掩蔽数据与所述待处理音频的时频谱进行相乘并进行逆傅里叶变换获得处理后音频。8.根据权利要求6所述的音频处理方法，其中，所述混响训练音频中的至少一部分是所述预定采样音频在预定时间内的早期反射音频。9.一种会议音频处理方法，包括：通过音频采集装置获取参加会议的与会终端发送的发言音频；提取所述发言音频的特征向量；使用基于预定采样音频生成的混响训练音频训练获得的预定模型对所述特征向量进2CN113963686A权利要求书2/2页行计算以获得处理后音频；将所述处理后音频发送给参加会议的其他与会终端。10.一种教室音频处理方法，包括：通过布置在教室中的音频采集装置获取教师在授课时发送的教学音频；提取所述教学音频的特征向量；使用基于预定采样音频生成的混响训练音频训练获得的预定模型对所述特征向量进行计算以获得处理后音频；将所述处理后音频通过网络发送给通过网络收听教室授课的终端。11.一种电子设备，包括：存储器，用于存储程序；处理器，用于运行所述存储器中存储的所述程序，以执行如权利要求1至3中任一所述的音频模型训练方法或权利要求4‑8中任一项所述的音频处理方法。12.一种计算机可读存储介质，其上存储有可被处理器执行的计算机程序，其中，所述程序被处理器执行时实现如权利要

相关资料

音频处理方法和装置、音频模型训练方法和装置、电子设备及计算机可读存储介质.pdf

本申请公开了一种音频处理方法和装置、音频模型训练方法和装置、电子设备及计算机可读存储介质。该方法包括：获取待处理音频；提取所述待处理音频的特征向量；使用基于预定采样音频生成的混响训练音频训练获得的预定模型对所述特征向量进行计算以获得处理后音频。本申请实施例通过在模型训练中使用直达声和早期反射音频生成的音频作为训练的目标音频来对模型进行训练，并且在实际使用中使用经过这样训练的模型来对混合音频进行处理，因此，由于通过选用早期反射声，而不是直达声作为模型训练和恢复目标，可以有效地保护原始目标音频，保证处理后音频

2023-07-24

623KB

音频处理方法、装置、电子设备和可读存储介质.pdf

本申请公开了一种音频处理方法、装置、电子设备和可读存储介质,属于人工智能技术领域。其中,所述方法包括:获取第一音频;获取与所述第一音频匹配的目标中心句;获取所述第一音频中与所述目标中心句对应的第一子序列;在所述目标中心句与所述第一子序列之间的第一相似度小于或者等于第一阈值的情况下,获取所述第一子序列与目标相似序列之间的第二相似度,所述目标相似序列为所述目标中心句的一个相似序列;在所述第二相似度大于第二阈值的情况下,确定所述第一音频包括所述目标中心句。

2023-04-26

631KB

音频处理方法、装置及电子设备和计算机可读存储介质.pdf

本申请公开了一种音频处理方法、装置及一种电子设备和计算机可读存储介质，该方法包括：获取目标干声音频，确定目标干声音频中每个歌词字的起止时间；检测目标干声音频的调高和每段起止时间内的基频，并基于基频和调高确定每个歌词字的当前音名；对每个歌词字分别进行对应的第一音分跨度和多个不同的第二音分跨度的升调处理，分别得到第一和声和多个不同的第二和声；多个不同的第二音分跨度为第一音分跨度与多个不同的第三音分跨度的和，第一音分跨度与第三音分跨度相差一个数量级；将第一和声和多个不同的第二和声进行合成形成多轨和声，混合多轨和

2023-12-03

1MB

音频处理方法、装置、电子设备和计算机可读存储介质.pdf

本公开关于一种音频处理方法、装置、电子设备和计算机可读存储介质。音频处理方法包括：获取至少一个音频数据以及每个音频数据的虚拟场景位置信息，其中，所述至少一个音频数据包括由至少一个推流端推送的至少一个音频流数据，所述每个音频数据的虚拟场景位置信息指示对应音频数据在虚拟场景中的位置；基于所述每个音频数据的虚拟场景位置信息，计算对应音频数据的渲染信息，从而得到每个音频数据的渲染信息，其中，所述每个音频数据的渲染信息用于渲染对应音频数据以形成其在所述虚拟场景中的位置的空间感；基于所述至少一个音频数据以及所述每个音

2024-01-06

788KB

音频表的处理方法、装置、电子设备和可读存储介质.pdf

本发明提供一种音频表的处理方法、装置、电子设备和可读存储介质。音频表的处理方法包括以下步骤：获取目标音频通道的目标音频数据；通过FPGA根据所述目标音频数据生成所述目标音频通道对应的目标音频表；在与所述目标音频通道对应的目标位置绘制所述目标音频表的图像。本发明实施例能够提高音频表的生成和绘制速度，降低音频表的生成延迟。本发明的一些实施例还能够根据原始图像的亮度调节目标音频表的图像的亮度和透明度，有助于进一步提高显示效果。

2023-07-24

566KB