音频处理模型训练方法、装置、设备和介质-豆柴文库

音频处理模型训练方法、装置、设备和介质.pdf

2023-07-21

10金币

474KB

15页

是你****韵呀

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共15页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115101086A(43)申请公布日2022.09.23(21)申请号202210577822.0G10L19/26(2013.01)(22)申请日2022.05.25G06N20/00(2019.01)(71)申请人北京声智科技有限公司地址100094北京市海淀区北清路81号院一区1号楼6层601(72)发明人李良斌(74)专利代理机构北京开阳星知识产权代理有限公司11710专利代理师阮改燕(51)Int.Cl.G10L21/049(2013.01)G10L21/0224(2013.01)G10L21/0232(2013.01)G10L21/0332(2013.01)G10L19/02(2013.01)权利要求书2页说明书10页附图2页(54)发明名称音频处理模型训练方法、装置、设备和介质(57)摘要本发明实施例涉及一种音频处理模型训练方法、装置、设备和介质。该方法包括：获取初始音频数据；基于所述初始音频数据确定目标时域数据和目标频域数据；基于所述目标时域数据和所述目标频域数据，对预设模型进行训练，生成音频处理模型。通过上述技术方案，实现了同时利用音频数据的时域特征和频域特征对音频处理模型进行训练，提高了音频处理模型的精度。CN115101086ACN115101086A权利要求书1/2页1.一种音频处理模型训练方法，其特征在于，包括：获取初始音频数据；基于所述初始音频数据确定目标时域数据和目标频域数据；基于所述目标时域数据和所述目标频域数据，对预设模型进行训练，生成音频处理模型。2.根据权利要求1所述的方法，其特征在于，所述目标时域数据基于降维后的所述初始音频数据确定。3.根据权利要求2所述的方法，其特征在于，基于所述初始音频数据确定目标时域数据，包括：基于预设特征维度，对所述初始音频数据进行降维处理，生成初始时域数据；基于预设强度阈值，对所述初始时域数据进行整数转换处理，生成所述目标时域数据。4.根据权利要求3所述的方法，其特征在于，所述基于预设强度阈值，对所述初始时域数据进行整数转换处理，生成所述目标时域数据，包括：针对所述初始时域数据中的每个音频强度：若所述音频强度的绝对值小于所述预设强度阈值，则基于所述音频强度的正负属性和第一预设整数值，确定所述音频强度的整数转换结果；若所述音频强度的绝对值大于或等于所述预设强度阈值、且小于预设整数倍的所述预设强度阈值，则基于所述正负属性和第二预设整数值，确定所述整数转换结果；其中，所述第二预设整数值大于所述第一预设整数值，所述预设整数倍大于1倍；若所述音频强度的绝对值大于或等于所述预设整数倍的所述预设强度阈值，则基于所述正负属性和第三预设整数值，确定所述整数转换结果；其中，所述第三预设整数值大于所述第二预设整数值；由各所述整数转换结果生成所述目标时域数据。5.根据权利要求3或4所述的方法，其特征在于，所述预设强度阈值基于多个所述初始音频数据确定。6.根据权利要求1所述的方法，其特征在于，基于所述初始音频数据确定目标频域数据，包括：对所述初始音频数据进行傅里叶变换，生成初始频域数据；对所述初始频域数据进行整数转换处理，生成中间频域数据；对所述中间频域数据进行特征提取，生成所述目标频域数据。7.根据权利要求6所述的方法，其特征在于，所述对所述初始频域数据进行整数转换处理，生成中间频域数据包括：对所述初始频域数据进行归一化处理，并对归一化后的所述初始频域数据进行整数转换处理，生成所述中间频域数据。8.根据权利要求1所述的方法，其特征在于，在所述获取初始音频数据之前，所述方法还包括：获取原始音频数据；对所述原始音频数据进行预处理，生成所述初始音频数据；其中，所述预处理至少包括预加重处理、分帧处理和加窗处理。2CN115101086A权利要求书2/2页9.一种音频处理模型训练装置，其特征在于，包括：初始音频数据获取模块，用于获取初始音频数据；目标数据确定模块，用于基于所述初始音频数据确定目标时域数据和目标频域数据；模型训练模块，用于基于所述目标时域数据和所述目标频域数据，对预设模型进行训练，生成音频处理模型。10.一种电子设备，其特征在于，所述电子设备包括：处理器和存储器；所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至8任一项所述音频处理模型训练方法。11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至8任一项所述音频处理模型训练方法。3CN115101086A说明书1/10页音频处理模型训练方法、装置、设备和介质技术领域[0001]本发明涉及音频处理技术领域，尤其涉及一种音频处理模型训练方法、装置、设备和介质。背景技术[0002]为了

相关资料

音频处理模型训练方法、装置、设备和介质.pdf

本发明实施例涉及一种音频处理模型训练方法、装置、设备和介质。该方法包括：获取初始音频数据；基于所述初始音频数据确定目标时域数据和目标频域数据；基于所述目标时域数据和所述目标频域数据，对预设模型进行训练，生成音频处理模型。通过上述技术方案，实现了同时利用音频数据的时域特征和频域特征对音频处理模型进行训练，提高了音频处理模型的精度。

2023-07-21

474KB

音频处理方法和装置、模型训练方法和装置、设备及介质.pdf

本公开提供了一种音频处理方法和装置、模型的训练方法和装置、电子设备及介质，涉及人工智能领域，尤其涉及语音技术领域。实现方案为：依次针对从待处理音频数据中所提取的多个音频帧中的每一个音频帧，确定该音频帧的局部特征信息，其中，待处理音频数据包括来自至少两个声源的音频数据；以及将多个音频帧中的任意一个音频帧确定为目标音频帧，并针对目标音频帧执行以下操作：基于多个音频帧中的每一个音频帧的局部特征信息，确定目标音频帧的全局特征信息；以及基于目标音频帧的全局特征信息，确定目标音频帧所对应的声源分类。

2023-07-24

944KB

音频处理方法和装置、音频模型训练方法和装置、电子设备及计算机可读存储介质.pdf

本申请公开了一种音频处理方法和装置、音频模型训练方法和装置、电子设备及计算机可读存储介质。该方法包括：获取待处理音频；提取所述待处理音频的特征向量；使用基于预定采样音频生成的混响训练音频训练获得的预定模型对所述特征向量进行计算以获得处理后音频。本申请实施例通过在模型训练中使用直达声和早期反射音频生成的音频作为训练的目标音频来对模型进行训练，并且在实际使用中使用经过这样训练的模型来对混合音频进行处理，因此，由于通过选用早期反射声，而不是直达声作为模型训练和恢复目标，可以有效地保护原始目标音频，保证处理后音频

2023-07-24

623KB

音频处理模型的训练方法及装置、音频处理方法及装置.pdf

本公开关于一种音频处理模型的训练方法及装置、一种音频处理方法及装置。音频处理模型的训练方法包括：获取纯净音频信号的幅度谱和带噪音频信号的幅度谱；将带噪音频信号的幅度谱分成多个频段，得到带噪音频信号的多个频段的幅度谱；通过音频处理模型中的多个卷积神经网络预测与带噪音频信号的所述多个频段中的每个频段的幅度谱相应的降噪幅度谱，得到多个频段的降噪幅度谱；基于所述多个频段的降噪幅度谱获得降噪音频信号的幅度谱；通过将纯净音频信号的幅度谱与预测出的降噪音频信号的幅度谱进行比较来调整音频处理模型的参数，从而提高音频处理模

2023-11-06

783KB

数据处理和模型训练方法、装置、设备及介质.pdf

本发明公开了数据处理和模型训练方法、装置、设备及介质，用以解决现有确定客流数据的过程计算量大、效率低、占用存储空间大的问题。本发明实施例中通过联合检测模型，便能够获取该待识别图像中每个包含有人头的目标检测框的位置信息、以及每个所述目标检测框中是否包含有人脸的信息，从而实现只需输入一次待识别图像到联合检测模型中，即可提取待识别图像中每个包含有人头的目标检测框的位置信息、以及每个所述目标检测框中是否包含有人脸的信息，减少了用于多次提取目标检测框在待识别图像中的区域的特征向量所需的计算量，并提高了客流数据的确定

2024-01-04

776KB