音频处理方法和装置、模型训练方法和装置、设备及介质-豆柴文库

音频处理方法和装置、模型训练方法和装置、设备及介质.pdf

2023-07-24

10金币

944KB

25页

灵波****ng

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共25页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113948103A(43)申请公布日2022.01.18(21)申请号202111202648.3G10L25/30(2013.01)(22)申请日2021.10.15(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人赵情恩(74)专利代理机构北京市汉坤律师事务所11602代理人姜浩然吴丽丽(51)Int.Cl.G10L21/0272(2013.01)G10L21/0308(2013.01)G10L25/03(2013.01)G10L25/12(2013.01)G10L25/24(2013.01)权利要求书4页说明书15页附图5页(54)发明名称音频处理方法和装置、模型训练方法和装置、设备及介质(57)摘要本公开提供了一种音频处理方法和装置、模型的训练方法和装置、电子设备及介质，涉及人工智能领域，尤其涉及语音技术领域。实现方案为：依次针对从待处理音频数据中所提取的多个音频帧中的每一个音频帧，确定该音频帧的局部特征信息，其中，待处理音频数据包括来自至少两个声源的音频数据；以及将多个音频帧中的任意一个音频帧确定为目标音频帧，并针对目标音频帧执行以下操作：基于多个音频帧中的每一个音频帧的局部特征信息，确定目标音频帧的全局特征信息；以及基于目标音频帧的全局特征信息，确定目标音频帧所对应的声源分类。CN113948103ACN113948103A权利要求书1/4页1.一种音频处理方法，包括：依次针对从待处理音频数据中所提取的多个音频帧中的每一个音频帧，确定该音频帧的局部特征信息，其中，所述待处理音频数据包括来自至少两个声源的音频数据；以及将所述多个音频帧中的任意一个音频帧确定为目标音频帧，并针对所述目标音频帧执行以下操作：基于所述多个音频帧中的每一个音频帧的局部特征信息，确定所述目标音频帧的全局特征信息；以及基于所述目标音频帧的全局特征信息，确定所述目标音频帧所对应的声源分类。2.根据权利要求1所述的方法，其中，所述多个音频帧在所述待处理音频数据的时域上依次相邻。3.根据权利要求1或2所述的方法，其中，所述依次针对从待处理音频数据中所提取的多个音频帧中的每一个音频帧，确定该音频帧的局部特征信息包括：基于该音频帧和所述多个音频帧中靠近该音频帧的一个或多个音频帧，确定该音频帧的局部特征信息。4.根据权利要求1至3中任意一项所述的方法，其中，所述至少两个声源中的每一个声源为一个说话人。5.一种音频处理模型的训练方法，其中，所述音频处理模型包括局部特征提取模块、全局特征提取模块和输出模块，所述方法包括：依次针对从样本音频数据中所提取的多个样本音频帧中的每一个样本音频帧，利用所述局部特征提取模块，获取该样本音频帧的第一局部特征信息，其中，所述样本音频数据包括来自第一数量的声源的音频数据，所述多个样本音频帧中的每一个样本音频帧具有声源标签；至少基于所述多个样本音频帧中的每一个样本音频帧的第一局部特征信息，利用所述全局特征提取模块，获取所述多个样本音频帧中的每一个样本音频帧的全局特征信息；依次针对所述多个样本音频帧中的每一个样本音频帧，将该样本音频帧的全局特征信息输入所述输出模块，以得到所述输出模块所输出的该样本音频帧针对第一数量的预测声源分类中的每一个预测声源分类的第一置信度；以及基于所述多个样本音频帧中的每一个样本音频帧针对所述第一数量的预测声源分类中的每一个预测声源分类的第一置信度和所述多个样本音频帧中的每一个样本音频帧的声源标签，调整所述音频处理模型的参数。6.根据权利要求5所述的方法，其中，所述基于所述多个样本音频帧中的每一个样本音频帧针对所述第一数量的预测声源分类中的每一个预测声源分类的第一置信度和所述多个样本音频帧中的每一个样本音频帧的声源标签，调整所述音频处理模型的参数包括：确定所述第一数量的预测声源分类与所述第一数量的声源在目标映射类型下的对应关系，其中，在所述第一数量的预测声源分类与所述第一数量的声源之间的多种映射类型所分别对应的多种对应关系中，基于所述目标映射类型所计算得到的所述多个样本音频帧中的每一个样本音频帧所对应的第一置信度与该样本音频帧的声源标签之间的损失值最小；以及基于所述目标映射类型下的对应关系所计算的损失值，调整所述音频处理模型的参2CN113948103A权利要求书2/4页数。7.根据权利要求5或6所述的方法，还包括：依次针对从样本音频数据中所提取的多个样本音频帧中的每一个样本音频帧，利用附加局部特征提取模块，获取该样本音频帧的第二局部特征信息；其中，所述至少基于所述多个样本音频帧中的每一个样本音频帧的第一局部特征信息，利用所述全局特征提取模块，获取所述多个样本音频帧中的每一个样

相关资料

音频处理方法和装置、模型训练方法和装置、设备及介质.pdf

本公开提供了一种音频处理方法和装置、模型的训练方法和装置、电子设备及介质，涉及人工智能领域，尤其涉及语音技术领域。实现方案为：依次针对从待处理音频数据中所提取的多个音频帧中的每一个音频帧，确定该音频帧的局部特征信息，其中，待处理音频数据包括来自至少两个声源的音频数据；以及将多个音频帧中的任意一个音频帧确定为目标音频帧，并针对目标音频帧执行以下操作：基于多个音频帧中的每一个音频帧的局部特征信息，确定目标音频帧的全局特征信息；以及基于目标音频帧的全局特征信息，确定目标音频帧所对应的声源分类。

2023-07-24

944KB

音频处理模型训练方法、装置、设备和介质.pdf

本发明实施例涉及一种音频处理模型训练方法、装置、设备和介质。该方法包括：获取初始音频数据；基于所述初始音频数据确定目标时域数据和目标频域数据；基于所述目标时域数据和所述目标频域数据，对预设模型进行训练，生成音频处理模型。通过上述技术方案，实现了同时利用音频数据的时域特征和频域特征对音频处理模型进行训练，提高了音频处理模型的精度。

2023-07-21

474KB

音频处理方法和装置、音频模型训练方法和装置、电子设备及计算机可读存储介质.pdf

本申请公开了一种音频处理方法和装置、音频模型训练方法和装置、电子设备及计算机可读存储介质。该方法包括：获取待处理音频；提取所述待处理音频的特征向量；使用基于预定采样音频生成的混响训练音频训练获得的预定模型对所述特征向量进行计算以获得处理后音频。本申请实施例通过在模型训练中使用直达声和早期反射音频生成的音频作为训练的目标音频来对模型进行训练，并且在实际使用中使用经过这样训练的模型来对混合音频进行处理，因此，由于通过选用早期反射声，而不是直达声作为模型训练和恢复目标，可以有效地保护原始目标音频，保证处理后音频

2023-07-24

623KB

音频处理模型的训练方法及装置、音频处理方法及装置.pdf

本公开关于一种音频处理模型的训练方法及装置、一种音频处理方法及装置。音频处理模型的训练方法包括：获取纯净音频信号的幅度谱和带噪音频信号的幅度谱；将带噪音频信号的幅度谱分成多个频段，得到带噪音频信号的多个频段的幅度谱；通过音频处理模型中的多个卷积神经网络预测与带噪音频信号的所述多个频段中的每个频段的幅度谱相应的降噪幅度谱，得到多个频段的降噪幅度谱；基于所述多个频段的降噪幅度谱获得降噪音频信号的幅度谱；通过将纯净音频信号的幅度谱与预测出的降噪音频信号的幅度谱进行比较来调整音频处理模型的参数，从而提高音频处理模

2023-11-06

783KB

数据处理和模型训练方法、装置、设备及介质.pdf

本发明公开了数据处理和模型训练方法、装置、设备及介质，用以解决现有确定客流数据的过程计算量大、效率低、占用存储空间大的问题。本发明实施例中通过联合检测模型，便能够获取该待识别图像中每个包含有人头的目标检测框的位置信息、以及每个所述目标检测框中是否包含有人脸的信息，从而实现只需输入一次待识别图像到联合检测模型中，即可提取待识别图像中每个包含有人头的目标检测框的位置信息、以及每个所述目标检测框中是否包含有人脸的信息，减少了用于多次提取目标检测框在待识别图像中的区域的特征向量所需的计算量，并提高了客流数据的确定

2024-01-04

776KB