音频分类识别方法、装置、电子设备及存储介质-豆柴文库

音频分类识别方法、装置、电子设备及存储介质.pdf

2023-07-24

10金币

1.2MB

22页

努力****甲寅

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共22页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114333804A(43)申请公布日2022.04.12(21)申请号202111610788.4(22)申请日2021.12.27(71)申请人北京达佳互联信息技术有限公司地址100085北京市海淀区上地西路6号1幢1层101D1-7(72)发明人郑雪(74)专利代理机构华进联合专利商标代理有限公司44224代理人冯右明(51)Int.Cl.G10L15/16(2006.01)G10L25/24(2013.01)权利要求书2页说明书13页附图6页(54)发明名称音频分类识别方法、装置、电子设备及存储介质(57)摘要本公开关于一种音频分类识别方法、装置、电子设备及存储介质。该方法包括：通过获取待识别音频的音频特征；然后将音频特征输入目标卷积神经网络，对目标卷积神经网络的末端解码单元输出的第一特征，以及目标卷积神经网络中的至少一个编码单元输出的第二特征，进行特征融合处理，得到待识别音频的目标音频特征；最后基于目标音频特征，确定待识别音频对应的分类识别结果。本公开实现了将目标卷积神经网络与音频分类识别进行结合，将音频特征利用目标卷积神经网络进行特征提取并融合，得到了待识别音频的多层次的目标音频特征，并依据该目标音频特征对待识别音频进行分类识别，提高了音频分类识别的准确性。CN114333804ACN114333804A权利要求书1/2页1.一种音频分类识别方法，其特征在于，包括：获取待识别音频的音频特征；将所述音频特征输入目标卷积神经网络，对所述目标卷积神经网络的末端解码单元输出的第一特征，以及所述目标卷积神经网络中的至少一个编码单元输出的第二特征，进行特征融合处理，得到所述待识别音频的目标音频特征；基于所述目标音频特征，确定所述待识别音频对应的分类识别结果。2.根据权利要求1所述的方法，其特征在于，所述目标卷积神经网络为U型卷积神经网络，所述U型卷积神经网络中包括编码网络与解码网络；所述编码网络包括多级所述编码单元，所述解码网络包括多级解码单元；所述对所述目标卷积神经网络的末端解码单元输出的第一特征，以及所述目标卷积神经网络中的至少一个编码单元输出的第二特征，进行特征融合处理，得到所述待识别音频的目标音频特征，包括：输入所述音频特征至所述编码网络，通过多级所述编码单元分别提取所述音频特征对应的不同深度的编码特征，其中上一级编码单元输出的编码特征作为下一级编码单元的输入；将最后一级编码单元输出的编码特征输入所述解码网络，通过多级解码单元分别提取所述音频特征对应的不同深度的解码特征；其中，第一级解码单元基于所述最后一级编码单元输出的编码特征以及与之对称的编码单元输出的编码特征提取解码特征，其他解码单元基于上一级解码单元输出的解码特征以及与之对称的编码单元输出的编码特征提取解码特征；获取最后一级解码单元输出的解码特征作为所述第一特征，获取至少一级编码单元输出的编码特征作为所述第二特征，将所述第一特征与所述第二特征融合，得到所述目标音频特征。3.根据权利要求2所述的方法，其特征在于，所述获取至少一级编码单元输出的编码特征作为所述第二特征，包括：获取第一级编码单元输出的编码特征，以及最后一级编码单元输出的编码特征，作为所述第二特征。4.根据权利要求2所述的方法，其特征在于，所述通过多级所述编码单元分别提取所述音频特征对应的不同深度的编码特征，包括：在所述下一级编码单元中，将上一级编码单元输出的所述编码特征输入卷积层，得到卷积结果；将所述卷积结果输入中间层，在所述中间层中基于注意力机制，对所述卷积结果进行冗余去除处理；将冗余去除处理后的卷积结果输入池化层，将所述池化层输出的特征作为所述下一级编码单元输出的编码特征。5.根据权利要求2所述的方法，其特征在于，所述通过多级解码单元分别提取所述音频特征对应的不同深度的解码特征，包括：在所述下一级解码单元中，将上一级解码单元输出的所述解码特征输入卷积层，得到卷积结果；2CN114333804A权利要求书2/2页将所述卷积结果输入中间层，在所述中间层中基于注意力机制，对所述卷积结果进行冗余去除处理；将冗余去除处理后的卷积结果输入上卷积层，将所述上卷积层输出的特征作为所述下一级解码单元输出的解码特征。6.根据权利要求1所述的方法，其特征在于，所述基于所述目标音频特征，确定所述待识别音频对应的分类识别结果，包括：将所述目标音频特征输入预先训练的分类模型，确定出所述目标音频特征与多个预设标签对应的概率，将概率最大的预设标签作为所述待识别音频对应的分类识别结果。7.一种音频分类识别装置，其特征在于，包括：特征获取单元，被配置为执行获取待识别音频的音频特征；特征融合单元，被配置为执行将所述音频特征输入目标卷积神经网络，对所述目标卷积

相关资料

音频分类识别方法、装置、电子设备及存储介质.pdf

本公开关于一种音频分类识别方法、装置、电子设备及存储介质。该方法包括：通过获取待识别音频的音频特征；然后将音频特征输入目标卷积神经网络，对目标卷积神经网络的末端解码单元输出的第一特征，以及目标卷积神经网络中的至少一个编码单元输出的第二特征，进行特征融合处理，得到待识别音频的目标音频特征；最后基于目标音频特征，确定待识别音频对应的分类识别结果。本公开实现了将目标卷积神经网络与音频分类识别进行结合，将音频特征利用目标卷积神经网络进行特征提取并融合，得到了待识别音频的多层次的目标音频特征，并依据该目标音频特征对

2023-07-24

1.2MB

音频识别方法、装置、电子设备和存储介质.pdf

本公开是关于一种音频识别方法、装置、电子设备和存储介质。该方法包括：获取查询内容；所述查询内容包括表征待识别音频的片段信息；从预设库中选取与所述查询内容对应的预设数量的候选音频；所述候选音频包括与所述片段信息相匹配的候选音频片段；将所述候选音频片段输入已训练的检测模型中，得到包含所述片段信息的目标片段信息和所述目标片段信息所在的目标音频。本实施例中可以利用部分片段信息即可从预设库中识别出相匹配的目标音频片段和目标音频，有利于提升识别效率，提高使用体验。

2023-07-25

669KB

音频识别方法、装置、电子设备和可读存储介质.pdf

本申请提供一种音频识别方法、装置、电子设备和可读存储介质，首先利用预先构建的第一过滤模型对待识别音频中的第一类噪声进行过滤得到第一识别音频，第一类噪声为非语音噪声。再利用预先构建的第二过滤模型对第一识别音频中的第二类噪声进行过滤得到第二识别音频，第一识别音频中包含目标语音和非目标语音，第二类噪声属于非目标语音。最后，将第二识别音频导入预先构建的识别模型，对第二识别音频中的目标语音进行处理得到对应的文本。该方案，预先对非语音噪声和属于非目标语音的噪声进行过滤处理，降低了语音识别的处理压力且排除各类噪声的干扰

2023-07-24

843KB

音频识别方法、装置及存储介质.pdf

本发明公开了一种音频识别方法、装置及存储介质，该方法包括：获取音频文件，以及音频文件对应的文本信息，文本信息包括多个字；依次将文本信息中的每个字，设置为目标字，并获取目标字对应的时间信息，时间信息包括目标字的开始时间和目标字的结束时间；根据目标字的开始时间，确定目标字对应的多个开始调整时间，并根据目标字的结束时间，确定目标字对应的多个结束调整时间；根据目标字的多个开始调整时间和目标字的多个结束调整时间，对音频文件进行识别，得到目标字的音高信息。该方案通过在根据目标字对应的开始时间和结束时间，确定多个开始调

2023-12-05

1.2MB

音频处理方法、装置、存储介质及电子设备.pdf

本公开关于一种音频处理方法、装置、存储介质及电子设备，涉及信号处理技术领域。所述方法包括：采集当前待处理乐曲的伴奏音频信号和人声信号；确定采集到的伴奏音频信号的目标混响强度参数值，所述目标混响强度参数值用于指示当前待处理乐曲的节奏速度、伴奏类型和演唱者的演唱评分中的至少一种；基于所述目标混响强度参数值对采集到的人声信号进行混响处理。本公开实施例考虑了乐曲的伴奏类型、节奏速度以及演唱者的演唱评分等多方面的因素，并据此自适应地生成当前待处理乐曲的混响强度参数值，达到了自适应的KTV音效效果，使得电子设备输出的

2023-12-03

915KB