预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114333804A(43)申请公布日2022.04.12(21)申请号202111610788.4(22)申请日2021.12.27(71)申请人北京达佳互联信息技术有限公司地址100085北京市海淀区上地西路6号1幢1层101D1-7(72)发明人郑雪(74)专利代理机构华进联合专利商标代理有限公司44224代理人冯右明(51)Int.Cl.G10L15/16(2006.01)G10L25/24(2013.01)权利要求书2页说明书13页附图6页(54)发明名称音频分类识别方法、装置、电子设备及存储介质(57)摘要本公开关于一种音频分类识别方法、装置、电子设备及存储介质。该方法包括:通过获取待识别音频的音频特征;然后将音频特征输入目标卷积神经网络,对目标卷积神经网络的末端解码单元输出的第一特征,以及目标卷积神经网络中的至少一个编码单元输出的第二特征,进行特征融合处理,得到待识别音频的目标音频特征;最后基于目标音频特征,确定待识别音频对应的分类识别结果。本公开实现了将目标卷积神经网络与音频分类识别进行结合,将音频特征利用目标卷积神经网络进行特征提取并融合,得到了待识别音频的多层次的目标音频特征,并依据该目标音频特征对待识别音频进行分类识别,提高了音频分类识别的准确性。CN114333804ACN114333804A权利要求书1/2页1.一种音频分类识别方法,其特征在于,包括:获取待识别音频的音频特征;将所述音频特征输入目标卷积神经网络,对所述目标卷积神经网络的末端解码单元输出的第一特征,以及所述目标卷积神经网络中的至少一个编码单元输出的第二特征,进行特征融合处理,得到所述待识别音频的目标音频特征;基于所述目标音频特征,确定所述待识别音频对应的分类识别结果。2.根据权利要求1所述的方法,其特征在于,所述目标卷积神经网络为U型卷积神经网络,所述U型卷积神经网络中包括编码网络与解码网络;所述编码网络包括多级所述编码单元,所述解码网络包括多级解码单元;所述对所述目标卷积神经网络的末端解码单元输出的第一特征,以及所述目标卷积神经网络中的至少一个编码单元输出的第二特征,进行特征融合处理,得到所述待识别音频的目标音频特征,包括:输入所述音频特征至所述编码网络,通过多级所述编码单元分别提取所述音频特征对应的不同深度的编码特征,其中上一级编码单元输出的编码特征作为下一级编码单元的输入;将最后一级编码单元输出的编码特征输入所述解码网络,通过多级解码单元分别提取所述音频特征对应的不同深度的解码特征;其中,第一级解码单元基于所述最后一级编码单元输出的编码特征以及与之对称的编码单元输出的编码特征提取解码特征,其他解码单元基于上一级解码单元输出的解码特征以及与之对称的编码单元输出的编码特征提取解码特征;获取最后一级解码单元输出的解码特征作为所述第一特征,获取至少一级编码单元输出的编码特征作为所述第二特征,将所述第一特征与所述第二特征融合,得到所述目标音频特征。3.根据权利要求2所述的方法,其特征在于,所述获取至少一级编码单元输出的编码特征作为所述第二特征,包括:获取第一级编码单元输出的编码特征,以及最后一级编码单元输出的编码特征,作为所述第二特征。4.根据权利要求2所述的方法,其特征在于,所述通过多级所述编码单元分别提取所述音频特征对应的不同深度的编码特征,包括:在所述下一级编码单元中,将上一级编码单元输出的所述编码特征输入卷积层,得到卷积结果;将所述卷积结果输入中间层,在所述中间层中基于注意力机制,对所述卷积结果进行冗余去除处理;将冗余去除处理后的卷积结果输入池化层,将所述池化层输出的特征作为所述下一级编码单元输出的编码特征。5.根据权利要求2所述的方法,其特征在于,所述通过多级解码单元分别提取所述音频特征对应的不同深度的解码特征,包括:在所述下一级解码单元中,将上一级解码单元输出的所述解码特征输入卷积层,得到卷积结果;2CN114333804A权利要求书2/2页将所述卷积结果输入中间层,在所述中间层中基于注意力机制,对所述卷积结果进行冗余去除处理;将冗余去除处理后的卷积结果输入上卷积层,将所述上卷积层输出的特征作为所述下一级解码单元输出的解码特征。6.根据权利要求1所述的方法,其特征在于,所述基于所述目标音频特征,确定所述待识别音频对应的分类识别结果,包括:将所述目标音频特征输入预先训练的分类模型,确定出所述目标音频特征与多个预设标签对应的概率,将概率最大的预设标签作为所述待识别音频对应的分类识别结果。7.一种音频分类识别装置,其特征在于,包括:特征获取单元,被配置为执行获取待识别音频的音频特征;特征融合单元,被配置为执行将所述音频特征输入目标卷积神经网络,对所述目标卷积