预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN109065030A(43)申请公布日2018.12.21(21)申请号201810862022.7(22)申请日2018.08.01(71)申请人上海大学地址200444上海市宝山区上大路99号(72)发明人张智超徐树公曹姗张舜卿(74)专利代理机构上海交达专利事务所31201代理人王毓理王锡麟(51)Int.Cl.G10L15/08(2006.01)G10L15/02(2006.01)G10L15/06(2013.01)G06N3/04(2006.01)权利要求书2页说明书6页附图1页(54)发明名称基于卷积神经网络的环境声音识别方法及系统(57)摘要一种基于卷积神经网络的环境声音识别方法及系统,将从音频中提取得到的梅尔能量谱特征进行混合构建得到样本库,用于对卷积神经网络模型进行训练,最终以训练后的卷积神经网络进行环境声音的识别,本发明在ESC-10、ESC-50和UrbanSound8K三个公开声音数据集上取得了最好或者接近最好的结果。CN109065030ACN109065030A权利要求书1/2页1.一种基于卷积神经网络的环境声音识别方法,其特征在于,将从原始音频中提取得到的梅尔能量谱特征进行混合构建得到样本库,用于对卷积神经网络模型进行训练,最终以训练后的卷积神经网络进行环境声音的识别;所述的混合构建是指:从梅尔能量谱特征中随机选出两个样本,将两个样本按比率混合构建虚拟训练样本,以两个样本的混合比率为训练目标,通过利用特征的线性插值和相关目标的线性插值扩展训练分布增加训练样本的多样性。2.根据权利要求1所述的方法,其特征是,所述的提取,包括以下步骤:①对原始音频进行分帧后对每一帧进行FFT变换得到声音的幅度谱其中:s(n)为声音信号,w为窗函数,1≤k≤N-1,经平方处理得到声音的能量谱P(k)=|S(k)|2;②利用梅尔滤波器组将声音的能量谱转换到梅尔频率表示,具体为:其中:f为时域频率、fm为梅尔滤波器中心频率,③对得到的梅尔能量谱进行非线性变换:然后对梅尔能量谱进行分割,得到若干个梅尔能量谱片段,即梅尔能量谱特征。3.根据权利要求2所述的方法,其特征是,所述的梅尔能量谱图,进一步使用基于能量的方法移除微弱音频,即通过预设阈值,移除连续两帧梅尔能量谱能量均值小于预设阈值的音频帧。4.根据权利要求1所述的方法,其特征是,所述的原始音频,经时间延伸处理和音调转换处理以扩充训练样本以增强模型的泛化性能,其中:所述的时间延伸处理是指:加快或放慢声音而不改变声音的音调并得到新的样本;所述的音调转换处理是指:升高或降低音调而不改变声音的时长并得到新的样本。5.根据权利要求1所述的方法,其特征是,所述的卷积神经网络首先对梅尔能量谱特征进行基本特征提取,然后分别对频域和时域进行特征提取,最后提取时频的联合特征。6.根据权利要求1或5所述的方法,其特征是,所述的卷积神经网络包括:八个卷积层和两个全连接层,其中:每两个卷积层后通过设置一最大池化层进行降维;该卷积神经网络采用混合构建得到的样本库训练。7.根据权利要求6所述的方法,其特征是,所述的卷积神经网络包括:第一卷积层Conv1卷积核尺寸为3×7,步长为1×1,卷积核数量为32;第二卷积层Conv2卷积核尺寸为3×5,步长为1×1,卷积核数量为32;前两卷积层使用尺寸较大的卷积核,进行基本的特征提取;第一最大池化层Pool1卷积核尺寸为4×3,步长为4×3,用于降低特征维度;第三卷积层Conv3和第四卷积层Conv4卷积核尺寸为3×1,步长为1×1,卷积核数量为64,用于提取高层频域特征;第二最大池化层Pool2卷积核尺寸为4×1,步长为4×1,降低频域维度;2CN109065030A权利要求书2/2页第五卷积层Conv5和第六卷积核Conv6卷积核尺寸为1×3,步长为1×1,卷积核数量为128,用于提取高层时域特征;第三最大池化层Pool3卷积核尺寸为1×3,步长为1×3,降低时域维度;第七卷积层Conv7和第八个卷积层Conv8卷积核尺寸为3×3,步长为1×1,卷积核数量为256,用于提取时频特征;第四最大池化层Pool4卷积核尺寸为2×2,步长为2×2;第一全连接层FC1有512个节点,第二全连接层FC2,即输出层节点个数需根据类别数量而确定。8.根据权利要求1所述的方法,其特征是,所述的混合具体为:其中:xi和xj是随机选择的样本,yi和yj是对应的one-hot类型训练标签,x和y是所构建的虚拟训练样本和对应的训练标签。9.一种实现上述任一权利要求所述方法的系统,其特征在于,包括:特征提取模块、混合构建模块以及网络训练模块,其中:特征提取模块从原始音频中提取得到M梅尔能量谱片段并输出至混合构