预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110796027A(43)申请公布日2020.02.14(21)申请号201910960583.5(22)申请日2019.10.10(71)申请人天津大学地址300072天津市南开区卫津路92号(72)发明人张涛冯国庆梁晋华(74)专利代理机构天津市北洋有限责任专利代理事务所12201代理人杜文茹(51)Int.Cl.G06K9/00(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书5页附图3页(54)发明名称一种基于紧密卷积的神经网络模型的声音场景识别方法(57)摘要一种基于紧密卷积的神经网络模型的声音场景识别方法:建立用于声音场景分类的紧密卷积的神经网络模型;将包含有不同场景类别的音频文件和对应的场景类别的训练集输入用于声音场景分类的紧密卷积的神经网络模型,对用于声音场景分类的紧密卷积的神经网络模型进行训练;读取音频文件并进行预处理,得到音频信号片段;从所述的音频信号片段中提取对数梅尔图;将所述的对数梅尔图输入到训练后的用于声音场景分类的紧密卷积的神经网络模型中,得到最终的声音场景类别。本发明既保证了有效特征得以充分的利用而使准确率不变,又精简了网络模型而减少内存消耗,在声音场景识别中做到更加高效,更好的满足声音场景识别设备的性能要求。CN110796027ACN110796027A权利要求书1/2页1.一种基于紧密卷积的神经网络模型的声音场景识别方法,其特征在于,包括如下步骤:1)建立用于声音场景分类的紧密卷积的神经网络模型;2)将包含有不同场景类别的音频文件和对应的场景类别的训练集输入用于声音场景分类的紧密卷积的神经网络模型,对用于声音场景分类的紧密卷积的神经网络模型进行训练;3)读取音频文件并进行预处理,得到音频信号片段;4)从所述的音频信号片段中提取对数梅尔图;5)将所述的对数梅尔图输入到训练后的用于声音场景分类的紧密卷积的神经网络模型中,得到最终的声音场景类别。2.根据权利要求1所述的一种基于紧密卷积的神经网络模型的声音场景识别方法,其特征在于,步骤1)所述的紧密卷积的神经网络模型包括有依次串联的:第一特征提取模块(1),用于对接收的对数梅尔图采用不同卷积核进行一次特征提取,并进行非线性变换,得到不同卷积核下的第一非线性特征图;第二特征提取模块(2),用于对第一非线性特征图采用不同卷积核进行二次特征提取,并进行二次非线性变换,得到不同卷积核下的第二非线性特征图;由n个紧密卷积单元(3.1、3.2、....3.n)依次串联构成的紧密卷积模块(3),用于对第二非线性特征图依次采用不同卷积核进行深度特征提取;Softmax层(4),用于对最后提取的不同卷积核下的深度特征图进行加权判断,输出声音场景识别结果。3.根据权利要求2所述的一种基于紧密卷积的神经网络模型的声音场景识别方法,其特征在于,所述的第一特征提取模块(1)和第二特征提取模块(2)结构相同,均包括有:用于对接收的对数梅尔图采用不同卷积核进行特征提取的普通卷积层,以及对所提取的不同卷积核下的特征图进行非线性变换的ReLU激活函数层。4.根据权利要求2所述的一种基于紧密卷积的神经网络模型的声音场景识别方法,其特征在于,所述的n个紧密卷积单元(3.1、3.2、....3.n)结构相同,均包括有用于对所接收的特征图采用不同卷积核进行深度特征提取的紧密卷积层,以及对紧密卷积层所提取的不同卷积核下的特征图进行非线性变换的ReLU激活函数层。5.根据权利要求4所述的一种基于紧密卷积的神经网络模型的声音场景识别方法,其特征在于,所述的紧密卷积层包括有依次串联的:用于采用不同卷积核进行特征图提取的深度卷积层(3.10),用于对深度卷积层(3.10)所提取的不同卷积核下的特征图进行缩减的通道压缩层(3.11),以及缩减后的特征图进行1×1的卷积的1×1卷积层(3.12)。6.根据权利要求5所述的一种基于紧密卷积的神经网络模型的声音场景识别方法,其特征在于,所述的通道压缩层(3.11)包括:(1)将接收到的深度卷积层(3.10)提取的不同卷积核下的特征图进行分组,每组有2张以上特征图;(2)将每一组所有特征图相同位置的参数进行比较或求平均,将比较结果中最大的值或求得的平均值作为新的特征图同一位置的参数,从而得到该组新的特征图;(3)输出每组新的特征图。2CN110796027A权利要求书2/2页7.根据权利要求1所述的一种基于紧密卷积的神经网络模型的声音场景识别方法,其特征在于,步骤3)所述的预处理是对输入的信号进行截断处理,截成固定时长10s的信号片段。8.根据权利要求1所述的一种基于紧密卷积的神经网络模型的声音场景识别方法,其特征在于,步骤4