预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110782878A(43)申请公布日2020.02.11(21)申请号201910960088.4(22)申请日2019.10.10(71)申请人天津大学地址300072天津市南开区卫津路92号(72)发明人张涛梁晋华(74)专利代理机构天津市北洋有限责任专利代理事务所12201代理人杜文茹(51)Int.Cl.G10L15/04(2013.01)G10L15/06(2013.01)G10L15/16(2006.01)G10L15/28(2013.01)G06N3/04(2006.01)权利要求书2页说明书5页附图4页(54)发明名称一种基于注意力机制的多尺度音频场景识别方法(57)摘要一种基于注意力机制的多尺度音频场景识别方法:建立基于注意力机制的多尺度音频场景识别卷积神经网络模型,用于准确识别不同频带大小和不同持续时间的音频场景;将包含有不同场景类别的音频文件和对应的场景类别的训练集输入基于注意力机制的多尺度音频场景识别卷积神经网络模型,对基于注意力机制的多尺度音频场景识别卷积神经网络模型进行训练;读取音频文件并进行预处理,得到音频信号片段;从音频信号片段中提取对数梅尔图;将对数梅尔图输入到训练后的基于注意力机制的多尺度音频场景识别卷积神经网络模型中,得到最终的场景类别。本发明对频带范围和持续时间不同的多尺度声音场景都有很好的识别准确率,可以应用到嵌入式等移动设备中。CN110782878ACN110782878A权利要求书1/2页1.一种基于注意力机制的多尺度音频场景识别方法,其特征在于,包括如下步骤:1)建立基于注意力机制的多尺度音频场景识别卷积神经网络模型,用于准确识别不同频带大小和不同持续时间的音频场景;2)将包含有不同场景类别的音频文件和对应的场景类别的训练集输入基于注意力机制的多尺度音频场景识别卷积神经网络模型,对基于注意力机制的多尺度音频场景识别卷积神经网络模型进行训练;3)读取音频文件并进行预处理,得到音频信号片段;4)从所述的音频信号片段中提取对数梅尔图;5)将所述的对数梅尔图输入到训练后的基于注意力机制的多尺度音频场景识别卷积神经网络模型中,得到最终的场景类别。2.根据权利要求1所述的一种基于注意力机制的多尺度音频场景识别方法,其特征在于,步骤1)所述的基于注意力机制的多尺度音频场景识别卷积神经网络模型,包括有依次串联的:用于提取所接收的对数梅尔图的不同尺度的特征的由Xception模型构成特征提取模块(1),用于对特征提取模块(1)所提取的不同尺度特征进行处理,得到表示不同尺度的特征向量的特征处理模块(2),用于将表示不同尺度特征向量进行融合及场景分类的注意力模块(4),以及对特征提取模块(1)输出的最底层尺度特征进行处理后输出给注意力模块(4)的权重分配模块(3)。3.根据权利要求2所述的一种基于注意力机制的多尺度音频场景识别方法,其特征在于,所述的特征提取模块(1)的第二、第三和第四池化层输出的不同尺度特征分别送入特征处理模块(2),所述的特征提取模块(1)的第一池化层输出的最底层尺度特征送入权重分配模块(4)。4.根据权利要求2所述的一种基于注意力机制的多尺度音频场景识别方法,其特征在于,所述的特征处理模块(2),包括有:第一横向连接结构(2.1),对所接收的上层尺度特征依次进行1×1卷积处理、3×3卷积处理和全局池化处理后得到上层尺度特征向量,送入注意力模块(4),并将1×1卷积处理的上层尺度特征信息送入第二横向连接结构(2.2);第二横向连接结构(2.2),分别对所接收的中层尺度特征进行1×1卷积处理,以及对所接收的上层尺度特征信息进行上采样处理,再将1×1卷积处理的结果与上采样处理的结果相加后的中层尺度特征信息进行3×3卷积处理和全局池化处理后得到中层尺度特征向量,送入注意力模块(4),并将所述的中层尺度特征信息送入第三横向连接结构(2.3);第三横向连接结构(2.3),分别对所接收的底层尺度特征进行1×1卷积处理,以及对所接收的中层尺度特征信息进行上采样处理,再将1×1卷积处理的结果与上采样处理的结果相加后的底层尺度特征信息进行3×3卷积处理和全局池化处理后得到底层尺度特征向量,送入注意力模块(4)。5.根据权利要求2所述的一种基于注意力机制的多尺度音频场景识别方法,其特征在于,所述的权重分配模块(3)包括依次进行的:对最底层尺度特征进行1×1卷积处理、3×3卷积处理、全局池化处理和全连接层处理,得到三个用于对不同尺度分配注意力的权重系数,并送入注意力模块(4)。6.根据权利要求2所述的一种基于注意力机制的多尺度音频场景识别方法,其特征在2CN110782878A权利要求书2/2页于,所述的注意力模块(4)包