预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111754988A(43)申请公布日2020.10.09(21)申请号202010585359.5G10L25/45(2013.01)(22)申请日2020.06.23G10L25/51(2013.01)(71)申请人南京工程学院地址211167江苏省南京市江宁科学园弘景大道1号(72)发明人唐闺臣梁瑞宇谢跃黄裕磊王青云(74)专利代理机构南京睿之博知识产权代理有限公司32296代理人刘菊兰(51)Int.Cl.G10L15/08(2006.01)G10L25/18(2013.01)G10L25/24(2013.01)G10L25/27(2013.01)权利要求书2页说明书6页附图3页(54)发明名称基于注意力机制和双路径深度残差网络的声场景分类方法(57)摘要本发明公开了一种基于注意力机制和双路径深度残差网络的声场景分类方法,包括如下步骤:对原始语音信号计算原始语音频谱图、水平频谱图和垂直频谱图,将水平频谱图和垂直频谱图变换得到新的两路时域信号;分别计算原始语音信号、新的两路时域信号的对数梅尔谱图以及一阶差分对数梅尔谱图和二阶差分对数梅尔谱图,并在通道维度上进行融合得到融合谱图;割在频率轴上将融合谱图平均分为高频谱图和低频谱图;搭建带有注意力层的双路径深度残差网络;将高频谱图和低频谱图输入深度残差网络,输出原始语音信号所属的声场景类别。本发明可以更好的捕获高频和低频分量的时频特性以及特征图中不同通道的重要度,提升了声场景分类系统的准确性和鲁棒性。CN111754988ACN111754988A权利要求书1/2页1.一种基于注意力机制和双路径深度残差网络的声场景分类方法,其特征在于,包括如下步骤:步骤1、对原始语音信号进行预处理并计算原始语音频谱图,对原始语音频谱图中的水平线和垂直线分别进行增强得到水平频谱图和垂直频谱图,对水平频谱图和垂直频谱图分别变换得到新的两路时域信号;步骤2、分别计算原始语音信号、新的两路时域信号的对数梅尔谱图以及一阶差分对数梅尔谱图和二阶差分对数梅尔谱图,并在通道维度上进行融合得到融合谱图;步骤3、在频率轴上将融合谱图平均分割为高频谱图和低频谱图;步骤4、搭建带有注意力层的双路径深度残差网络;步骤5、将所述步骤3中的高频谱图和低频谱图输入步骤4中的深度残差网络,输出原始语音信号所属的声场景类别。2.根据权利要求1所述的一种基于注意力机制和双路径深度残差网络的声场景分类方法,其特征在于,所述步骤1中:其中,Xh为水平频谱图,Xp为垂直频谱图,X为原始语音频谱图;κ和λ为权重平滑因子;f和t分别表示频率和时间;最小化代价函数J,令和则可求得水平频谱图Xh和垂直频谱图Xp。3.根据权利要求1所述的一种基于注意力机制和双路径深度残差网络的声场景分类方法,其特征在于,所述步骤2中:Sa(T,F)=(SX(T,F),SH(T,F),SP(T,F))其中,Sa表示融合谱图;SX表示原始语音信号的对数梅尔谱图以及一阶差分对数梅尔谱图和二阶差分对数梅尔谱图;SH表示由水平频谱图生成的时域信号的对数梅尔谱图以及一阶差分对数梅尔谱图和二阶差分对数梅尔谱图;SP表示由垂直频谱图生成的对数梅尔谱图以及一阶差分对数梅尔谱图和二阶差分对数梅尔谱图;T和F分别表示时间轴和频率轴。4.根据权利要求1所述的一种基于注意力机制和双路径深度残差网络的声场景分类方法,其特征在于,所述步骤5包括如下步骤:步骤51、高频谱图和低频谱图输入深度残差网络的双路径后分别输出高频特征图和低频特征图;步骤52、高频特征图和低频特征图在频率轴维度上进行融合得到融合特征图,通过融合特征图得到多通道特征图,通过多通道特征图计算得到注意力系数;步骤53、将注意力系数应用于多通道特征图得到加权特征图;步骤54、将加权特征图展开为一维的特征向量,通过特征向量输出原始语音信号所属的声场景类别。5.根据权利要求4所述的一种基于注意力机制和双路径深度残差网络的声场景分类方法,其特征在于,所述步骤52中:MP(T,F)=(MP1(T,FL),MP2(T,FH))2CN111754988A权利要求书2/2页其中,MP(T,F)表示融合特征图;MP1(T,FL)和MP2(T,FH)分别表示低频特征图和高频特征图;T表示特征图的高度;F、FL和FH分别表示融合特征图、低频特征图和高频特征图的宽度。6.根据权利要求4所述的一种基于注意力机制和双路径深度残差网络的声场景分类方法,其特征在于,所述步骤52中:α=σ(W2ReLU(W1z))其中,α∈RC表示注意力系数向量;和表示权重;σ表示sigmoid激活函数;M表示多通道特征图;T和F分别表示多通道特征图的高度和宽度;C表多通道特征图的通道维度;r表示尺