预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110600054A(43)申请公布日2019.12.20(21)申请号201910845467.9G06N3/04(2006.01)(22)申请日2019.09.06(71)申请人南京工程学院地址211167江苏省南京市江宁科学园弘景大道1号(72)发明人唐闺臣梁瑞宇王青云包永强冯月芹李明(74)专利代理机构南京瑞弘专利商标事务所(普通合伙)32249代理人徐激波(51)Int.Cl.G10L25/30(2013.01)G10L25/24(2013.01)G10L25/51(2013.01)G06N3/08(2006.01)权利要求书2页说明书5页附图4页(54)发明名称基于网络模型融合的声场景分类方法(57)摘要本发明公开了一种基于网络模型融合的声场景分类方法,并通过声道分离方式和音频切割等方式构造出多种不同的输入特征,提取音频信号的伽马通滤波器倒谱系数、梅尔频谱特征及其一阶和二阶差分作为输入特征,分别训练对应的多种不同的卷积神经网络模型,最后采用支撑向量机堆叠方法实现最终的融合模型。本发明采用声道分离和音频切割等方式提取出识别性强的音频输入特征,构造了单双两种通道的卷积神经网络,最终生成独特的模型融合结构,能够获得更加丰富与立体的信息,有效提高了不同的声场景分类识别率和鲁棒性,具有良好的应用前景。CN110600054ACN110600054A权利要求书1/2页1.一种基于网络模型融合的声场景分类方法,其特征在于,包括以下步骤:步骤A、对采集到的声场景数据进行预处理,获得音频数据样本;步骤B、对步骤A中的预处理后的音频数据样本,采用声道分离方式和音频切割方式分成N组音频数据,并对各组数据提取对应的伽马通滤波器倒谱系数和梅尔频谱特征,并计算梅尔频谱特征一阶及二阶差分特征,构造成N组不同的输入特征;步骤C、针对步骤B中N组不同的输入特征,设计N种不同结构的CNN模型作为弱分类器并训练各模型;步骤D、采用支撑向量机为强分类器,将步骤C中的N种模型的输出结果堆叠作为支撑向量机的输入特征,训练融合后的新模型,新模型的分类结果作为声场景分类的最终结果。2.根据权利要求1所述的基于网络模型融合的声场景分类方法,其特征在于:所述步骤C中采用六种CNN模型,分别记为模型1、模型2、模型3、模型4、模型5和模型6,模型1、模型2和模型3均为单通道CNN模型,模型4、模型5和模型6均为双通道CNN网络模型。3.根据权利要求2所述的基于网络模型融合的声场景分类方法,其特征在于:所述模型1、模型2、模型3、模型4、模型5和模型6中的每个通道均包括卷积层、批量化归一层、全连接层和输出层;将所述模型4、模型5和模型6三个模型自身具备的两个通道的卷积层输出的特征图一维化处理,然后拼接在一起输入自身的全连接层;模型1与模型4、模型2与模型5、模型3与模型6对应,相对应的两个模型的每个通道的卷积层、全连接层的结构一致。4.根据权利要求3所述的基于网络模型融合的声场景分类方法,其特征在于:所述卷积层包含三段卷积块,每段卷积块之后紧接着最大池化层,每段卷积块包含两层卷积层,每层卷积层后连接ReLU激活函数,全连接层共两层,输出层为Softmax层,输出每个类别的预测概率,各模型的代价函数采用交叉熵损失函数。5.根据权利要求1所述的基于网络模型融合的声场景分类方法,其特征在于:所述步骤B中,声道分离方式包括不分离方法、谐波源和冲击源分离方法,不分离方法采用原始音频数据伽马通滤波器倒谱系数、提取梅尔频谱及其一阶二阶差分特征作为输入特征;谐波源和冲击源分离方法将语音信号分离为谐波分量与冲击源分量,然后再分别提取伽马通滤波器倒谱系数、梅尔频谱及其一阶二阶差分特征作为输入特征。6.根据权利要求2所述的基于网络模型融合的声场景分类方法,其特征在于:所述谐波源和冲击源分离方法是通过使最大后验估计准则估计的目标函数J(H,P)达到最大值,将语音信号分离为谐波分量H与冲击源分量P,J(H,P)=logp(W|H,P)+logp(H)+logp(P)+C(1)其中,W代表信号的短时能量谱;等式右边的四项分别为最大似然值,H的先验值、P的先验值和一常量。7.根据权利要求1所述的基于网络模型融合的声场景分类方法,其特征在于:所述步骤B中,音频切割方法包括非切割、重叠切割和非重叠切割,所采用音频数据时长为3秒;不切割方法使用原始音频提取伽马通滤波器倒谱系数、梅尔谱及其差分特征;不重叠切割将音频按1秒划分为四个片段,分别提取特征后堆叠获得四通道特征作为输入特征;重叠切割将语音按照2秒划分,重叠部分为1秒,分别提取特征后堆叠获得双通道特征作为输入特征。8.根据权利要求2和4所述的基于网络模型融合的声场景分类方法,