预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114863937A(43)申请公布日2022.08.05(21)申请号202210536031.3(22)申请日2022.05.17(71)申请人武汉工程大学地址430074湖北省武汉市洪山区雄楚大街693号(72)发明人刘玮张飞张彦铎卢涛陈灯栗娟邵俊杰华鑫张鹏王凯(74)专利代理机构湖北武汉永嘉专利代理有限公司42102专利代理师樊凡(51)Int.Cl.G10L17/26(2013.01)G10L17/02(2013.01)G10L17/04(2013.01)G10L17/18(2013.01)权利要求书3页说明书6页附图3页(54)发明名称基于深度迁移学习与XGBoost的混合鸟鸣识别方法(57)摘要本发明提供了基于深度迁移学习与XGBoost的混合鸟鸣识别方法,通过计算log‑Mel频谱图的一阶差分系数和二阶差分系数,反映鸟鸣信号的变化过程,在保留物种有效信息的同时减少环境噪声等无关因素的影响,提升了识别鸟类物种的准确率;减少了环境背景噪声等无关因素的影响,有效识别了自然场景下的多种鸟类物种。本发明采用深度迁移学习微调VGG16模型构建特征提取器,提升了少样本训练数据下深度卷积神经网络的泛化能力,减少了参数训练,提升了运行效率。本发明将鸟鸣信号更准确的映射为鸟类物种,对自然环境中多种鸟类鸣声均具有良好的识别性能。CN114863937ACN114863937A权利要求书1/3页1.基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:包括以下步骤:S1:收集自然环境下的多种鸟类鸣声,每种鸟类鸣声信号包括多个时间序列相同的鸣声片段;建立基于自然场景设计和收集的鸟鸣音频库;S2:对鸟鸣音频库的每个鸣声片段进行预处理获得短时平稳的鸣声信号,将每帧鸣声信号通过快速傅里叶变换后取绝对值的平方得到能量谱图;S3:将能量谱图经过64阶梅尔滤波器映射为Mel频谱图,作为深度迁移学习与XGBoost混合鸟鸣识别模型的输入;对Mel频谱图取对数得到log‑Mel频谱图;计算log‑Mel频谱图的一阶差分系数和二阶差分系数获得动态声学特征;将一阶差分系数和二阶差分系数与log‑Mel频谱图组合成为三维log‑Mel频谱图;S4:采用参数迁移微调在ImageNet数据集上预训练的深度卷积神经网络VGG16模型,得到针对鸟鸣信息的特征提取器,并提取三维log‑Mel时频谱图的高维隐式特征;S5:将三维log‑Mel时频谱图的高维隐式特征按照一定比例划分为训练集、测试集和验证集;采用训练集训练XGBoost分类器,并在验证集上调整XGBoost分类器的参数,最后在测试集上将高维隐式特征映射为鸟类物种。2.根据权利要求1所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S1中,每个鸟鸣片段的时间序列长度为2秒,采样率为22.05khz,存储格式为.wav。3.根据权利要求2所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S2中,具体步骤为:S21:将2秒的鸟鸣片段分割为1.5秒并设置1秒的重叠保证鸣声的连续性;S22:对分割后的鸟鸣信号进行分帧,设置帧长为2048个采样点,帧移为512个采样点得到短时平稳信号;S23:设n为采样点的取值,N为帧长,则汉明窗计算公式ω(n)为:设每帧信号为s(n),对分帧后的每帧信号乘以汉明窗进行加窗得到x(n):x(n)=w(n)·s(n),0≤n≤N‑1;S24:设k是快速傅里叶变换的点数,对加窗后的鸟鸣信号x(n)进行快速傅里叶变换计算各帧的频谱,并对频谱取绝对值的平方,得到用于反映时域和频域特征信息的能量谱:S25:绘制以时间为横轴、频率为纵轴的能量谱图,通过颜色明暗表示能量高低。4.根据权利要求3所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S3中,具体步骤为:S31:64阶梅尔滤波器具有人耳滤波功能,使用64阶梅尔滤波器对能量谱图进行滤波得到大小为64×64的Mel频谱图;S32:对Mel频谱图取对数得到log‑Mel频谱图L(m),log‑Mel频谱图L(m)具备静态声学特征;2CN114863937A权利要求书2/3页dddS33:计算log‑Mel频谱图L(m)的一阶差分系数L(m)和二阶差分系数L(m)获得动态声学特征,用于捕捉相邻两帧与相邻三帧之间音频信号的动态关系:dddS34:将一阶差分系数L(m)和二阶差分系数L(m)作为log‑Mel频谱图L(m)的动态补充特征形成大小为64×64×3的三维log‑Mel频谱图。5.根据权利要求4所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S4中,具