预览加载中,请您耐心等待几秒...
1/5
2/5
3/5
4/5
5/5

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

行车噪声环境下基于人耳频率选择特性的声学特征提取方法行车噪声环境下基于人耳频率选择特性的声学特征提取方法引言声学事件检测(AcousticEventDetection,AED)就是检测当前环境中发生的特定目标声学事件,然后把检测出的声学事件转换为人类或者智能设备可以理解的信号,为人类或者智能设备的决策提供信息。在声学事件检测研究中,研究者们做出了大量的贡献。目前研究主要聚焦在提取适合检测任务要求的声学特征表示和声学事件的分类算法方面。在声学特征方面,研究者们尝试了各种声学特征,如:梅尔倒谱系数(Mel-frequencycepstralcoefficients,MFCC)[1]、线性预测倒谱系数(Linearpredictioncepstralcoefficients,LPCC)[2]、基频(Pitch)[3]、频谱质心(Spectralcentroid)[4]等。在声学事件的分类方法中,研究者们也尝试了各种不同的方法,包括基于支持向量机(SupportVectorMachine,SVM)方法、隐马尔科夫模型(HiddenMarkovModel,HMM)方法、人工神经网络(ArtificialNeuralNetwork,ANN)方法等。近几年来,SVM方法[5]和HMM方法[6]成为最主流的声学事件分类方法。在本文的研究工作中,将会尝试在行车噪声环境下,检测车辆周边发生的各种目标声学事件。由于行车中的声学环境较为复杂,当车辆行驶速度较快或者路况较差等情况存在时,噪声频谱污染就较为严重,传统的声学特征,例如:MFCC在中高频部分的滤波器分布较为稀疏且处此滤波环境下,而中高频部分噪声较强时,目标声学事件的检出率即会显著下降。对强噪问题,研究者们通常采用降噪模式来增强目标声音信号的方法,如:高斯模型假设下的维纳滤波增强算法[7]、基于听觉掩蔽效应的增强算法[8]、谱减法[9]等。综合评析可知,基于高斯模型的滤波方法计算复杂度较高;基于听觉掩蔽效应的语音增强算法则不能充分地模拟人耳对于声音的感知;而在降噪中普遍使用的谱减法却存在“音乐噪声”的问题,导致降噪后声音信号的频谱破坏较为严重,使得提取出的特征不能很好地刻画声音信号的目标声学事件的频谱特性。耳蜗是人类接收和处理外界声音信号的主要器官,在提取可辨性的声音特征,以及对背景噪声的鲁棒性方面均表现出高强的能力。耳蜗生理学研究成果表明,耳蜗的这种能力主要来自于以下几个方面:基底膜的频率分析功能、外毛细胞/覆膜的主动选择性增益功能等[10]。其中,基底膜的主要功能是将接收到的声音信号分解为各个频率上的振动峰值,并将相应的振动传递给外毛细胞和内毛细胞;外毛细胞/覆膜则主要依据接收到的振动对特定频率处的能量进行选择性增益,影响相应位置处的内毛细胞发放强度。针对传统声学事件检测方法存在的问题以及人耳中耳蜗的听觉感知特性,本文提出了一种模拟人耳听觉感知的基于共振峰的Mel滤波器组的加权算法,通过模拟人耳的听觉感知特性,加强了Mel滤波器组对中高频的分辨能力,并采用加权后的Mel滤波器组提取FMFCC(Formant-MFCC,FMFCC)系数。实验证明,FMFCC对噪声有更好的鲁棒性,并且在目标声学事件信号较弱时,也不会增加误识率。1共振峰的提取声音信号的倒谱可以通过先对信号做傅里叶变换、取模,得到信号的频谱密度,然后求频谱密度的对数,最后求反傅里叶变换得到。根据参数模型功率谱估计的思想,可以将声音信号看作一个输入序列激励一个全极点的系统而产生的输出,系统的传递函数为:……………………………(1)其中,为常数,为实数,为模型的阶数。由于频率响应反映了被分析信号的频谱包络,因此用来代替频谱密度,对求对数后,做傅里叶反变换求出的LPC倒谱系数,也被认为包含了信号频谱的包络信息,因此将其看作是对原始信号短时倒谱的一种近似。的冲击响应为。欲求的倒谱,根据同态分析法,因为是最小相位的,所以一定可以展开成级数的形式,即的逆变换是存在的,可得:……..….(2)因此,只要计算出线性预测系数,就可以求出倒谱,通过对倒谱进行搜索,找到每一个共振峰所在的频率,记为,其中表示共振峰的个数。2Mel滤波器组的加权2.1模拟频率选择性增益功能人耳的选择性增益功能对人耳耳蜗的听觉感知至关重要,人耳的选择性增益机制主要包括:频率相关的增益区间和增益函数。考虑到人耳覆膜的行波振动范围有限,因此其频率增益区间仅局限于中心频率附近[11];增益函数在频域的对数尺度上近似于高斯函数,在共振峰频率处的增益幅度最大,而在共振峰频率两侧的增益幅度迅速衰减。这即导致共振处的频率振幅能量在急剧增加的同时,两侧的频率振幅能量急剧降低,表现出人耳的频率选择性增益功能。下面给出一种方法把LPC谱估计法提取出的共振峰的信息应用到Mel滤波器组中,从而弥