预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

车内环境下基于高信噪比频带的语音特征提取方法摘要:语音识别技术在汽车领域有着广泛的应用。但通常车内环境存在着噪音且车载系统运算能力有限。要保证较高识别率减少识别时的计算量需要针对噪音环境的特点提取鲁棒特征并压缩语音模板。本文选择高信噪比的频带进行语音模板的训练通过聚类的方法压缩模板的长度并用实验验证了所提出的语音特征鲁棒性。关键词:语音识别;特征提取;模板训练中图分类号:TN912.34语音识别在汽车领域的应用包括拨打电话调节空调控制音响甚至发动引擎等。出于成本的考虑汽车通常使用嵌入式系统来实现这些功能。系统的运算资源有限为了保证在噪声环境下也具有良好的识别率减少对系统资源的需求需要针对汽车噪声环境的特点训练鲁棒的语音模板并压缩模板长度以降低语音识别时的计算量。车内环境充斥着噪音为保证较高的识别率需要分析车内噪声的特点并进行语音模板训练。通常采用各种滤波、降噪的手段减少噪音对识别系统的影响。近年来语音频谱熵被用于语音端点检测的任务中取得了良好的效果[1]表明谱熵是一种能够良好区别语音和非语音的特征参数[2]。当驾驶员的语音命令被汽车噪声污染时因为这两种信号所分布的频率范围不同导致叠加后的信号在不同频带有着不同的信噪比。从这个角度来看我们可以把低于某一信噪比的频带看成频域上的非语音段并在模板训练时予以排除用高信噪比的频带训练出鲁棒的语音模板以提高识别率。本文用谱熵来进行频带划分然后对模板进行压缩:在时域压缩将导致识别率的大幅下降[3]而针对语音帧的压缩方法可以较好地压缩模板的长度并在说话人确认的任务中有了成功的应用[3-5]。故本文选择高信噪比的频带进行特征提取用聚类的方法压缩模板的长度得到的语音模板可以在保持较高识别率的同时减少计算量不同信噪比条件下的实验验证了所提特征在车内噪声环境中有较高的鲁棒性。1车内带噪语音分析车内环境中噪声主要包括发动机噪声、轮胎噪声、风噪等一般为加性噪声且能量集中在低频段[6]。本文为模拟车内环境下语音信号的端点检测对实验室安静环境下采集的语音信号叠加汽车噪声采用NOISEX-92噪声库中的“Volvo”噪声。纯净以及带噪(信噪比为-5dB)的语音信号的时域波形如下图所示:图1语音信号时域波形图2带噪语音信号时域波形由图2可见当信噪比较低时语音被淹没于噪声中。从时域上来看带噪语音信号的波形失真严重我们很难区分出语音段与噪声段。进一步分析车内噪声环境下的语音信号我们观察带噪语音信号的语谱图采用汉明窗长128窗移32如图3所示:图3带噪信号语谱图从语谱图中可以看到待分析的语音信号频率分布在整个低频到高频的范围内相对的噪声主要存在于小于300Hz的低频范围中并且几乎完全地掩盖了语音的低频成分使我们无法分辨出语音在低频的变化趋势。所以在进行语音模板训练时应当排除低频段的频带数据用高信噪比的频带计算语音特征。2语音特征提取语音特征提取的过程包括预加重分帧计算倒谱系数几个过程。在计算倒谱系数之前为了找到高信噪比的频带我们利用谱熵特征来确定划分频带的阈值。2.1预加重。为了保证频谱平坦并消除声门激励和口鼻辐射的影响使得在整个频带中能使用同样的信噪比进行频谱分析将语音信号通过一个预加重数字滤波器提升高频[7]。滤波器的输入x(n)与输出y(n)满足下列差分方程:y(n)=x(n)-a*x(n-1)(1)本文中a的值取0.97。2.2谱熵的计算。对频谱的频率分量计算归一化谱概率密度如公式2所示:(2)其中s(fi)为信号在fi处频谱幅值M为FFT变换长度得到pi为频率fi在整个频率范围内出现的概率。利用上式的结果便可计算出此信号的谱熵En:(3)2.3高信噪比频带的划分。本文通过人工选取阈值的方法把频带划分成高、低信噪比两个部分再用谱熵去评价阈值划分的效果。因为谱熵是一种能够良好区别语音段和非语音段的特征频域上分布越分散的信号的频率不确定性越高熵就越高比如白噪声;相反的语音信号的频谱则有着相对比较集中的分布不确定性较小熵较低。所以阈值的选择要使得噪声段频谱熵值尽可能大且使得语音段熵值尽可能小。实验中语音信号的采样率为8000Hz我们将整个频率范围分成两部分:低信噪比部分(0-FHz)以及高信噪比部分(F-4000Hz)。通过观察我们选择F=250Hz为汽车噪声环境下的阈值点。得到高信噪比部分谱熵特征如图4所示:图4高信噪比频带谱熵容易看出在高信噪比语音信号中纯噪声段谱熵较高而带噪语音部分的谱熵较低甚至接近零在纯噪声段与带噪语音段的