预览加载中,请您耐心等待几秒...
1/5
2/5
3/5
4/5
5/5

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第10卷第1期重庆科技学院学报(自然科学版)2008年2月 基于MATLAB的语音信号分析和处理 徐靖涛王金根 (解放军炮兵学院,合肥230031) 摘要:阐述用Matlab进行语音信号处理的具体步骤,从理论和实践上比较分析不同原型下设计的数字滤波器的滤波 效果。 关键词:语音信号处理;Matlab;滤波器;频谱分析 中图分类号:TN912文献标识码:A文章编号:1673-1980(2008)01-0132-05 数字信号处理是一门发展迅速、应用广泛的前内(一般认为在10~30ms的短时间内),其特性基本 沿性学科,其理论性和实践性都很强。为了系统地保持不变,即相对稳定,因而可以将其看作是一个准 掌握和理解信号的采集、处理、传输、显示和存储,稳态过程,即语音信号具有短时平稳性。任何语音信 本文通过具体的语音信号处理实例阐述这一原理号的分析和处理必须建立在“短时”的基础上,即进 和方法。行“短时分析”,将语音信号分段来分析其特征参数, 其中每一段称为一“帧”,帧长一般取为10~30ms。这 1语音信号概述 样,对于整体的语音信号来讲,分析出的是由每一帧 1.1基本组成特征参数组成的特征参数时间序列。 语音信号的基本组成单位是音素。音素可分成1.4倒谱分析 “浊音”和“清音”两大类。如果将不存在语音而只有倒谱分析是指信号短时振幅谱的对数傅里叶反 背景噪声的情况称为“无声”,那么音素可以分成“无变换。它具有可近似地分离并提取出频谱包络信息 声”、“浊音”、“清音”三类。一个音节由元音和辅音和细微结构信息的特点。 构成。元音在音节中占主要部分。所有元音都是浊本文按照以下设计思路进行阐述:录制采集语 音。在汉语普通话中,每个音节都是由“辅音-元音”音信号,对录制的信号进行采样;绘制采样后语音信 构成的。号的时域波形和频谱图,设计滤波器,并运用所设计 1.2语音信号的“短时谱”的滤波器对采集的信号进行滤波,绘制滤波后信号 对于非平稳信号,它是非周期的,频谱随时间连的时域波形和频谱。 续变化,因此由傅里叶变换得到的频谱无法获知其 2语音信号分析的实验过程 在各个时刻的频谱特性。如果利用加窗的方法从语 音流中取出其中一个短断,再进行傅里叶变换,就可实验按照录制采集语音信号,对录制的信号进 以得到该语音的短时谱。行采样,绘制采样后语音信号的时域波形和频谱图, 浊音的短时谱有两个特点:第一,有明显的周期设计滤波器,运用所设计的滤波器对采集的信号进 性起伏结构,这是因为浊音的激励源为周期脉冲气行滤波,绘制滤波后信号的时域波形和频谱的思路 流;第二,频谱中明显地有凸出点,即“共振峰”,它们进行。 的出现频率与声道的谐振频率相对应。清音的短时2.1语音信号采集并进行频谱分析 谱则没有这两个特点,它十分类似于一段随机噪声2.1.1语音信号采集 的频谱。该实验以研究者本人的声音为分析样本。在 1.3短时分析技术MATLAB中使用Wavread函数,可得出声音的采样 语音信号具有时变特性,但在一个短时间范围频率FS为22050Hz,且声音是单通道的。利用sound 收稿日期:2007-10-12 ·132· 徐靖涛,王金根:基于MATLAB的语音信号分析和处理 函数,可清晰地听到读音为:“炮兵学院”。采集数据ylabel('Amplitude'); 并画出波形图(图1),其中FS为采样频率,Y为采样%加窗 数据,NBITS表示量化阶数。w=hamming(ms30); [Y,FS,NBITS]=wavread('xjt.wav');pos=1; 接下来对采样数据作快速傅里叶(fft)变换并画fx=[]; 出频谱图和以dB为单位的信号频谱。while(pos+ms30)<=length(x) y=x(pos:pos+ms30-1);y=y-mean(y); Y=fft(y.*w);%作加窗信号的傅利叶变换 C=fft(log(abs(Y)+eps));%倒谱分析 [c,fxval]=max(abs(C(ms2∶ms20))); %找出2ms(=500Hz)和20m(=50Hz)之间的最大值 fx=[fxfs/(ms2+fxval-1)]; pos=pos+ms10; 图1声音样本波形图end; %画出倒谱图 t=(0∶length(fx)-1)*0.01 subplot(2,1,2); plot(t,fx); legend('FXTrace'); xlabel('Time(s)'); ylabel('Frequency(Hz)'); 图2频谱图分析后得出倒谱图(图3)。 由频谱图2可清楚地看到样本声音主要以低频 为主。人的语音信号频率一般集中在200kHz到 4.5kHz之间,从声音频谱的包络来看,样本声音的 能量集中在0.1pi(即11