预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共44页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

国家“十一五”规划教材 《数字语音编码》讲议 同济大学电子与信息工程学院 赵晓群编著 机械工业出版社,2007年 第4章语音信号的时域分析第4章语音信号的时域分析 4.1概述 语音信号携带各种信息:男声、女声,喜、怒,中、英等。 不同场合感兴趣的信息不同; ◆判断信号是否为语音,只需人类语音信号的一般特征; ◆区分语音为清、浊音,需语音能量谱和基频; ◆数字传输或数字存储时,目的不同,保留信息精度不同; 语音信号处理的任务: ◆去除与应用目的不相干或影响不大的语音信息 ◆需要的信息不仅应当提取出来,有时还需要加强。 以上涉及语音信号中,各种信息的表示问题。 表示方法的原则:最方便、最有效。 短时分析技术贯穿于语音分析的全过程。整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。 语音信号分析:时域分析、频域分析、倒频域分析等; 语音信号分析:模型分析、非模型分析; 模型分析法是指依据语音信号产生的数学模型,来分析和提取表征这些模型的特征参数, ◆模型分析:共振峰分析、无损级联声管分析法 ◆非模型分析:不进行模型化的分析 语音的预处理:语音信号的数字化、语音信号的端点检测、 预加重、加窗、分帧等, 本章重点:语音信号的各种时域分析技术,是语音处理技术 的基础知识。第4章语音信号的时域分析 4.2语音信号的数字化和预处理 信号数字化:放大、增益控制、反混叠滤波、取样、 A/D变换及编码(PCM编码); 预处理:预加重、加窗、分帧、端点检测等; 图4.1:语音信号数字分析或处理的系统框图。 4.2.1预滤波、取样、A/D变换 预滤波:带通滤波器(上、下截止频率为fH、fL) ◆防混叠滤波,抑制>fs/2的输入信号分量(fs为取样频率) ◆抑制工频干扰(50Hz电源)。 多数语音编/译码器:fH=3.4kHz,fL=60~100Hz,fs=8kHz。 语音识别:◆对电话用户指标与语音编/译码器时相同; ◆要求较高或很高:fH=4.5or8kHz,fL=60Hz,fs=10or20kHz。 A/D变换需对信号量化,编码为二进制,产生量化误差。 量化误差(量化噪声):量化信号值与原信号值之差; 信号波形的变化足够大或量化间隔足够小时, 量化噪声符合具有下列特征的统计模型: ①量化噪声是平稳的白噪声过程; ②量化噪声与输入信号不相关; ③量化噪声在量化间隔内均匀分布,即具有等概率密度分布。4.2.2预处理 预处理:预加重、加窗、分帧、端点检测等; 语音的一个特征:约8kHz高频端按-6dB/倍频程跌落。 预加重:提升语音的高频部分,使信号的频谱变得平坦, ◆可在反混叠滤波前,可压缩动态范围,提高信噪比。 ◆也可在数字化后、参数分析之前。 预加重用6dB/倍频程的提升高频特性的预加重数字滤波器: 式中,μ为常系数,值接近于1,通常取μ=0.92~0.94。 恢复原信号,对测量值进行去加重处理, 即加上-6dB/倍频程的下降的频率特性来还原成原来的特性。4.2.3窗函数的作用 采用连续分段或交叠分段的方法分帧,33~100帧/秒。 图4.2:帧移与帧长示例。 帧与帧之间的信号平滑过渡,保持其连续性。 帧移:前后帧的交叠部分。 帧移与帧长的比值一般为0~1/2。 移动窗函数加权实现: x(n)为语音信号,w(n)为窗函数,sw(n)为窗选语音信号。 讨论窗函数的形状和长度的影响。 1.窗函数的形状 好的窗函数的标准: ◆时域:减小时间窗两端的坡度,使窗口两端边缘平滑过渡到到零,减小语音帧的截断效应; ◆频域:较宽的3dB带宽和较小的边带最大值。 常用的窗函数(窗长为N): (1)矩形(rectangular)窗: (2)Hamming(汉明)窗: (3)Hanning(汉宁)窗: (4)Bartlett(巴特雷特)窗: (5)Blackman(布累克曼)窗: (6)Kaiser(凯散)窗: 式中,——零阶贝塞尔函数,图4.3、4.4:窗函数的波形 ◆矩形窗主瓣最窄,频率分辨度 最高,频率泄漏最大; ◆Blackman窗频率分辨度最低, 频率泄漏最小。 ◆常用矩形窗、Hamming窗。2.窗口的长度 取样周期Ts=fs、窗口长度N、频率分辨率Δf的关系为: ◆Ts一定时,Δf随窗口N增加而减小, 即Δf提高,时间分辨率降低。 ◆如果窗口取短,频率分辨率下降,时间分辨率提高。 取样周期和频率分辨率矛盾,应根据需要选择合适的窗长。 时域分析: ◆N很大,语音高频受阻,短时能量变化很小,不能反映幅度变化; ◆N太小,滤波器通带宽,短时能量急剧变化,不能平滑能量函数。 通常一帧内应含有1~7个基音周期。 ◆基音周期变化大,从女性和儿童的2ms到老年男子的14ms ◆10kHz取样时,N折衷选择为100~2