预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共35页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

语音端点检测的目的和意义 基于短时能量和短时平均过零率的端点检测 基于倒谱特征的端点检测 基于熵的端点检测 基于复杂性的端点检测(KC复杂性和C0复杂性) 不同语音端点检测方法的实验结果对比 语音端点检测的目的和意义基于短时能量和短时平均过零率的端点检测短时平均过零率 短时过零表示一帧语音信号波形穿过横轴(零电平)的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值的改变符号称为过零。过零率就是样本改变符号次数。 信号{x(n)}的短时平均过零率定义为: 式中,sgn为符号函数,即: 过零率有两类重要的应用:第一,用于粗略地描述信号的频谱特性;第二,用于判别清音和浊音、有话和无话。从上面提到的定义出发计算过零率容易受低频干扰,特别是50Hz交流干扰的影响。解决这个问题的办法,一个是做高通滤波器或带通滤波,减小随机噪声的影响;另一个有效方法是对上述定义做一点修改,设一个门限T,将过零率的含义修改为跨过正负门限。 于是,有定义: 检测方法 利用过零率检测清音,用短时能量检测浊音,两者配合。首先为短时能量和过零率分别确定两个门限,一个是较低的门限数值较小,对信号的变化比较敏感,很容易超过;另一个是比较高的门限,数值较大。低门限被超过未必是语音的开始,有可能是很短的噪声引起的,高门限被超过并且接下来的自定义时间段内的语音超过低门限,意味着信号开始。 此时整个端点检测可分为四段:静音段、过渡段、语音段、结束。实验时使用一个变量表示当前状态。静音段,如果能量或过零率超过低门限,就开始标记起始点,进入过渡段。过渡段当两个参数值都回落到低门限以下,就将当前状态恢复到静音状态。而如果过渡段中两个参数中的任一个超过高门限,即被认为进入语音段。处于语音段时,如果两参数降低到门限以下,而且总的计时长度小于最短时间门限,则认为是一段噪音,继续扫描以后的语音数据,否则标一记结束端点。 基于倒谱特征的端点检测 对于一对谱密度函数S(w)与S’(w),利用Parseval定理,其对数谱的均方距离可用倒谱距离表示: 式中,Cn与C’n分别代表谱密度函数S(w)与S’(w)的倒谱系数。 方法: 倒谱距离的测量法步骤类似于基于能量的端点检测,只是将倒谱距离代替短时能量来作为特征参数。首先,假定前几帧信号是背景噪声,计算这些帧的倒谱系数,利用前几帧倒谱系数的平均值可估计背景噪声的倒谱系数,噪声倒谱系数的近似值可按下述规则进行更新,即当前帧被认为是非语音帧: 式中为噪声倒谱系数的近似值,为当前测试帧的倒谱系数,p为调节参数。 倒谱距离可用下式近似计算: 式中对应于的噪声倒谱系数,计算所有测试帧与背景噪声之间的倒谱距离可得到倒谱距离轨迹类似于基于能量的端点检测过程利用倒谱距离轨迹可检测语音的端点。 基于熵的端点检测由于语音信号的幅度相对于背景噪声而言其幅度的动态范围大。因此可以认为语音信号在范围(一M,M)中的随机事件大,也就是熵值大,而无声状态(信号中只含噪声)的幅度小、分布相对集中,因而熵值小。 按照以上原理,在构造出了熵函数之后就可只计算出每帧信号的信息熵(幅度熵)。假设语音信号S(n)的帧长为N,在一帧语音中最大幅度值与最小幅度值分别为M、一M,分别统计这一区域中S(n)=Si,Si∈(一M,M)出现的次数ni,并将比例ni/N作为出现Si这一值的概率:Pi=ni/N。将Pi代入前面的熵函数公式,即可得到语音信号的熵函数曲线。背景噪声信号的幅度熵的值较小而浊音信号的幅度熵值比较大,因此可以进行端点检测。首先通过实验确定一个阈值h,然后对每帧语音的熵值进行比较,认为熵值大于等于h时为语音帧,小于h则为无声帧,即可检测出语音信号的端点。 基于谱熵的检测方法 谱熵方法与信息嫡方法有着相似之处,信息熵方法是在时域内对信号进行熵值统计和计算,谱熵检测方法是从语音信号的频域来进行计算,然后从频谱分布概率来进行语音端点的检测。 谱熵的计算方法如下:首先通过快速傅立叶变换(FFT)得到每一帧信号的频谱,其中每个频谱向量的系数表明了该帧信号在该频率点的大小分布。然后计算每个频谱分量在每帧总能量中所占的比例,将其作为信号能量集中在某频率点的概率,其概率密度函数定义为: 式中,S(fi)是fi的能量,Pi是相应的概率密度,N是FTF中频率成分的所有点数。由于语音信号的绝大部分能量集中200Hz~350OHZ之间,所以,为了集中计算谱熵以增加语音和非语音在概率密度函数中的区分性,我们把200HZ~3500Hz之外的频率分量置为0,即: 相应的每一帧的谱熵定义如下: 通过熵函数就可以计算每帧语音信号的谱熵,并跟阈值比较,就可