预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号(10)申请公布号CNCN103578466103578466A(43)申请公布日2014.02.12(21)申请号201310557124.5(22)申请日2013.11.11(71)申请人清华大学地址100084北京市海淀区北京市100084-82信箱(72)发明人张卫强刘加(74)专利代理机构北京众合诚成知识产权代理有限公司11246代理人陈波(51)Int.Cl.G10L15/04(2013.01)权权利要求书2页利要求书2页说明书4页说明书4页附图1页附图1页(54)发明名称基于分数阶傅里叶变换的语音非语音检测方法(57)摘要本发明公开了语音信号处理领域的一种基于分数阶傅里叶变换的语音非语音检测方法。其技术方案是,首先对音频信号分帧,然后进行零均值化和加窗处理,接着对每帧信号进行不同阶次的分数阶傅里叶变换,得到其分数阶频谱,然后计算分数阶频谱熵,选择各个阶次中最大的分数阶频谱熵,与阈值进行比较即可得到判决结果。该方法处理方法统一,流程简单,可以有效提高提高语音非语音检测的性能;可以实现音频信号中静音、噪音、音乐等“垃圾”信号的有效过滤。CN103578466ACN10357846ACN103578466A权利要求书1/2页1.一种基于分数阶傅里叶变换的语音非语音检测方法,其特征在于,所述方法具体包括以下步骤:步骤1:对音频信号按帧长25ms,帧移10ms进行分帧处理;步骤2:对分帧处理后的每帧信号进行零均值化和加窗处理;步骤3:在步骤2的基础上,对每帧信号进行不同阶次的分数阶傅里叶变换,得到不同阶次的分数阶频谱;步骤4:对每一阶次的分数阶频谱,计算其分数阶频谱熵;步骤5:对不同阶次的分数阶频谱熵取最大值,并将最大值与设定的阈值进行比较,如果大于阈值,则判决为非语音;否则,判决为语音。2.根据权利要求1所述的方法,其特征在于,所述加窗处理指的是对分帧处理后的每帧信号加汉明窗或汉宁窗。3.根据权利要求1所述的方法,其特征在于,所述不同阶次的设定为:阶次从0到1,每隔0.05进行一次。4.根据权利要求1所述的方法,其特征在于,所述对每帧信号进行不同阶次的分数阶傅里叶变换的公式为:其中,x(t)是加窗后的信号,Xp(u)是信号p阶傅里叶变换,Kp(u,t)是p阶傅里叶变换的核函数,其定义为n为整数,是归一化系数,α=pπ/2;p为变换的阶次。5.根据权利要求1所述的方法,其特征在于,所述对每一阶次的分数阶频谱,计算其分数阶频谱熵的过程为:步骤401:根据分数阶频谱子带能量公式计算分数阶频谱子带能量;所述分数阶频谱子带能量公式为:其中,Lm和Um是第m个子带的下限和上限频率,共M个子带,Xp(u)为阶次为P时的分数阶频谱;步骤402:计算分数阶频谱总能量:步骤403:计算分数阶频谱熵:2CN103578466A权利要求书2/2页3CN103578466A说明书1/4页基于分数阶傅里叶变换的语音非语音检测方法技术领域[0001]本发明属于语音信号处理领域,尤其涉及一种基于分数阶傅里叶变换的语音非语音检测方法。背景技术[0002]在语音信号处理中,音频数据的预处理是非常重要的一个环节。其功能是去除语音信号之外的非语音信号,具体包括静音、噪声、音乐等,从而得到较为“干净”的语音数据,供后续模块进行处理。[0003]目前,对于静音、噪声、音乐等处理有各自的算法。例如对于静音处理,有较成熟的VAD(语音活动检测)算法,如G.723.1、子带频谱熵等算法;对于噪声处理,有较成熟的降噪或去噪算法,如小波降噪算法、维纳滤波算法;对于音乐处理,有语音音乐分类算法,如MLER(改进的低能量率)算法、GMM(高斯混合模型)算法。这些算法可以分别应对不同的非语音类型,在构建实际应用系统时,一般需要将这些模块进行串联,从而达到处理各种非语音的目的。但是这样带来的问题是系统实现复杂,处理框架不统一。发明内容[0004]针对背景技术中提到的目前存在的语音信号处理方法无法达到处理各种非语音的问题,本发明提出了一种基于分数阶傅里叶变换的语音非语音检测方法。[0005]一种基于分数阶傅里叶变换的语音非语音检测方法,其特征在于,所述方法具体包括以下步骤:[0006]步骤1:对音频信号按帧长25ms,帧移10ms进行分帧处理;[0007]步骤2:对分帧处理后的每帧信号进行零均值化和加窗处理;[0008]步骤3:在步骤2的基础上,对每帧信号进行不同阶次的分数阶傅里叶变换,得到不同阶次的分数阶频谱;[0009]步骤4:对每一阶次的分数阶频谱,计算其分数阶频谱熵;[0010]步骤5:对不同阶次的分数阶频谱熵取最大值,并将最大值与设定的阈值进行比较,如果大于阈值,则判决为非语音;否则,判决为语音。[0