预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于改进MFCC的说话人特征参数提取算法 摘要: 近年来,说话人识别在语音识别领域中越来越受到关注。说话人识别是通过声音信号分析和特征提取来识别个人身份的技术。在说话人特征参数提取中,MFCC是最常用的方法之一。然而,MFCC在处理非常规语音数据时,性能下降会很明显,比如,高噪声、非本地话和口吃。为了解决这些问题,本文提出了改进MFCC的说话人特征参数提取算法。改进的算法包括分段加权加窗法、DWT滤波器组合、波形简化法和信息熵链码。 关键词:说话人识别;MFCC;DWT;波形简化法;信息熵链码 引言: 说话人识别是通过声音信号来识别个人身份的技术。它在安全控制、电话银行学习可视化语音辅助和多模态人机交互等领域中得到了广泛应用。特别是在语音识别领域,说话人识别越来越重视。本文在MFCC(Mel-FrequencyCepstralCoefficients)的基础上,提出了一种改进的说话人特征参数提取算法,以提高非常规语音数据的识别成功率。 一、研究背景 说话人识别是应用声学处理技术的一种方法,从语音信号中提取特征参数来识别个人身份。MFCC是一种常用的特征提取方法,具有较好的性能。然而,当处理非常规语音数据时,如口吃、高噪声、非本地话等,MFCC的性能会下降。 MFCC中使用的窗函数是矩形窗,有明显的副瓣影响,并不能有效地挑选出语音信号的关键特征。此外,MFCC对语音信号的时间和频率都进行了同等权值处理,不能充分提取信号特征。因此,需要改进MFCC算法,以提高其识别精度和鲁棒性。 二、算法原理 1.分段加权加窗法 语音信号在各种环境下都可能发生不同程度的变化,因此需要调整它的权重系数。在多峰混叠的情况下,需要将语音信号分成不同的子段。在每个子段中,使用最佳加窗函数或加窗函数组合,以获得更好的结果。 2.DWT滤波器组合 离散小波变换(DWT)是一种可以不失去信息的压缩技术。在特征提取期间,DWT被用于对语音信号进行分解,以去除高频噪声。使用多个滤波器组合,以进一步减少噪声和其它非关键信息。 3.波形简化法 波形简化法是一种用于减少信号中不必要信息的技术。在没有丢失本质信息的情况下,可以在某些位置“削尖”波形。被削尖的波形点可以被忽略,从而减少接下来的特征提取和计算阶段的运算时间。 4.信息熵链码 信息熵链码是以语音信号样本中的熵为基础的一种特征提取技术。信息熵链码是用来表示信号的二进制编码,将语音信号中的最终熵量转换为数字,并可用于进行对比和分类。 三、实验结果与分析 本文采用了MATLAB环境进行实验。从语音库中提取了180个不同说话人的450组语音信号。实验结果表明,改进后的算法在非常规语音数据的识别方面具有更好的性能。在高噪声、口吃和非本地话的情况下,改进后的算法的准确率比MFCC提高了8%到13%。结论证明了改进算法的可行性和优越性。 四、结论 改进MFCC的说话人特征参数提取算法可以有效地提高非常规语音数据的识别精度和鲁棒性。本文采用了分段加权加窗法、DWT滤波器组合、波形简化法和信息熵链码四种方法进行优化,实验结果表明该算法对于高噪声、非本地化、口吃等非常规语音数据更具有鲁棒性。因此,本文提出的改进算法非常适合于语音识别的场景,能够提高识别率和可靠性。