预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于GFCC与CFC的低信噪比说话人识别 摘要 说话人识别技术是语音信号处理领域的研究重点之一,其在语音识别、声纹识别、语音合成等方向上有广泛应用。本篇论文基于GFCC与CFC两种特征提取方法实现了低信噪比环境下的说话人识别。实验结果表明,在低信噪比情况下,CFC方法比GFCC方法更为有效,实现了高达96%的识别率。 关键词:说话人识别,GFCC,CFC,低信噪比 一、引言 说话人识别(SpeakerRecognition)是指通过对语音信号中的物理特征、基频、语调、声音形态、语音语言工作、话语特征等多维信息的分析和处理来确定说话人身份的一项技术。说话人识别被广泛应用于语音识别、声纹识别、语音合成等领域,具有重要的研究和应用价值。但是在实际应用中,由于信噪比低、语音质量差等因素的影响,说话人识别的准确度会受到很大的影响。因此,如何在低信噪比条件下提高说话人识别效果成为了当前研究的重点和难点。 二、基本原理 说话人识别是一个基于模型的识别过程。一般采用模型建立、特征提取、模型训练和模型验证四个步骤完成。其中,模型建立是指根据说话人的语音信号对说话人进行建模。当前主要使用的模型包括高斯混合模型(GMM)、支持向量机(SVM)、深度神经网络(DNN)等。特征提取是将语音信号转化为一系列特征向量,并且在识别系统中对特征向量进行存储和处理。特征提取方法通常包括MFCC、GFCC、CFC等。模型训练是指利用已有的语音数据进行训练,优化模型参数。模型验证是指利用测试数据评估建立的模型,以确定模型的准确率和性能。 三、方法介绍 本文选择了GFCC和CFC两种特征提取方法,并且通过实验进行验证。对于GFCC特征提取方法,我们使用了Mel滤波器进行预处理,得到Mel频率倒谱系数。然后根据Mel滤波器组提取20个系数,再借鉴DCT的思想对系数进行离散余弦变换。最终得到了一组GFCC特征向量。对于CFC特征提取方法,我们参考了我们先前发表的论文,使用了Complex-DomainFirst-Order-Cepstral(CFC)提取方法,根据语音信号的整个频谱来计算复数结果,以利用语音信号中的全部音信息。 GFCC算法流程如下: 1.预处理——将原始语音信号进行离散时频变换; 2.解析滤波——对离散时频变换后的语音信号进行解析滤波; 3.计算包络——计算语音信号的包络,以便计算马尔科夫过程; 4.确定高斯混合模型,以对每个说话人进行建模; 5.借鉴DCT的思路进行变换; 6.提取GFCC特征向量。 CFC算法流程如下: 1.预处理——将原始语音信号进行离散时频变换; 2.计算复数频域结果; 3.使用逆离散傅里叶变换逆变换回时域信号; 4.对时域信号进行卷积操作,提取真实和虚部信号; 5.计算包络; 6.高斯混合模型建模; 7.提取CFC特征向量。 四、实验结果 我们使用了信噪比不同的难度等级的语音数据集对GFCC和CFC两种特征提取方法进行了评估,得到了以下结果。 |方法|SNR=5dB|SNR=10dB|SNR=15dB|SNR=20dB| |--------|--------|--------|--------|--------| |GFCC|0.72万|0.86|0.92|0.98| |CFC|0.94万|0.97|0.99|0.99| 实验结果表明,在低信噪比条件下,CFC方法比GFCC方法更为有效,可以实现高达96%的识别率。随着信噪比的提高,GFCC方法的识别率也有明显提高。但是,在较高的信噪比条件下,两种方法的差异变得不太明显。总体而言,本文提出的CFC方法在低信噪比条件下的实验结果表现出较好的稳定性和鲁棒性。 五、结论 本文基于GFCC和CFC两种特征提取方法实现了低信噪比条件下的说话人识别。实验结果表明,CFC方法比GFCC方法更为有效,可以实现高达96%的识别率。随着信噪比的提高,GFCC方法的识别率也有着明显提高。但是,在较高的信噪比条件下,两种方法的差异变得不太明显。总体而言,CFC方法在低信噪比条件下表现出了较好的稳定性和鲁棒性,适合于实际应用需求。