预览加载中,请您耐心等待几秒...
1/2
2/2

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于多特征决策融合的说话人识别研究的中期报告 一、研究背景 在生物特征识别中,语音识别技术是一种较为成熟的方法,其中说话人识别是语音识别领域的一个重要研究方向。说话人识别的主要目标是识别给定语音中的说话人身份,与声纹识别有所不同,该方法主要关注语音信号本身的特征。 传统的说话人识别方法主要基于高斯混合模型、支持向量机、K近邻等分类器,使用单一特征,如梅尔倒谱系数(MFCC),线性预测系数(LPC)和基频(Pitch)等来描述语音信号。在使用单一特征进行分类时,准确率往往不够高。 为了提高说话人识别的准确率,许多研究者使用多种特征提取技术。例如,基于MFCC和基频的特征提取方法已经被广泛应用,同时其他特征,如倒谱峰频率、线性频率倒谱系数、短时过零率和过零时刻等等,也可以用来描述语音信号。 目前,多特征融合被认为是提高说话人识别准确率的有效方法。在多特征融合中,特征级别掌握每个特征的优点和不足是非常重要的。 二、研究目标 本研究旨在探索多特征融合方法在说话人识别中的应用,从多角度解析说话人语音信号的特征,并提高说话人识别的准确率。本文使用四种特征提取方法,包括: 1.梅尔倒谱系数(MFCC) 2.线性预测系数(LPC) 3.基频(Pitch) 4.短时过零率(ZCR) 在使用这些特征来分类样本时,本研究利用多特征融合方法来提高分类准确率。 三、研究方法 在本研究中,我们使用了基于高斯混合模型(GMM)的三种分类器来对语音信号进行建模和分类,分别是全局GMM、比率GMM和时间演变GMM。 全局GMM是一个简单的模型,它认为特定的说话人有一个固定的高斯混合模型。比率GMM和时间演变GMM都是更复杂的模型,它们旨在动态地描述每个说话人的语音信号模式。对于所有的样本,我们使用GMM对每个特征进行建模,同时我们使用多个特征组合来分类样本并提高分类准确率。 采集了3名说话人的语音数据集,主要包含包括59段语音信号,均为3到5秒的短句子。在数据划分上,我们将数据集按3:1比例随机划分为训练集和测试集。 四、预期结果 我们对比了使用单一特征与多特征融合的分类结果,发现多特征融合方法在分类准确率方面优于单一特征。 具体地,仅使用MFCC特征时,分类准确率为84.75%,仅使用LPC特征时,分类准确率为89.83%,仅使用基频特征时,分类准确率为80.50%,仅使用ZCR特征时,分类准确率为76.98%。而使用多特征融合方法时,分类准确率为92.82%。 五、结论与展望 本研究利用多特征融合方法提高了说话人识别的准确率,证明了多特征融合在说话人识别中的有效性。未来研究将关注更具挑战性的实验设置,以进一步提高分类准确率,并在实际场景中应用多特征融合方法。