预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111554306A(43)申请公布日2020.08.18(21)申请号202010336788.9G10L25/24(2013.01)(22)申请日2020.04.26G10L25/12(2013.01)(71)申请人兰州理工大学地址730050甘肃省兰州市七里河区兰工坪287号(72)发明人赵宏岳鲁鹏孔东一郭岚傅兆阳郑厚泽刘璐党育马栋林(74)专利代理机构广州蓝晟专利代理事务所(普通合伙)44452代理人栾洋洋(51)Int.Cl.G10L17/04(2013.01)G10L17/02(2013.01)G10L17/08(2013.01)权利要求书2页说明书4页附图1页(54)发明名称一种基于多特征的声纹识别方法(57)摘要本发明公开了一种基于多特征的声纹识别方法,包括步骤:数据预处理,将语音语料进行处理;特征提取,将梅尔频率倒谱系数MFCC和感知线性预测PLP进行动态线性融合;特征处理,利用PCA主成分分析法将动态特征进行降维处理;模型训练,利用I-Vector说话人识别模型对动态特征进行训练;打分判决,利用概率线性判决分析算法PLDA进行似然对数比打分,并根据得分的大小判断出两个集合是否为同一个说话人。本发明动态融合MFCC和PLP两种说话人特征,能更好地包含说话人信息,并通过主成分分析法PCA降低融合特征的维度,计算效率高,同时,不依赖于在线获取的说话人数据,可以单独、快速地完成说话人的识别。CN111554306ACN111554306A权利要求书1/2页1.一种基于多特征的声纹识别方法,其特征在于,包括步骤S1:数据预处理,将语音语料利用Kaldi语音识别工具进行处理;S2:特征提取,然后将梅尔频率倒谱系数MFCC和感知线性预测PLP进行动态线性融合,所述动态线性融合包括步骤:计算梅尔频率倒谱系数MFCC和感知线性预测PLP特征的维度,将MFCC和PLP特征参数在同一个矩阵中进行动态融合处理,计算如公式(1)所示,Fm×n=[(A1,A2,L,Am),(B1,B2,L,Bn)](1)其中,A和B分别表示MFCC和PLP特征参数,m和n分别表示MFCC、PLP的特征参数阶数;S3:特征处理,使用PCA主成分分析法将动态线性融合后获得的动态特征进行降维处理;S4:模型训练,使用I-Vector说话人识别模型对降维后的动态特征进行训练;S5:打分判决,使用PLDA概率线性判决分析算法进行似然对数比打分,并根据得分的大小判断出两个集合是否为同一个说话人。2.如权利要求1所述的基于多特征的声纹识别方法,其特征在于,所述步骤S1包括步骤S11,使用TIMIT语音数据库准备语音语料;S12,使用Kaldi生成spk2utt、utt2spk和wav.scp文件准备数据部分。3.如权利要求1所述的基于多特征的声纹识别方法,其特征在于,步骤S3中所述的降维处理实现包括步骤S31,选取经过线性融合处理后的动态特征,采用PCA主成分分析法对其进行降维处理,计算如公式(2)所示,ωPCA=[ω1ω2LωM](2)求得前M个最大特征值对应特征向量的投影矩阵,计算如公式(3)所示,TσF=FF(3)其中ω表示单位向量,σF表示特征矩阵的协方差,且为对角矩阵;S32,将σF进行线性变换,计算如公式(4)所示,其中,ι是特征值λ对应的归一化特征向量;S33,将ι代入公式(5),寻找由前p个最大特征值对应的特征向量所生成的投影矩阵ιPCA,ιPCA=[ι1ι2Lιp](5)其中,ιPCA用于将所有特征向量映射到不相关的特征空间,将提取的特征经过PCA算法变换后用于模型训练,计算如公式(6)所示,4.如权利要求1所述的基于多特征的声纹识别方法,其特征在于,步骤S4中所述的模型训练包括步骤:采用I-Vector说话人识别模型将与说话人无关的干扰信息进行分离,计算如公式(7)所示,2CN111554306A权利要求书2/2页M=μ+Tw(7)其中μ表示与说话者无关且信道无关的超向量,T是一个低秩矩阵,w则为服从标准正态分布的随机向量。5.如权利要求1所述的基于多特征的声纹识别方法,其特征在于,步骤S5中所述的概率线性判别分析算法实现包括步骤S51,将I-Vector进行进一步因子分析,计算如公式(8)所示,Pi=m+Φβ+εγ(8)其中m为训练数据全局均值,Φ为描述说话人类间差异的子空间矩阵,β是满足标准正态分布特征的隐含因子,且与说话人身份相关,εγ是对角矩阵∑的残余项;S52,在决策打分环节,依次用η1、η2进行描述,两者的对数似然比的计算如公式(9)所示,其中Rs表示η1和η2来自同一个说话人,Rd表示η1和η2来自不同的说话人。3CN111554306A说明书1/4页一