预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108335699A(43)申请公布日2018.07.27(21)申请号201810050276.9(22)申请日2018.01.18(71)申请人浙江大学地址310058浙江省杭州市西湖区余杭塘路866号(72)发明人唐滢淇董树锋(74)专利代理机构杭州求是专利事务所有限公司33200代理人万尾甜韩介梅(51)Int.Cl.G10L17/08(2013.01)G10L17/02(2013.01)G10L25/24(2013.01)G10L25/21(2013.01)G10L25/78(2013.01)权利要求书1页说明书5页附图4页(54)发明名称一种基于动态时间规整和语音活动检测的声纹识别方法(57)摘要本发明公开了一种基于动态时间规整和语音活动检测的声纹识别方法,首先,采用语音活动检测方法录制语音,并对语音进行裁剪处理,滤除空白语音和异常语音;然后计算所得样本的梅尔倒谱系数,提取目标语音的特征;再者,录制模板语音,并使用动态时间归整算法计算差异度;最后所述语音录制方法录制待识别语音,并使用所述目标语音特征提取方法提取语音特征,再将目标语音逐一与已存在的模板语音进行比对,实现声纹识别的目标。与现有的声纹识别方法相比,本发明提出的声纹识别方法不需要过多的语音样本来建立声纹识别模型,同时对于低性能处理器和便携式设备友好,能够加快识别速度,减少资源占用,实现声纹离线识别。CN108335699ACN108335699A权利要求书1/1页1.一种基于动态时间规整和语音活动检测的声纹识别方法,其特征在于,包括以下步骤:步骤1:采用语音活动检测方法录制语音,并对语音进行裁剪处理,滤除空白语音和异常语音;获得语音样本;步骤2:计算步骤1所得样本的梅尔倒谱系数,提取上述语音样本的特征,即获得语音样本的二维矩阵;步骤3:反复进行步骤1、2多次,并使用动态时间归整算法计算各语音样本之间的差异度,确定模板语音;步骤4:使用步骤1所述方法录制目标待识别语音,并使用步骤2所述方法提取该目标语音的特征,再将目标语音逐一与步骤3获得的模板语音进行比对,实现声纹识别的目标。2.根据权利要求1所述的一种基于动态时间规整和语音活动检测的声纹识别方法,其特征在于:步骤1中,所述的语音活动检测方法采用基于短时能量和过零率的双门限检测法。3.根据权利要求1所述的一种基于动态时间规整和语音活动检测的声纹识别方法,其特征在于:所述的步骤3具体为:反复进行步骤1、2共至少3次,获得至少三个语音样本二维矩阵,使用动态时间归整算法计算两两之间的差异度,判断所有获得的差异度之中的最大值是否小于预先设定的阈值,若满足小于则记录差异度最小的两个模板特征矩阵,否则重新开始步骤3。4.根据权利要求3所述的一种基于动态时间规整和语音活动检测的声纹识别方法,其特征在于:所述的使用动态时间归整算法计算两两矩阵之间的差异度具体为计算两两矩阵之间的最短距离。5.根据权利要求1所述的一种基于动态时间规整和语音活动检测的声纹识别方法,其特征在于:所述的步骤4具体为:使用步骤1所述方法录制目标待识别语音,获得待测语音样本,使用步骤2所述方法提取上述待测样本的特征,再将目标语音逐一与经步骤3后获得的模板特征矩阵进行比对,采用动态时间归整算法计算目标语音和正在比对的模板语音的最短距离,即差异度,判断差异度是否小于预先设定的阈值,若小于,则退出判断,所述目标语音和正在比对的模板语音相匹配,确定相应声纹的匹配,达到声纹识别的目标;若不满足上述条件,则继续将目标语音与下一模板语音进行比对,直到完成与所有语音模板的比对。2CN108335699A说明书1/5页一种基于动态时间规整和语音活动检测的声纹识别方法技术领域[0001]本发明属于机器学习和人工智能中的声纹识别技术领域,涉及动态时间规整算法领域和语音活动检测方法领域;具体涉及一种能在便携式平台或低性能处理器上快速进行声纹识别的技术。背景技术[0002]声纹识别是生物识别技术的一种,也称为说话人识别。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。声纹识别就是把声信号转换成电信号,再用计算机进行识别的一种技术。[0003]声纹识别包括两个关键问题,一是特征提取,二是模式匹配。然而,目前使用的大多数声纹识别方法中,在模式匹配环节采用较为复杂的神经网络、隐式马尔可夫模型(HiddenMarkovModel,HMM)或多项式分类器等方法,这些方法首先需要占用较多的处理器资源和内存资源,其次,这些方法在训练阶段需要提供大量的语音数据,通过反复计算才能得到模型参数。对于便携式设备或低性能处理器无法满足快速建立模型并且识别的要求,再者,一