预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107039037A(43)申请公布日2017.08.11(21)申请号201710264774.9(22)申请日2017.04.21(71)申请人南京邮电大学地址210003江苏省南京市鼓楼区新模范马路66号(72)发明人邓立新周炳良洪民江(74)专利代理机构江苏爱信律师事务所32241代理人赵赞赞(51)Int.Cl.G10L15/12(2006.01)G10L15/06(2013.01)G10L15/02(2006.01)权利要求书2页说明书4页附图2页(54)发明名称一种基于DTW的孤立词语音识别方法(57)摘要本发明公开了一种基于DTW的孤立词语音识别方法,该方法通过截取测试语音特征矢量起始部分长度与库模板矢量进行最优路径匹配,并且匹配后只保留失真度较小的部分库模板矢量继续进行下一次最优路径匹配,如此反复截取待测语音特征矢量的起始不同部分进行匹配与模板矢量保留,直至保留模板矢量唯一。这种算法的实现,在保证识别精度较高的情况下,能大幅减少孤立词语音识别系统的计算开销,有效提高孤立词语音识别系统的识别效率。CN107039037ACN107039037A权利要求书1/2页1.一种基于DTW的孤立词语音识别方法,基于传统的语音训练模式,改进了语音识别阶段,其特征在于,先截取测试语音特征矢量的起始部分长度,并从起点开始搜索它们与各个模板矢量的最优匹配路径,采用松弛端点检测的方法找到最优匹配路径的止点并求出各自的最小累积距离D,即找出各模板矢量与截取语音特征矢量匹配度最大的起始部分长度并求出相应的D,然后选择D相对较小的部分模板保留下来,排除掉D相对较大的模板;如此循环采用这种方法对剩余的模板进行部分长度匹配和排除,直至剩余模板数量唯一。2.如权要求1所述的方法,其特征在于,识别阶段具体步骤如下:步骤1:将通过训练得到语音训练模板存入内存,总数记为c,同时进行识别阶段预设工作,设置测试语音特征矢量的截取方式,包括截取次数m和各次截取长度a1,a2…am即百分比;设置各次最优路径匹配后训练模板的保留个数b1,b2…bm-1,百分比且最后一次取一个模板,bm可忽略;步骤2:利用测试语音特征矢量与训练模板矢量最优匹配路径的全局限制条件,排除部分训练模板,保留满足条件的训练模板;条件公式如下:其中N为测试语音特征矢量长度,M为训练模板矢量长度;步骤3:记保存测试语音特征矢量与某一保留训练模板矢量帧匹配失真度矩阵为d和累积失真度矩阵为D=Realmax,其中d和D的大小均为N*M且横向表示测试语音帧,纵向表示训练模板帧。计算测试语音特征矢量第一帧与上述训练模板矢量第一帧的帧失真度,并保存到d(1,1)和D(1,1)中;同理,计算测试语音特征矢量第一帧与所有保留训练模板矢量第一帧的帧失真度,并分别保存到各自的帧失真度矩阵d与累积失真度矩阵D相同的位置;步骤4:满足图4全局路径限制,搜索出训练模板矢量中与测试语音特征矢量第s-f帧相交的帧,其中四舍五入取整,n为截取迭代次数,初值n=1且a0=0;步骤5:计算搜索到的相交帧的帧失真度,并利用如下公式递推相交帧的累积失真度,分别保存到d与D相应的位置,其中累积失真度公式满足图5的局部路径限制方式;累积失真度公式:D(x,y)=d(T(x),R(y))+min{D(x-1,y),D(x-1,y-1),D(x-1,y-2)}其中T(x)为测试语音特征矢量第x帧,R(y)为训练模板矢量第y帧;步骤6:搜索累积失真度矩阵f列中最小的值,记为该训练模板矢量与测试语音特征矢量部分匹配失真度Dmin;步骤7:利用步骤4~6,计算并搜索出测试语音特征矢量与所有保留训练模板矢量的部分匹配失真度Dmin。将所有训练模板矢量按照得到的Dmin进行从小到大排序,保留排序前c*bn个模板,,四舍五入取整;步骤8:判决c*bn>1?若是,则转入步骤9执行;若否,则转入步骤10执行;步骤9:检测n<m?若是,则截取迭代次数n=n+1,转入步骤4执行;2CN107039037A权利要求书2/2页若否,则转入步骤10执行;步骤10:将步骤7中已排序的训练模板矢量中的第一个训练模板矢量表示的语音判决为测试语音,结束。3CN107039037A说明书1/4页一种基于DTW的孤立词语音识别方法技术领域[0001]本发明属于语音识别技术领域,特别是涉及一种基于DTW的孤立词语音识别方法。背景技术[0002]语音识别即让机器接收、识别和理解语音信号,能够“听懂”会话中的语音语义并执行人类意图。常用的识别方法包括动态时间规整(DTW)、隐马尔科夫模型(HMM)和人工神经网络(ANN)等。在孤立词语音识别中,动态时间规整是最简单有效的方法。DTW算法基于动态规划(