预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共62页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN105578115A(43)申请公布日2016.05.11(21)申请号201510977082.XG09B5/06(2006.01)(22)申请日2015.12.22G06Q50/20(2012.01)(71)申请人深圳市鹰硕音频科技有限公司地址518100广东省深圳市宝安区新安街道新安三路建达工业园1栋二楼202B(72)发明人李明全小虎卢启伟徐永键(74)专利代理机构北京和信华成知识产权代理事务所(普通合伙)11390代理人胡剑辉(51)Int.Cl.H04N7/15(2006.01)H04N5/76(2006.01)G10L25/48(2013.01)G10L25/69(2013.01)权利要求书6页说明书39页附图16页(54)发明名称一种具有语音评估功能的网络教学方法及系统(57)摘要提供一种语音评估方法以及使用该方法的网络教学方法及系统。根据本发明的语音评估方法,语音的音素状态被用来替代传统的梅尔倒谱系数(MFCC)训练出来的多高斯混合模型,并以此为特征来计算后验概率和零阶Baum-Welch统计量;利用多种语言的音素识别器以提取基于音素的语音特征。本发明表明这基于多种语言提取的特征在捕捉非本土发音的信息时是互补的并且基于音素持续时间的特征在自动本土口音评估中是有效的。最终通过融合系统后,本发明的方法在开发集和测试集上达到了0.5706和0.6089的Spearman相关系数。此相关系数表明,本发明提出的方法在口语评估中是十分准确并有效的。CN105578115ACN105578115A权利要求书1/6页1.一种语音评估方法,包括以下步骤:步骤1),语音信号的采集,形成待评估音频数据;步骤2),语音特征序列的提取,提取所述音频数据的3种特征:梅尔倒谱多高斯后验概率MGPP特征、音素后验概率PPP特征和基于音素持续时间的语音特征;步骤3),特征序列层面上的融合:分别融合所述PPP特征和所述基于音素持续时间的语音特征,得到融合后的PPP特征和融合后的基于音素持续时间的特征;由于PPP特征和基于音素持续时间特征都是基于5种不同语言的音素上提取的,所以每个基于音素的特征都会产生5种不同的子特征,最后融合5种子特征,得到最终的PPP特征和基于音素持续时间的语音特征;步骤4),评分层面上的融合:采用两层支持向量回归SVR来进行评分层面的融合;步骤5),性能评估:采用Spearman系数来体现机器评估打分与人类评价打分相关性,以此表示特征对于自动本地口音评估的有效性。2.根据权利要求1所述的语音评估方法,其特征在于,所述步骤2)中语音特征序列的提取过程为:步骤22),MGPP特征的提取方法:采用UBM模型对每个音频数据提取MGPP特征,具体过程为,训练具有M个高斯的GMM-UBM模型,它们的参数为λ:λi=ωi,μi,∑i,i=1,...,M(1)其中,λi为第i个高斯的参数集合,其中有3个参数,分别为ωi是该高斯权重,μi是该高斯均值和Σi是该高斯方差;对于每个基于帧的MFCC特征χt,其后验概率由以下公式计算得出:该后验概率表示MFCC特征的χt这一帧属于第i个高斯的概率,MGPP特征如下定义:其中,公式(3)中计算的是零阶Baum-Welch统计量,公式(4)采用b的平方根作为MGPP特征。3.根据权利要求2所述的语音评估方法,其特征在于,所述步骤2)中语音特征序列的提取过程为:步骤23),PPP特征的提取方法:在提取PPP特征时,采用语音的音素状态而不是MFCC训练出来的高斯为特征来计算后验概率,同样采用步骤22)中的公式(3)和(4)来提取PPP特征。4.根据权利要求1所述的语音评估方法,其特征在于,所述步骤2)中语音特征序列的提取过程为:步骤24),基于音素持续时间的特征的提取方法:包括7种基于音素持续时间的特征及2CN105578115A权利要求书2/6页相关计算方式:特征A),语音的音素倒数率(ReciROS):为单位时间内语音所包含音素个数的倒数;特征B),暂停音素的平均持续时间(AvgPauDur):为语音中暂停音素,比如静音,平均的持续时间;特征C),有效音素持续时间比(VoiPhoDurRatio):为除去了暂停音素的有效音素的持续时间总和与所有音素持续时间总和的比值;特征D),有效音素数目比(VoiPhoNumRatio):为除去暂停音素的有效音素个数与所有音素个数的比值;特征E),音素持续时间本土差异(PhoDurNatDiff):为本土发音音素持续时间与观测音素持续时间的差值;特征F),音素持续时间非本土差异(PhoDurNonDiff):为非本土发音音素持续时间与观测音素持续时间的差值;特征G),音素频率信息(PhoF