一种具有语音评估功能的网络教学方法及系统-豆柴文库

一种具有语音评估功能的网络教学方法及系统.pdf

2023-06-25

10金币

2.5MB

62页

一只****呀淑

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共62页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN105578115A(43)申请公布日2016.05.11(21)申请号201510977082.XG09B5/06(2006.01)(22)申请日2015.12.22G06Q50/20(2012.01)(71)申请人深圳市鹰硕音频科技有限公司地址518100广东省深圳市宝安区新安街道新安三路建达工业园1栋二楼202B(72)发明人李明全小虎卢启伟徐永键(74)专利代理机构北京和信华成知识产权代理事务所(普通合伙)11390代理人胡剑辉(51)Int.Cl.H04N7/15(2006.01)H04N5/76(2006.01)G10L25/48(2013.01)G10L25/69(2013.01)权利要求书6页说明书39页附图16页(54)发明名称一种具有语音评估功能的网络教学方法及系统(57)摘要提供一种语音评估方法以及使用该方法的网络教学方法及系统。根据本发明的语音评估方法，语音的音素状态被用来替代传统的梅尔倒谱系数(MFCC)训练出来的多高斯混合模型，并以此为特征来计算后验概率和零阶Baum-Welch统计量；利用多种语言的音素识别器以提取基于音素的语音特征。本发明表明这基于多种语言提取的特征在捕捉非本土发音的信息时是互补的并且基于音素持续时间的特征在自动本土口音评估中是有效的。最终通过融合系统后，本发明的方法在开发集和测试集上达到了0.5706和0.6089的Spearman相关系数。此相关系数表明，本发明提出的方法在口语评估中是十分准确并有效的。CN105578115ACN105578115A权利要求书1/6页1.一种语音评估方法，包括以下步骤：步骤1)，语音信号的采集，形成待评估音频数据；步骤2)，语音特征序列的提取，提取所述音频数据的3种特征：梅尔倒谱多高斯后验概率MGPP特征、音素后验概率PPP特征和基于音素持续时间的语音特征；步骤3)，特征序列层面上的融合：分别融合所述PPP特征和所述基于音素持续时间的语音特征，得到融合后的PPP特征和融合后的基于音素持续时间的特征；由于PPP特征和基于音素持续时间特征都是基于5种不同语言的音素上提取的，所以每个基于音素的特征都会产生5种不同的子特征，最后融合5种子特征，得到最终的PPP特征和基于音素持续时间的语音特征；步骤4)，评分层面上的融合：采用两层支持向量回归SVR来进行评分层面的融合；步骤5)，性能评估：采用Spearman系数来体现机器评估打分与人类评价打分相关性，以此表示特征对于自动本地口音评估的有效性。2.根据权利要求1所述的语音评估方法，其特征在于，所述步骤2)中语音特征序列的提取过程为：步骤22)，MGPP特征的提取方法：采用UBM模型对每个音频数据提取MGPP特征，具体过程为，训练具有M个高斯的GMM-UBM模型，它们的参数为λ：λi＝ωi,μi,∑i,i＝1,...,M(1)其中，λi为第i个高斯的参数集合，其中有3个参数，分别为ωi是该高斯权重，μi是该高斯均值和Σi是该高斯方差；对于每个基于帧的MFCC特征χt，其后验概率由以下公式计算得出：该后验概率表示MFCC特征的χt这一帧属于第i个高斯的概率，MGPP特征如下定义：其中，公式(3)中计算的是零阶Baum-Welch统计量，公式(4)采用b的平方根作为MGPP特征。3.根据权利要求2所述的语音评估方法，其特征在于，所述步骤2)中语音特征序列的提取过程为：步骤23)，PPP特征的提取方法：在提取PPP特征时，采用语音的音素状态而不是MFCC训练出来的高斯为特征来计算后验概率，同样采用步骤22)中的公式(3)和(4)来提取PPP特征。4.根据权利要求1所述的语音评估方法，其特征在于，所述步骤2)中语音特征序列的提取过程为：步骤24)，基于音素持续时间的特征的提取方法：包括7种基于音素持续时间的特征及2CN105578115A权利要求书2/6页相关计算方式：特征A)，语音的音素倒数率(ReciROS)：为单位时间内语音所包含音素个数的倒数；特征B)，暂停音素的平均持续时间(AvgPauDur)：为语音中暂停音素，比如静音，平均的持续时间；特征C)，有效音素持续时间比(VoiPhoDurRatio)：为除去了暂停音素的有效音素的持续时间总和与所有音素持续时间总和的比值；特征D)，有效音素数目比(VoiPhoNumRatio)：为除去暂停音素的有效音素个数与所有音素个数的比值；特征E)，音素持续时间本土差异(PhoDurNatDiff)：为本土发音音素持续时间与观测音素持续时间的差值；特征F)，音素持续时间非本土差异(PhoDurNonDiff)：为非本土发音音素持续时间与观测音素持续时间的差值；特征G)，音素频率信息(PhoF

相关资料

一种具有语音评估功能的网络教学方法及系统.pdf

提供一种语音评估方法以及使用该方法的网络教学方法及系统。根据本发明的语音评估方法，语音的音素状态被用来替代传统的梅尔倒谱系数(MFCC)训练出来的多高斯混合模型，并以此为特征来计算后验概率和零阶Baum-Welch统计量；利用多种语言的音素识别器以提取基于音素的语音特征。本发明表明这基于多种语言提取的特征在捕捉非本土发音的信息时是互补的并且基于音素持续时间的特征在自动本土口音评估中是有效的。最终通过融合系统后，本发明的方法在开发集和测试集上达到了0.5706和0.6089的Spearman相关系数。此相关

2023-06-25

2.5MB

一种具有语音提示功能的拍照方法及系统.pdf

本发明公开了一种具有语音提示功能的拍照方法及系统。所述方法包括：拍照设备进入拍照模式后，识别预览屏幕中所有人脸外轮廓的矩形边框，并将所有人脸外轮廓的矩形边框合并为一个包含所有人脸的特定矩形边框；计算所述特定矩形边框中心点的坐标和预览屏幕中心点的坐标，以及两个中心点的偏移距离，并判断所述偏移距离是否处在预定范围内；当所述偏移距离未处在所述预定范围内时，发出移动提示语音，提示用户调整镜头居中或待拍摄人物移动，直至所述偏移距离处在所述预定范围内。本发明能够在拍照过程中给出语音提示，以便用户根据提示调整镜头居中，

2023-10-15

546KB

一种具有蓝牙语音功能的后视镜胎压系统.pdf

本发明提出一种具有蓝牙语音功能的后视镜胎压系统，其特征在于：包括若干胎压传感终端和后视镜显示终端，所述胎压传感终端通过蓝牙连接至所述后视镜显示终端；所述胎压传终端包括气压传感模块、信号放大模块、运算处理模块、第一蓝牙模块和内藏式天线；所述后视镜显示终端包括后视镜主体，内置至后视镜主体的接收天线、第二蓝牙模块、控制模块、存储模块、显示模块与语音模块；所述显示模块包括设于后视镜镜面的显示屏，所述语音模块包括麦克风与扬声器，用于通过控制模块、第二蓝牙模块连接智能手机进行语音通话。本发明利用系统集成的设计思想，实

2023-10-12

367KB

一种具有语音功能的病床.pdf

本发明公开了一种具有语音功能的病床，包括床板和四个床腿，床板的一端设置有头部床屏，床板的另一端设置脚部床屏，还包括语音控制系统，语音控制系统包括用于方便病人发出报时指令的第一开关和用于方便病人发出音乐播放指令的第二开关，以及信号放大电路、滤波电路、A/D转换电路和处理器，处理器的输出端接语音报时芯片和音乐播放芯片，语音报时芯片和音乐播放芯片均连接扬声器，处理器输出端还接用于显示时间的显示屏，第一开关和第二开关设置在床板的侧部，扬声器和显示屏设置在脚部床屏上且与头部床屏相对的一侧面上。该病床能够随时为病人播

2023-12-07

959KB

一种具有声纹克隆功能的语音通话方法及系统.pdf

本发明公开了一种具有声纹克隆功能的语音通话方法及系统，拾取待转换语音，输入到预先训练好的特定人语音转换模块，将待转换语音转换为目标语音，所述目标语音的内容、语调和情感保持与待转换语音一致；将所述特定人语音传输到接听方的扬声器。优点：相对于现有的变声方案，该系统实现了针对可由用户指定的任意特定人物的声纹克隆，能起到模仿和伪装该特定人物的作用；通过声音到声音的转换，比从文本到语音能更好的保留源语音的韵律和情感，使语音更加逼真生动；语音转换模块的算法和计算平台的设计可实现实时通话功能，更好的完成以模仿和伪装的身

2023-11-09

757KB