预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共25页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114171009A(43)申请公布日2022.03.11(21)申请号202111534483.X(22)申请日2021.12.15(71)申请人科大讯飞股份有限公司地址230088安徽省合肥市高新区望江西路666号(72)发明人徐文娜孙磊申凯(74)专利代理机构深圳紫藤知识产权代理有限公司44570代理人方世栋(51)Int.Cl.G10L15/02(2006.01)G10L15/06(2013.01)G10L15/08(2006.01)G10L15/16(2006.01)G10L15/26(2006.01)权利要求书4页说明书14页附图6页(54)发明名称用于目标设备的语音识别方法、装置、设备及存储介质(57)摘要本发明提供一种用于目标设备的语音识别方法、装置、设备及存储介质,所述方法包括:获取音频信号,得到所述音频信号的声学特征,将所述声学特征输入第一声学模型,得到音素级特征与该音素级特征相关联的音素级概率向量;若所述目标设备的当前工作模式为唤醒模式,则将音素级概率向量输入预设的解码器以识别唤醒词,并在识别出唤醒词的情况下将目标设备的工作模式转换为命令词模式;若目标设备的当前工作模式为命令词模式,则将音素级特征输入第二声学模型,以在识别出命令词时触发所述目标设备执行所述命令词对应的动作。本发明可解决目前不同长度的命令词在通过解码网络时因为不等长比较而导致的串扰问题,有效地提升了命令词识别的正确性。CN114171009ACN114171009A权利要求书1/4页1.一种用于目标设备的语音识别方法,其特征在于,所述方法包括:获取音频信号,得到所述音频信号的声学特征;将所述声学特征输入已训练的第一声学模型,以得到音素级特征及与该音素级特征相关联的音素级概率向量;若所述目标设备的当前工作模式为唤醒模式,则将所述音素级概率向量输入预设的解码器以识别唤醒词,并在识别出唤醒词的情况下将所述目标设备的工作模式转换为命令词模式;若所述目标设备的当前工作模式为所述命令词模式,则将所述音素级特征输入第二声学模型,以基于所述音素级特征得到整词级概率向量,并基于所述整词级概率向量识别命令词,以在识别出命令词时触发所述目标设备执行所述命令词对应的动作。2.根据权利要求1所述的用于目标设备的语音识别方法,其特征在于,所述将所述音素级特征输入第二声学模型,以基于所述音素级特征得到整词级概率向量,并基于所述整词级概率向量识别命令词包括:基于卷积神经网络,所述第二声学模型根据所述音素级特征得到针对所述语音信号的音节级特征及与所述音节级特征相关联的音节级概率向量;基于全局平均池化方式,所述第二声学模型根据所述音节级特征得到针对所述语音信号的整词级特征及与所述整词级特征相关联的整词级概率向量;将所述整词级概率向量中概率值最大的元素对应的命令词作为最终识别出的命令词。3.根据权利要求1所述的用于目标设备的语音识别方法,其特征在于,所述获取音频信号,得到所述音频信号的声学特征包括:对所述音频信号进行降噪及基于音频能量的滑动窗筛选处理,以得到语音段的音频信号作为所述语音信号并过滤掉非语音段的音频信号;基于能量谱特征对所述语音信号进行声学特征提取,得到所述每一帧信号的声学特征。4.根据权利要求3所述的用于目标设备的语音识别方法,其特征在于,所述将所述声学特征输入已训练的第一声学模型,以得到音素级特征及与该音素级特征相关联的音素级概率向量包括:针对每一帧信号的声学特征,所述第一声学模型基于预设的三音素规则将该声学特征转换为三音素模式的音素级特征并得到与该音素级特征相关联的音素级概率向量;其中,所述音素级概率向量指示所述音素级特征中每一类三音素单元的概率值。5.根据权利要求4所述的用于目标设备的语音识别方法,其特征在于,所述将所述音素级概率向量输入预设的解码器以识别唤醒词包括:将比较初始位置设定为0,依序对每一帧信号对应的音素级概率向量执行如下操作:基于该帧信号对应的音素级概率向量,从所述比较初始位置开始,将所述解码器中的唤醒词路径中的音素单元对应的概率值依序与所述解码器中的吸收路径中的所有音素单元的最大概率值进行比较;若所述唤醒词路径中当前比较的音素单元的概率值大于所述最大概率值,则继续依序将所述唤醒词路径中后续的音素单元对应的概率值与所述最大概率值进行比较;若发现所述唤醒词路径中当前比较的音素单元的概率值不大于所述最大概率值,则结2CN114171009A权利要求书2/4页束该帧信号的比较并将所述比较初始位置更新为所述当前比较的音素单元在概率向量中的序列号,以及继续对下一帧信号对应的音素级概率向量执行上述比较操作,直至所述唤醒词路径中的所有音素单元对应的概率值均大于所述最大概率值,或者所