预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共14页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115101064A(43)申请公布日2022.09.23(21)申请号202210858697.0(22)申请日2022.07.20(71)申请人安克创新科技股份有限公司地址410205湖南省长沙市高新开发区尖山路39号长沙中电软件园有限公司一期七栋7楼701室(72)发明人孙炜(74)专利代理机构北京华夏泰和知识产权代理有限公司11662专利代理师曾军(51)Int.Cl.G10L15/18(2013.01)G10L15/06(2013.01)G10L25/18(2013.01)权利要求书2页说明书9页附图2页(54)发明名称指令词识别方法、装置、电子设备及存储介质(57)摘要本申请提供了一种指令词识别方法、装置、电子设备及存储介质,属于语音识别技术领域。本申请通过,获取待识别语音及指令词集合,其中,所述指令词集合中包括至少一个指令词及根据所述指令词对应的文本内容转换得到的指令词音素序列;将所述待识别语音输入至预先训练好的音素识别模型中,以使所述音素识别模型输出所述待识别语音对应的目标音素;预测所述目标音素对应的目标音素序列;根据所述指令词集合确定所述目标音素序列对应的目标指令词音素序列,将所述目标指令词音素序列对应的指令词作为所述待识别语音对应的目标指令词。CN115101064ACN115101064A权利要求书1/2页1.一种指令词识别方法,其特征在于,所述方法包括:获取待识别语音及指令词集合,其中,所述指令词集合中包括至少一个指令词及根据所述指令词对应的文本内容转换得到的指令词音素序列;将所述待识别语音输入至预先训练好的音素识别模型中,以使所述音素识别模型输出所述待识别语音对应的目标音素;预测所述目标音素对应的目标音素序列;根据所述指令词集合确定所述目标音素序列对应的目标指令词音素序列,将所述目标指令词音素序列对应的指令词作为所述待识别语音对应的目标指令词。2.根据权利要求1所述的方法,其特征在于,所述音素识别模型包括语音处理模型和自然语言处理模型,所述将所述待识别语音输入至预先训练好的音素识别模型中,以使所述音素识别模型输出所述待识别语音对应的目标音素,包括:将所述待识别语音输入至所述语音处理模型中,以使所述语音处理模型输出所述待识别语音对应的第一音素;将所述第一音素输入至所述自然语言处理模型中,以使所述自然语言处理模型预测所述第一音素对应的第二音素,将所述第一音素和所述第二音素作为所述目标音素。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取样本语音及所述样本语音对应的样本文本,并确定所述样本文本对应的样本音素;将所述样本语音作为模型输入,以及,将所述样本音素作为标签,训练语音处理深度学习模型,得到所述语音处理模型。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:针对每个样本音素,将所述样本音素作为模型输入,以及,将所述样本音素对应的后一个样本音素作为标签,训练自然语言处理深度学习模型,得到所述自然语言处理模型。5.根据权利要求2所述的方法,其特征在于,所述将所述待识别语音输入至所述语音处理模型中,以使所述语音处理模型输出所述待识别语音对应的第一音素,包括:利用短时傅立叶变换将所述待识别语音转换为频谱,并确定所述频谱对应的梅尔频谱图;将所述梅尔频谱图输入至所述语音处理模型中,以使所述语音处理模型输出所述待识别语音对应的第一音素。6.根据权利要求1所述的方法,其特征在于,所述根据所述指令词集合确定所述目标音素序列对应的目标指令词音素序列,包括:针对所述指令词音素序列集合中的任一指令词音素序列,确定所述目标音素序列为所述指令词音素序列的概率;将概率不小于预设阈值的指令词音素序列确定为候选指令词音素序列音素序列,在所述候选指令词音素序列音素序列中确定所述目标指令词音素序列。7.根据权利要求6所述的方法,其特征在于,所述在所述候选指令词音素序列中确定所述待识别语音对应的目标指令词,包括:针对每个候选指令词音素序列,确定所述候选指令词音素序列对应的使用次数,将使2CN115101064A权利要求书2/2页用次数最多的候选指令词音素序列确定为所述目标指令词音素序列。8.一种指令词识别装置,其特征在于,所述装置包括:获取模块,用于获取待识别语音及指令词集合,其中,所述指令词集合中包括至少一个指令词及根据所述指令词对应的文本内容转换得到的指令词音素序列;输入模块,用于将所述待识别语音输入至预先训练好的音素识别模型中,以使所述音素识别模型输出所述待识别语音对应的目标音素;预测模块,用于预测所述目标音素对应的目标音素序列;确定模块,还用于根据所述指令词集合确定所述目标音素序列对应的目标指令词音素序列,将所述目标指令词音素序列对应的指令词作为所述