预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共27页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113744736A(43)申请公布日2021.12.03(21)申请号202111049251.5(22)申请日2021.09.08(71)申请人北京声智科技有限公司地址100094北京市海淀区北清路81号院一区1号楼6层601(72)发明人郭震陈孝良李智勇(74)专利代理机构北京三高永信知识产权代理有限责任公司11138代理人邢少真(51)Int.Cl.G10L15/22(2006.01)G10L15/26(2006.01)权利要求书3页说明书18页附图5页(54)发明名称命令词识别方法、装置、电子设备及存储介质(57)摘要本申请提供了一种命令词识别方法、装置、电子设备及存储介质,属于语音识别技术领域。该方法包括:对目标语音的多帧语音特征进行识别,得到目标文本、第一匹配度和第二匹配度,第一匹配度为多个候选音素与语音特征之间的匹配度中的最大值,第二匹配度为语音特征的目标音素与语音特征之间的匹配度;基于第一匹配度确定第一声学参数;基于第二匹配度确定第二声学参数;基于第一声学参数和第二声学参数确定声学置信度,声学置信度与第一声学参数负相关且与第二声学参数正相关;在目标文本包括命令词且声学置信度大于置信度阈值的情况下,执行命令词对应的指令。本申请在准确确定语音包括命令词的情况下,执行对应的指令,提高了语音控制的准确性。CN113744736ACN113744736A权利要求书1/3页1.一种命令词识别方法,其特征在于,所述方法包括:对目标语音的多帧语音特征进行识别,得到目标文本、每帧语音特征对应的第一匹配度和第二匹配度,所述第一匹配度为多个候选音素与所述语音特征之间的匹配度中的最大值,所述第二匹配度为所述语音特征的目标音素与所述语音特征之间的匹配度,所述目标音素是从所述多个候选音素中选取的,所述目标文本基于所述多帧语音特征的目标音素确定;基于所述多帧语音特征分别对应的多个第一匹配度,确定第一声学参数,以及,基于所述多帧语音特征分别对应的多个第二匹配度,确定第二声学参数;基于所述第一声学参数和所述第二声学参数,确定所述目标文本与所述目标语音之间的声学置信度,所述声学置信度与所述第一声学参数负相关,且与所述第二声学参数正相关;在所述目标文本包括命令词,且所述声学置信度大于置信度阈值的情况下,执行所述命令词对应的指令。2.根据权利要求1所述的方法,其特征在于,所述基于所述多帧语音特征分别对应的多个第一匹配度,确定第一声学参数,包括:将所述多个第一匹配度的和值,确定为所述第一声学参数。3.根据权利要求1所述的方法,其特征在于,所述基于所述多帧语音特征分别对应的多个第二匹配度,确定第二声学参数,包括:将所述多个第二匹配度的和值,确定为所述第二声学参数。4.根据权利要求1所述的方法,其特征在于,所述对目标语音的多帧语音特征进行识别,得到目标文本、每帧语音特征对应的第一匹配度和第二匹配度,包括:对于每帧语音特征,获取所述多个候选音素与所述语音特征之间的匹配度,将所述多个候选音素与所述语音特征之间的匹配度中的最大值,确定为所述语音特征对应的第一匹配度;至少两次执行从所述多个候选音素中选取每帧语音特征的候选目标音素,基于每帧语音特征的候选目标音素,确定候选文本以及所述候选文本的选取参数的步骤;在得到至少两个候选文本的选取参数的情况下,将选取参数最大的候选文本,确定为所述目标文本;对于所述目标文本对应的每个候选目标音素,将所述候选目标音素与所述候选目标音素对应的语音特征之间的匹配度,确定为所述语音特征对应的第二匹配度。5.根据权利要求4所述的方法,其特征在于,所述对于每帧语音特征,获取所述多个候选音素与所述语音特征之间的匹配度,包括:调用声学模型,对所述多帧语音特征进行声学识别,得到所述多个候选音素与每帧语音特征之间的匹配度;其中,所述声学模型基于样本语音的多帧样本语音特征以及每帧样本语音特征的标注音素训练得到。6.根据权利要求4所述的方法,其特征在于,所述从所述多个候选音素中选取每帧语音特征的候选目标音素之后,所述方法还包括:记录每帧语音特征与所述每帧语音特征的候选目标音素之间的匹配度。2CN113744736A权利要求书2/3页7.根据权利要求4所述的方法,其特征在于,所述基于每帧语音特征的候选目标音素,确定候选文本以及所述候选文本的选取参数,包括:基于每帧语音特征与所述每帧语音特征的候选目标音素之间的匹配度,确定所述候选文本的第三声学参数;对所述多帧语音特征的候选目标音素进行文本转换,得到所述候选文本和所述候选文本的语言参数,所述语言参数用于表示所述候选文本的语句通顺程度;基于所述第三声学参数和所述候选文本的语言参数,确定所述候选文本的选取参数。8.根据权利要求7所述