预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113851111A(43)申请公布日2021.12.28(21)申请号202111067913.1(22)申请日2021.09.13(71)申请人联想(北京)有限公司地址100085北京市海淀区上地西路6号2幢2层201-H2-6(72)发明人郭莉莉王旭阳洪密(74)专利代理机构北京派特恩知识产权代理有限公司11270代理人周艳张颖玲(51)Int.Cl.G10L15/02(2006.01)G10L15/04(2013.01)G10L25/45(2013.01)G10L15/16(2006.01)权利要求书2页说明书13页附图3页(54)发明名称一种语音识别方法和语音识别装置(57)摘要本申请实施例提供一种语音识别方法和语音识别装置,该方法包括:对语音数据流进行加窗处理,确定位于窗口内的语音数据;对窗口内的语音数据进行对象识别处理,并根据对象识别处理结果对窗口进行长度调整,并将位于调整后的窗口内的语音数据确定为目标语音段;基于识别模型对目标语音段进行语音识别处理,得到目标识别结果。这样,在对语音数据流进行加窗处理时,根据对象识别处理的结果灵活调整窗口长度,以得到不同大小的目标语音段,能够兼顾识别速度和识别效果,从而综合改善端对端语音识别场景的语音识别性能。CN113851111ACN113851111A权利要求书1/2页1.一种语音识别方法,所述方法包括:对语音数据流进行加窗处理,确定位于窗口内的语音数据;对所述窗口内的语音数据进行对象识别处理,并根据对象识别处理结果对所述窗口进行长度调整,并将位于调整后的窗口内的语音数据确定为目标语音段;基于识别模型对所述目标语音段进行语音识别处理,得到目标识别结果。2.根据权利要求1所述的语音识别方法,所述根据对象识别处理结果对所述窗口进行长度调整,包括:若所述对象识别处理结果指示所述窗口内的语音数据不存在识别对象,则延伸所述窗口的长度,直至位于调整后的窗口内的语音数据存在识别对象;若所述对象识别处理结果指示所述窗口内的语音数据存在识别对象,则保持所述窗口的长度不变。3.根据权利要求1所述的语音识别方法,所述根据对象识别处理结果对所述窗口进行长度调整,还包括:若所述对象识别处理结果指示所述窗口内的语音数据存在识别对象,则根据所述识别对象的位置缩短所述窗口的长度。4.根据权利要求2或3所述的语音识别方法,在确定所述目标语音段之后,所述方法还包括:若所述调整后的窗口的长度与所述窗口的初始长度不同,则对所述调整后的窗口进行长度恢复处理,得到初始长度的所述窗口;将所述窗口在所述语音数据流上进行滑动,并再次执行确定位于窗口内的语音数据的步骤。5.根据权利要求2所述的语音识别方法,所述对所述窗口内的语音数据进行对象识别处理,包括:对位于所述窗口内的语音数据进行逐帧检测;若检测到所有帧均不存在对象边界,则确定所述对象识别处理结果指示所述窗口内的语音数据不存在识别对象;若检测到至少一帧存在对象边界,则确定所述对象识别处理结果指示所述窗口内的语音数据存在识别对象。6.根据权利要求2所述的语音识别方法,所述延伸所述窗口的长度,包括:将所述窗口的长度调整为预设倍数的初始长度。7.根据权利要求1所述的语音识别方法,所述识别模型包括编码器和解码器;所述基于识别模型对所述目标语音段进行语音识别处理,得到目标识别结果,包括:利用所述编码器对所述目标语音段进行编码处理,得到特征向量信息;利用所述解码器对所述特征向量信息进行解码处理,得到所述目标识别结果。8.根据权利要求7所述的语音识别方法,所述识别模型还包括至少一个位置识别模型,所述利用所述解码器对所述特征向量信息进行解码处理,得到所述目标识别结果,至少包括:利用所述至少一个位置识别模型对所述目标语音段进行位置识别处理,得到至少一个边界位置信息;2CN113851111A权利要求书2/2页对所述至少一个边界位置信息进行置信度筛选,确定目标边界位置信息;将所述目标边界位置信息和所述特征向量信息输入到所述解码器,得到所述目标识别结果。9.根据权利要求8所述的语音识别方法,所述位置识别模型包括以下的至少一个:连接时序分类模型、边界识别模型和时长识别模型;所述利用所述至少一个位置识别模型对所述目标语音段进行位置识别处理,得到至少一个边界位置信息,至少包括:利用连接时序分类模型对所述特征向量信息进行对象数量分析处理,确定第一边界位置信息;利用所述边界识别模型对所述目标语音段进行边界位置分析处理,确定第二边界位置信息;利用所述时长识别模型对所述目标语音段进行对象时长分析处理,确定第三边界位置信息;将所述第一边界位置信息、第二边界位置信息和第三边界位置信息确定为所述至少一个边界位置信息。10.一种语音识别