一种语音识别方法和语音识别装置-豆柴文库

一种语音识别方法和语音识别装置.pdf

2023-07-25

10金币

564KB

19页

志信****pp

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共19页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113851111A(43)申请公布日2021.12.28(21)申请号202111067913.1(22)申请日2021.09.13(71)申请人联想（北京）有限公司地址100085北京市海淀区上地西路6号2幢2层201-H2-6(72)发明人郭莉莉王旭阳洪密(74)专利代理机构北京派特恩知识产权代理有限公司11270代理人周艳张颖玲(51)Int.Cl.G10L15/02(2006.01)G10L15/04(2013.01)G10L25/45(2013.01)G10L15/16(2006.01)权利要求书2页说明书13页附图3页(54)发明名称一种语音识别方法和语音识别装置(57)摘要本申请实施例提供一种语音识别方法和语音识别装置，该方法包括：对语音数据流进行加窗处理，确定位于窗口内的语音数据；对窗口内的语音数据进行对象识别处理，并根据对象识别处理结果对窗口进行长度调整，并将位于调整后的窗口内的语音数据确定为目标语音段；基于识别模型对目标语音段进行语音识别处理，得到目标识别结果。这样，在对语音数据流进行加窗处理时，根据对象识别处理的结果灵活调整窗口长度，以得到不同大小的目标语音段，能够兼顾识别速度和识别效果，从而综合改善端对端语音识别场景的语音识别性能。CN113851111ACN113851111A权利要求书1/2页1.一种语音识别方法，所述方法包括：对语音数据流进行加窗处理，确定位于窗口内的语音数据；对所述窗口内的语音数据进行对象识别处理，并根据对象识别处理结果对所述窗口进行长度调整，并将位于调整后的窗口内的语音数据确定为目标语音段；基于识别模型对所述目标语音段进行语音识别处理，得到目标识别结果。2.根据权利要求1所述的语音识别方法，所述根据对象识别处理结果对所述窗口进行长度调整，包括：若所述对象识别处理结果指示所述窗口内的语音数据不存在识别对象，则延伸所述窗口的长度，直至位于调整后的窗口内的语音数据存在识别对象；若所述对象识别处理结果指示所述窗口内的语音数据存在识别对象，则保持所述窗口的长度不变。3.根据权利要求1所述的语音识别方法，所述根据对象识别处理结果对所述窗口进行长度调整，还包括：若所述对象识别处理结果指示所述窗口内的语音数据存在识别对象，则根据所述识别对象的位置缩短所述窗口的长度。4.根据权利要求2或3所述的语音识别方法，在确定所述目标语音段之后，所述方法还包括：若所述调整后的窗口的长度与所述窗口的初始长度不同，则对所述调整后的窗口进行长度恢复处理，得到初始长度的所述窗口；将所述窗口在所述语音数据流上进行滑动，并再次执行确定位于窗口内的语音数据的步骤。5.根据权利要求2所述的语音识别方法，所述对所述窗口内的语音数据进行对象识别处理，包括：对位于所述窗口内的语音数据进行逐帧检测；若检测到所有帧均不存在对象边界，则确定所述对象识别处理结果指示所述窗口内的语音数据不存在识别对象；若检测到至少一帧存在对象边界，则确定所述对象识别处理结果指示所述窗口内的语音数据存在识别对象。6.根据权利要求2所述的语音识别方法，所述延伸所述窗口的长度，包括：将所述窗口的长度调整为预设倍数的初始长度。7.根据权利要求1所述的语音识别方法，所述识别模型包括编码器和解码器；所述基于识别模型对所述目标语音段进行语音识别处理，得到目标识别结果，包括：利用所述编码器对所述目标语音段进行编码处理，得到特征向量信息；利用所述解码器对所述特征向量信息进行解码处理，得到所述目标识别结果。8.根据权利要求7所述的语音识别方法，所述识别模型还包括至少一个位置识别模型，所述利用所述解码器对所述特征向量信息进行解码处理，得到所述目标识别结果，至少包括：利用所述至少一个位置识别模型对所述目标语音段进行位置识别处理，得到至少一个边界位置信息；2CN113851111A权利要求书2/2页对所述至少一个边界位置信息进行置信度筛选，确定目标边界位置信息；将所述目标边界位置信息和所述特征向量信息输入到所述解码器，得到所述目标识别结果。9.根据权利要求8所述的语音识别方法，所述位置识别模型包括以下的至少一个：连接时序分类模型、边界识别模型和时长识别模型；所述利用所述至少一个位置识别模型对所述目标语音段进行位置识别处理，得到至少一个边界位置信息，至少包括：利用连接时序分类模型对所述特征向量信息进行对象数量分析处理，确定第一边界位置信息；利用所述边界识别模型对所述目标语音段进行边界位置分析处理，确定第二边界位置信息；利用所述时长识别模型对所述目标语音段进行对象时长分析处理，确定第三边界位置信息；将所述第一边界位置信息、第二边界位置信息和第三边界位置信息确定为所述至少一个边界位置信息。10.一种语音识别

相关资料

一种语音识别方法和语音识别装置.pdf

本申请实施例提供一种语音识别方法和语音识别装置，该方法包括：对语音数据流进行加窗处理，确定位于窗口内的语音数据；对窗口内的语音数据进行对象识别处理，并根据对象识别处理结果对窗口进行长度调整，并将位于调整后的窗口内的语音数据确定为目标语音段；基于识别模型对目标语音段进行语音识别处理，得到目标识别结果。这样，在对语音数据流进行加窗处理时，根据对象识别处理的结果灵活调整窗口长度，以得到不同大小的目标语音段，能够兼顾识别速度和识别效果，从而综合改善端对端语音识别场景的语音识别性能。

2023-07-25

564KB

语音识别装置、语音识别程序和语音识别方法.pdf

本发明的目的在于，提供一种便利性更高的语音识别装置的技术。本发明的语音识别装置的特征在于，具备：存储部，其存储使画面与该画面中的选项对应的画面定义信息和确定每个选项曾被选择的次数的选择履历信息；接触指示接受部，其通过接触的操作接受指示；语音指示接受部，其通过语音的操作接受指示；和选项朗读部，当在规定画面中限制接触指示接受部接受指示时，该选项朗读部将规定画面中的选项以与曾被选择的次数相应的顺序语音输出，语音指示接受部对通过选项朗读部输出的选项中的任一项接受指示。

2023-12-07

2.1MB

一种语音识别方法、装置和用于语音识别的装置.pdf

本发明实施例提供了一种语音识别方法、装置和用于语音识别的装置。所述方法包括：根据待处理的语音数据中各个说话人的声学特征，对所述语音数据进行切分处理，得到若干子句，每个子句包含一个说话人的语音片段；按照预设标签对所述子句进行归并处理，得到目标子句；对所述目标子句进行语音识别处理，得到所述语音数据的语音识别结果。本发明实施例可以保证每个子句的能量、说话人音调、音色的相对统一，有利于提升语音识别的准确度；并且，本发明实施例进一步还可以按照预设标签对子句进行归并处理，将存在关联关系的子句合并为目标子句，再对目标子

2023-07-25

534KB

一种语音识别方法及语音识别装置.pdf

本发明公开了一种语音识别方法及识别装置，具体包括以下步骤：S1：进行数据预处理，使用者首先根据其需求创建语音文件，所述语音文件包括语音数据预处理和文本数据预处理，其中所述语音数据预处理用于获取语音文件中的特征数据，所述文本数据预处理用于获取语音文件中的文本内容并提取其中出现的文字创建词典；S2：构建语音识别模型，其中所述语音识别模型基于CTC算法进行语音序列的切分。本发明提供的语音识别方法及语音识别装置具有充分提取语音数据的特征信息，同时该模型结构也采用了判断环境状态的技术，能够进一步简化语音识别的流程，

2023-06-11

285KB

语音识别方法和装置.pdf

本发明公开了一种语音识别方法和装置，该方法和装置通过在语音信号中提取多个语音数据包，对每个语音数据包进行语音识别，并根据前一语音数据包的语速来生成后一语音数据包的语音识别过程所需提取语音特征向量的数量，无需获取完整的语音信号即可实现根据语音信号的语速变化来调整语音识别进程，使得语音识别效率和准确性均达到很高水准。

2023-12-06

528KB