语音识别方法、装置和存储介质-豆柴文库

语音识别方法、装置和存储介质.pdf

2023-11-19

10金币

808KB

22页

朋兴****en

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共22页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN107360327A(43)申请公布日2017.11.17(21)申请号201710588382.8(22)申请日2017.07.19(71)申请人腾讯科技（深圳）有限公司地址518000广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人唐惠忠(74)专利代理机构深圳翼盛智成知识产权事务所(普通合伙)44300代理人黄威(51)Int.Cl.H04M1/725(2006.01)H04W52/02(2009.01)G10L15/26(2006.01)G06F17/27(2006.01)G06F1/32(2006.01)权利要求书2页说明书14页附图5页(54)发明名称语音识别方法、装置和存储介质(57)摘要本发明实施例公开了一种语音识别方法、装置和存储介质；本实施例在获取到音频数据后，可以通过DSP对该音频数据进行模糊语音识别，当确定存在唤醒词时，才由该DSP唤醒处于休眠状态的CPU，并通过CPU对该音频数据进行语义分析，然后，根据分析结果执行相应操作；该方案可以在保留移动性和语音唤醒功能的前提下，大大减少系统功耗，从而延长移动终端的待机时间，改善移动终端的性能。CN107360327ACN107360327A权利要求书1/2页1.一种语音识别方法，其特征在于，包括：获取音频数据；通过数字信号处理器对所述音频数据进行模糊语音识别；当模糊语音识别结果指示存在唤醒词时，由数字信号处理器唤醒中央处理器，所述中央处理器处于休眠状态；通过中央处理器对所述音频数据进行语义分析，并根据分析结果执行所述分析结果相应的操作。2.根据权利要求1所述的方法，其特征在于，所述通过数字信号处理器对所述音频数据进行模糊语音识别，包括：通过数字信号处理器，采用模糊聚类分析对所述音频数据进行语音识别，得到模糊语音识别结果。3.根据权利要求2所述的方法，其特征在于，所述通过数字信号处理器，采用模糊聚类分析对所述音频数据进行语音识别，得到模糊语音识别结果，包括：根据模糊聚类分析建立模糊聚类神经网络；将所述模糊聚类神经网络作为概率密度函数的估计器，对所述音频数据包含唤醒词的概率进行预测；若预测结果指示概率大于等于设定值，则生成指示存在唤醒词的模糊语音识别结果；若预测结果指示概率小于设定值，则生成指示不存在唤醒词的模糊语音识别结果。4.根据权利要求1所述的方法，其特征在于，所述通过数字信号处理器对所述音频数据进行模糊语音识别，包括：通过数字信号处理器，采用模糊匹配算法对所述音频数据进行语音识别，得到模糊语音识别结果。5.根据权利要求4所述的方法，其特征在于，所述通过数字信号处理器，采用模糊匹配算法对所述音频数据进行语音识别，得到模糊语音识别结果，包括：获取唤醒词读音的特征图，得到标准特征图；分析所述音频数据中各个单词读音的特征图，得到待匹配特征图；根据预设的隶属度函数计算各个待匹配特征图属于标准特征图的程度值；若所述程度值大于等于预设值，则生成指示存在唤醒词的模糊语音识别结果；若所述程度值小于预设值，则生成指示不存在唤醒词的模糊语音识别结果。6.根据权利要求1所述的方法，其特征在于，所述通过中央处理器对所述音频数据进行语义分析之前，还包括：从数字信号处理器中读取所述音频数据中包含唤醒词的数据，得到唤醒数据；通过所述中央处理器对所述唤醒数据进行语音识别；当语音识别结果指示存在唤醒词时，执行通过中央处理器对所述音频数据进行语义分析的步骤；当语音识别结果指示不存在唤醒词时，将中央处理器设置为休眠，并返回执行获取音频数据的步骤。7.根据权利要求6所述的方法，其特征在于，所述通过所述中央处理器对所述唤醒数据进行语音识别，包括：2CN107360327A权利要求书2/2页将所述中央处理器的工作状态设置为第一状态，所述第一状态为单核且低频；在所述第一状态下，对所述唤醒数据进行语音识别。8.根据权利要求1至7任一项所述的方法，其特征在于，所述通过中央处理器对所述音频数据进行语义分析，包括：将所述中央处理器的工作状态设置为第二状态，所述第二状态为多核且高频；在所述第二状态下，对所述音频数据进行语义分析。9.根据权利要求1至7任一项所述的方法，其特征在于，所述通过中央处理器对所述音频数据进行语义分析，包括：根据所述音频数据对应的唤醒词确定语义场景；根据语义场景确定中央处理器的工作核数和主频大小；根据所述工作核数和主频大小对中央处理器的工作状态进行设置，得到第三状态；在所述第三状态下，对所述音频数据进行语义分析。10.根据权利要求1至7任一项所述的方法，其特征在于，所述通过数字信号处理器对所述音频数据进行模糊语音识别之前，还包括：对所述音频数据进行降噪和/或回音消除处理。11.根据权利要求1至7任一项

相关资料

语音识别方法、装置和存储介质.pdf

本发明实施例公开了一种语音识别方法、装置和存储介质；本实施例在获取到音频数据后，可以通过DSP对该音频数据进行模糊语音识别，当确定存在唤醒词时，才由该DSP唤醒处于休眠状态的CPU，并通过CPU对该音频数据进行语义分析，然后，根据分析结果执行相应操作；该方案可以在保留移动性和语音唤醒功能的前提下，大大减少系统功耗，从而延长移动终端的待机时间，改善移动终端的性能。

2023-11-19

808KB

语音识别方法、装置和存储介质.pdf

本公开提出一种语音识别方法、装置和存储介质，涉及语音识别技术领域。本公开的一种语音识别方法，包括：根据当前语句的语音信号获取候选lattice；根据当前语句对应的上文文本重置神经网络模型，其中，上文文本为当前语句的前一句或多句的识别文本；通过重置后的神经网络模型对候选lattice重打分，获取重打分lattice；根据重打分lattice确定当前语句的识别文本。通过这样的方法，对当前语句的语音识别能够考虑到上文一句或多句的信息，从而更加充分的利用先验信息，使重打分更加准确，提高语音识别的准确率。

2023-06-14

529KB

语音识别方法、装置、设备和存储介质.pdf

本申请属于数据处理领域，具体涉及一种语音识别方法、装置、设备和存储介质。本申请旨在解决目前的智能设备识别用户指令的准确率较低的问题。本申请的语音识别方法，该方法包括：获取终端设备上设置的N个语音采集装置采到的N个待处理语音信号；将N个待处理语音信号中第n个待处理语音信号划分为M

2023-07-24

678KB

语音识别方法、装置及存储介质.pdf

本公开是关于一种语音识别方法、装置及存储介质，属于机器学习技术领域。方法包括：获取待识别的音频帧；分别提取音频帧的梅尔标度滤波器组特征和发声用户信息矢量；对梅尔标度滤波器组特征和发声用户信息矢量进行融合处理，得到融合特征；基于目标声学模型对融合特征进行处理，得到音频帧的语音识别结果，目标声学模型包括多个空洞卷积层。本公开会同时提取音频帧的梅尔标度滤波器组特征和发声用户信息矢量，之后，将二者进行特征融合并将融合后的特征输入声学模型，由于融合后的特征能够对说话人特征和信道特征进行有效表达，提高了语音识别的准确

2023-06-25

785KB

视频语音识别方法、装置、设备和存储介质.pdf

本申请提出一种视频语音识别方法、装置、设备和存储介质，涉及语音识别技术领域其中，方法，包括：对视频进行处理，获取多个音频子片段，以及与每个音频子片段对应的图像帧序列；对图像帧序列进行文本识别，获取多个文本结果，并对多个文本结果进行处理，获取多个关键词；通过语音识别模型对每个音频子片段进行处理，获取多个候选语音识别结果；根据多个候选语音识别结果和多个关键词确定每个音频子片段的目标文本识别结果，根据每个音频子片段的目标文本识别结果，获取视频的语音识别结果。由此，通过视频的图像中的文本识别结果辅助视频语音识别，

2023-07-25

824KB