语音识别方法及装置-豆柴文库

语音识别方法及装置.pdf

2023-12-04

10金币

613KB

17页

St****36

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共17页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN110060662A(43)申请公布日2019.07.26(21)申请号201910293280.2G10L21/0208(2013.01)(22)申请日2019.04.12(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人马赛杜念冬(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201代理人宋合成(51)Int.Cl.G10L15/02(2006.01)G10L15/18(2013.01)G10L15/22(2006.01)G10L15/26(2006.01)G10L17/22(2013.01)权利要求书2页说明书11页附图3页(54)发明名称语音识别方法及装置(57)摘要本发明提出一种语音识别方法及装置，其中方法包括：通过获取待识别的语音以及参数信息；所述参数信息包括：当前模式、所述语音的识别序号、内外噪音信息以及方位信息；提取所述语音对应的特征向量；根据所述当前模式、所述识别序号，确定所述语音是否属于单次唤醒多次识别模式中的非首次语音；若所述语音属于单次唤醒多次识别模式中的非首次语音，则根据所述参数信息和所述特征向量，获取语音识别结果、声学判定结果和语义判定结果，根据所述声学判定结果和所述语义判定结果，确定所述语音是否属于音乐领域；若所述语音属于音乐领域，则根据所述语音识别结果，确定语音对应的指令和/或资源。由于采集了内外噪音信息以及方位信息等，提高了语音识别的准确率，以及在单次唤醒多次识别模式下能够自动且准确地识别出音乐领域的语音，便于后续为用户提供高质量的音乐CN110060662A服务。CN110060662A权利要求书1/2页1.一种语音识别方法，其特征在于，包括：获取待识别的语音以及参数信息；所述参数信息包括：当前模式、所述语音的识别序号、内外噪音信息以及方位信息；提取所述语音对应的特征向量；根据所述当前模式、所述识别序号，确定所述语音是否属于单次唤醒多次识别模式中的非首次语音；若所述语音属于单次唤醒多次识别模式中的非首次语音，则根据所述参数信息和所述特征向量，获取语音识别结果、声学判定结果和语义判定结果，根据所述声学判定结果和所述语义判定结果，确定所述语音是否属于音乐领域；若所述语音属于音乐领域，则根据所述语音识别结果，确定语音对应的指令和/或资源。2.根据权利要求1所述的方法，其特征在于，所述根据所述当前模式、所述识别序号，确定所述语音是否属于单次唤醒多次识别模式中的非首次语音，包括：判断所述当前模式是否为单次唤醒多次识别模式；若所述当前模式为单次唤醒多次识别模式，则根据所述识别序号确定所述语音是否为非首次语音。3.根据权利要求1所述的方法，其特征在于，所述根据所述参数信息和所述特征向量，获取语音识别结果、声学判定结果和语义判定结果，根据所述声学判定结果和所述语义判定结果，确定所述语音是否属于音乐领域，包括：将所述内外噪音信息、所述方位信息以及所述特征向量，输入声学识别模型，获取所述语音识别结果和声学判定结果；根据所述声学判定结果，确定所述语音在声学上是否属于音乐领域；若所述语音在声学上属于音乐领域，则将所述语音识别结果、所述内外噪音信息以及所述方位信息，输入语义识别模型，获取所述语义判定结果；根据所述语义判定结果，确定所述语音在语义上是否属于音乐领域；若所述语音在语义上属于音乐领域，则确定所述语音属于音乐领域。4.根据权利要求3所述的方法，其特征在于，所述根据所述参数信息和所述特征向量，获取语音识别结果、声学判定结果和语义判定结果，根据所述声学判定结果和所述语义判定结果，确定所述语音是否属于音乐领域，还包括：若所述语音在声学上不属于音乐领域，或者所述语音在语义上不属于音乐领域，则确定所述语音不属于音乐领域。5.根据权利要求1所述的方法，其特征在于，还包括：若所述当前模式为单次唤醒单次识别模式或者极客模式，或者所述语音属于单次唤醒多次识别模式中的首次语音，则根据所述参数信息和所述特征向量，获取语音识别结果；根据所述语音识别结果，确定对应的指令和/或资源。6.根据权利要求1所述的方法，其特征在于，所述根据所述语音识别结果，确定语音对应的指令和/或资源之后，还包括：执行所述指令，和/或，将所述资源提供给智能音箱的用户。7.一种语音识别装置，其特征在于，包括：2CN110060662A权利要求书2/2页获取模块，用于获取待识别的语音以及参数信息；所述参数信息包括：当前模式、所述语音的识别序号、内外噪音信息以及方位信息；提取模块，用于提取所述语音对应的特征向量；确定模块，用于根据所述当前模式、所述识别序号，确定所述语音是否属于单次唤醒多次识别模式中的非首次语音；所述确

相关资料

语音识别方法及装置.pdf

本发明提出一种语音识别方法及装置，其中方法包括：通过获取待识别的语音以及参数信息；所述参数信息包括：当前模式、所述语音的识别序号、内外噪音信息以及方位信息；提取所述语音对应的特征向量；根据所述当前模式、所述识别序号，确定所述语音是否属于单次唤醒多次识别模式中的非首次语音；若所述语音属于单次唤醒多次识别模式中的非首次语音，则根据所述参数信息和所述特征向量，获取语音识别结果、声学判定结果和语义判定结果，根据所述声学判定结果和所述语义判定结果，确定所述语音是否属于音乐领域；若所述语音属于音乐领域，则根据所述语音

2023-12-04

613KB

语音识别方法及装置.pdf

本发明实施例提供一种语音识别方法及装置，包括：获取语音信号对应的候选词串；调用领域语言模型，确定所述候选词串在领域语言模型中对应的概率增强系数；调用基本语言模型，确定所述候选词串在基本语言模型中的基本匹配概率；将所述概率增强系数结合所述基本匹配概率获得所述候选词串的总匹配概率；根据各候选词串的总匹配概率，计算各候选词串组成的词序列的概率，并根据概率最高的词序列生成所述语音信号对应的语言文本。本发明实施例提供的语音识别方法及装置，综合考虑了基本语言模型中的通用说话习惯，又兼顾了领域语言模型中的特定用词习惯，

2023-12-07

747KB

语音识别方法及装置.pdf

本发明实施例提供一种语音识别方法及装置，服务器获得待处理的语音信号后，利用预先部署的增量训练模型对该语音信号进行识别从而得到文本信息。由于增量训练模型是预先采用知识蒸馏的方式，仅利用少量新业务场景的样本对旧业务场景的ASR模型进行训练得到的，使得该增量训练模型既能够适用于新业务场景又能保留旧业务场景的语音信号的识别能力，解决了采用全量数据训练带来的时间成本以及深度迁移学习导致的泛化能力下降的问题。

2023-11-07

954KB

语音识别方法及装置.pdf

本申请实施例提供一种语音识别方法及装置，涉及信息处理技术领域，该方法包括：获取多通道语音文件；将多通道语音文件分离为每个对话人的独立语音子文件；获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息；将每个独立语音子文件识别为文本；生成多通道语音文件的特征信息，该特征信息包括多通道语音文件对应的每个独立语音子文件的文本信息、每个独立语音子文件的起始时间信息和终止时间信息、每个独立语音子文件的排序信息及每个独立语音子文件的对话人标识信息。因此可以从多通道语音文件中分离出每个对话人的文本信息、各文

2023-08-19

1.1MB

语音识别方法及其装置.pdf

本说明书实施例公开了一种自动语音识别方法及其装置，其中，该方法包括：获取待识别语音，对待识别语音进行分割，以生成多个音频切片。将多个音频切片分别发送给多个语音识别方，其中，语音识别方能够生成音频切片对应的文本。分别从每个语音识别方接收音频切片对应的文本，对多个音频切片对应的文本进行文本聚合，以生成待识别语音的识别结果。由此，实现了将待识别语音的音频切片发送给多个语音识别方，由多个语音识别方共同完成待识别语音的识别工作，在语音识别过程中任何语音识别方无法获得全部的待识别语音，从而防止了待识别语音出现泄漏，对

2023-05-25

858KB