语音识别方法及其装置-豆柴文库

语音识别方法及其装置.pdf

2023-05-25

10金币

858KB

18页

St****12

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共18页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111210822A(43)申请公布日2020.05.29(21)申请号202010088060.9(22)申请日2020.02.12(71)申请人支付宝（杭州）信息技术有限公司地址310007浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人杨潇峰(74)专利代理机构北京汇思诚业知识产权代理有限公司11444代理人冯伟(51)Int.Cl.G10L15/22(2006.01)G10L15/04(2013.01)G10L15/26(2006.01)G10L15/28(2013.01)权利要求书2页说明书10页附图5页(54)发明名称语音识别方法及其装置(57)摘要本说明书实施例公开了一种自动语音识别方法及其装置，其中，该方法包括：获取待识别语音，对待识别语音进行分割，以生成多个音频切片。将多个音频切片分别发送给多个语音识别方，其中，语音识别方能够生成音频切片对应的文本。分别从每个语音识别方接收音频切片对应的文本，对多个音频切片对应的文本进行文本聚合，以生成待识别语音的识别结果。由此，实现了将待识别语音的音频切片发送给多个语音识别方，由多个语音识别方共同完成待识别语音的识别工作，在语音识别过程中任何语音识别方无法获得全部的待识别语音，从而防止了待识别语音出现泄漏，对待识别语音的内容进行了保密，保护了隐私。CN111210822ACN111210822A权利要求书1/2页1.一种语音识别方法，包括：获取待识别语音；对所述待识别语音进行分割，以生成多个音频切片；将所述多个音频切片分别发送给多个语音识别方；其中，所述语音识别方能够生成所述音频切片对应的文本；分别从每个所述语音识别方接收所述音频切片对应的文本；以及对所述多个音频切片对应的文本进行文本聚合，以生成所述待识别语音的识别结果。2.如权利要求1所述的语音识别方法，其中，所述对所述待识别语音进行分割，以生成多个音频切片，包括：生成所述待识别语音的波形图；根据所述波形图中的语音波形，确定所述待识别语音中的停顿；根据所述待识别语音中的停顿，将所述待识别语音分割成所述多个音频切片。3.如权利要求2所述的语音识别方法，其中，所述根据所述待识别语音中的停顿，将所述待识别语音分割成所述多个音频切片，包括：使用语音识别技术对所述待识别语音进行识别，以生成所述待识别语音对应的模糊文本；使用分词算法对所述待识别语音对应的模糊文本进行分词；根据所述待识别语音中的停顿和分词结果，将所述待识别语音分割成所述多个音频切片。4.如权利要求1所述的语音识别方法，其中，所述将所述多个音频切片分别发送给多个语音识别方，包括：将每个所述音频切片与音频标记相对应；其中，所述音频标记与所述音频切片在所述待识别语音中的位置相关；将多个所述音频切片发送给所述多个语音识别方。5.如权利要求4所述的语音识别方法，其中，所述对所述多个音频切片对应的文本进行文本聚合，以生成所述待识别语音的识别结果，包括：根据所述文本与所述音频标记的对应关系，对所述文本进行排序；将排序后的所述文本进行拼接，以生成所述待识别语音的识别结果。6.如权利要求1-5中任一项所述的语音识别方法，其中，在所述对所述多个音频切片对应的文本进行文本聚合，以生成所述待识别语音的识别结果之后，还包括：使用语言模型对所述待识别语音的识别结果进行文本纠错。7.一种语音识别装置，包括：获取模块，用于获取待识别语音；分割模块，用于对所述待识别语音进行分割，以生成多个音频切片；发送模块，用于将所述多个音频切片分别发送给多个语音识别方；其中，所述语音识别方能够生成所述音频切片对应的文本；接收模块，用于分别从每个所述语音识别方接收所述音频切片对应的文本；以及聚合模块，用于对所述多个音频切片对应的文本进行文本聚合，以生成所述待识别语音的识别结果。2CN111210822A权利要求书2/2页8.如权利要求7所述的语音识别装置，其中，所述分割模块，包括：生成子模块，用于生成所述待识别语音的波形图；确定子模块，用于根据所述波形图中的语音波形，确定所述待识别语音中的停顿；分割子模块，用于根据所述待识别语音中的停顿，将所述待识别语音分割成所述多个音频切片。9.如权利要求8所述的语音识别装置，其中，所述分割子模块，包括：识别单元，用于使用语音识别技术对所述待识别语音进行识别，以生成所述待识别语音对应的模糊文本；分词单元，用于使用分词算法对所述待识别语音对应的模糊文本进行分词；分割单元，用于根据所述待识别语音中的停顿和分词结果，将所述待识别语音分割成所述多个音频切片。10.如权利要求7所述的语音识别装置，其中，所述发送模块，包括：标记子模块，用于将每个所述音频切片与音频标记相对应；其中，所述音频标记与所述

相关资料

语音识别方法及其装置.pdf

本说明书实施例公开了一种自动语音识别方法及其装置，其中，该方法包括：获取待识别语音，对待识别语音进行分割，以生成多个音频切片。将多个音频切片分别发送给多个语音识别方，其中，语音识别方能够生成音频切片对应的文本。分别从每个语音识别方接收音频切片对应的文本，对多个音频切片对应的文本进行文本聚合，以生成待识别语音的识别结果。由此，实现了将待识别语音的音频切片发送给多个语音识别方，由多个语音识别方共同完成待识别语音的识别工作，在语音识别过程中任何语音识别方无法获得全部的待识别语音，从而防止了待识别语音出现泄漏，对

2023-05-25

858KB

语音识别方法及装置.pdf

本发明提出一种语音识别方法及装置，其中方法包括：通过获取待识别的语音以及参数信息；所述参数信息包括：当前模式、所述语音的识别序号、内外噪音信息以及方位信息；提取所述语音对应的特征向量；根据所述当前模式、所述识别序号，确定所述语音是否属于单次唤醒多次识别模式中的非首次语音；若所述语音属于单次唤醒多次识别模式中的非首次语音，则根据所述参数信息和所述特征向量，获取语音识别结果、声学判定结果和语义判定结果，根据所述声学判定结果和所述语义判定结果，确定所述语音是否属于音乐领域；若所述语音属于音乐领域，则根据所述语音

2023-12-04

613KB

语音识别方法及装置.pdf

本发明实施例提供一种语音识别方法及装置，包括：获取语音信号对应的候选词串；调用领域语言模型，确定所述候选词串在领域语言模型中对应的概率增强系数；调用基本语言模型，确定所述候选词串在基本语言模型中的基本匹配概率；将所述概率增强系数结合所述基本匹配概率获得所述候选词串的总匹配概率；根据各候选词串的总匹配概率，计算各候选词串组成的词序列的概率，并根据概率最高的词序列生成所述语音信号对应的语言文本。本发明实施例提供的语音识别方法及装置，综合考虑了基本语言模型中的通用说话习惯，又兼顾了领域语言模型中的特定用词习惯，

2023-12-07

747KB

语音识别方法及装置.pdf

本发明实施例提供一种语音识别方法及装置，服务器获得待处理的语音信号后，利用预先部署的增量训练模型对该语音信号进行识别从而得到文本信息。由于增量训练模型是预先采用知识蒸馏的方式，仅利用少量新业务场景的样本对旧业务场景的ASR模型进行训练得到的，使得该增量训练模型既能够适用于新业务场景又能保留旧业务场景的语音信号的识别能力，解决了采用全量数据训练带来的时间成本以及深度迁移学习导致的泛化能力下降的问题。

2023-11-07

954KB

语音识别方法及装置.pdf

本申请实施例提供一种语音识别方法及装置，涉及信息处理技术领域，该方法包括：获取多通道语音文件；将多通道语音文件分离为每个对话人的独立语音子文件；获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息；将每个独立语音子文件识别为文本；生成多通道语音文件的特征信息，该特征信息包括多通道语音文件对应的每个独立语音子文件的文本信息、每个独立语音子文件的起始时间信息和终止时间信息、每个独立语音子文件的排序信息及每个独立语音子文件的对话人标识信息。因此可以从多通道语音文件中分离出每个对话人的文本信息、各文

2023-08-19

1.1MB