语音识别方法及装置-豆柴文库

语音识别方法及装置.pdf

2023-08-19

10金币

1.1MB

19页

Ma****57

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共19页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN108630193A(43)申请公布日2018.10.09(21)申请号201710170345.5(22)申请日2017.03.21(71)申请人北京嘀嘀无限科技发展有限公司地址100193北京市海淀区东北旺西路8号院34号楼(72)发明人贺利强李晓辉万广鲁(74)专利代理机构北京友联知识产权代理事务所(普通合伙)11343代理人尚志峰汪海屏(51)Int.Cl.G10L15/02(2006.01)G10L15/26(2006.01)权利要求书2页说明书11页附图5页(54)发明名称语音识别方法及装置(57)摘要本申请实施例提供一种语音识别方法及装置，涉及信息处理技术领域，该方法包括：获取多通道语音文件；将多通道语音文件分离为每个对话人的独立语音子文件；获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息；将每个独立语音子文件识别为文本；生成多通道语音文件的特征信息，该特征信息包括多通道语音文件对应的每个独立语音子文件的文本信息、每个独立语音子文件的起始时间信息和终止时间信息、每个独立语音子文件的排序信息及每个独立语音子文件的对话人标识信息。因此可以从多通道语音文件中分离出每个对话人的文本信息、各文本信息对应的时序信息和角色信息，将这些信息作为机器学习的训练数据，从而提高机器学习的性能。CN108630193ACN108630193A权利要求书1/2页1.一种语音识别方法，其特征在于，所述方法包括：获取多通道语音文件，其中，所述多通道语音文件包含多个对话人进行对话的语音数据；将所述多通道语音文件分离为每个对话人的独立语音子文件；获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息；将所述每个独立语音子文件识别为文本；生成所述多通道语音文件的特征信息，其中，所述特征信息包括：所述多通道语音文件对应的所述每个独立语音子文件的文本信息、所述每个独立语音子文件的起始时间信息、所述每个独立语音子文件的终止时间信息、所述每个独立语音子文件的排序信息及所述每个独立语音子文件的对话人标识信息。2.根据权利要求1所述的方法，其特征在于，所述排序信息通过以下方式得到：根据所述每个独立语音子文件的起始时间信息对所述每个独立语音子文件的文本进行排序后得到所述文本排序信息。3.根据权利要求1所述的方法，其特征在于，所述多通道语音文件的特征信息用于机器学习。4.根据权利要求1所述的方法，其特征在于，所述将所述多通道语音文件分离为每个对话人的独立语音子文件，包括：使用语音端点检测算法，除去所述多通道语音文件中的静音和噪声部分，得到语音除噪结果{S1,S2,…Sn}，其中，Si包括第i个有效语音文件及所述第i个有效语音文件的起始时间信息及终止时间信息，i≤n；使用语音通道分离算法，对所述语音除噪结果{S1,S2,…Sn}进行处理，得到语音通道分离结果{A1,A2,…,Am}，其中，Aj包括所述多个对话人中的第j个对话人的独立语音子文件及所述第j个对话人的独立语音子文件的起始时间信息和终止时间信息，j≤m。5.根据权利要求1所述的方法，其特征在于，所述将所述多通道语音文件分离为每个对话人的独立语音子文件，包括：使用语音通道分离算法，对所述多通道语音文件进行处理，得到语音通道分离结果{T1,T2,…Tq}，其中，Ti包括所述多个对话人中的第i个对话人的独立语音子文件及所述第i个对话人的独立语音子文件的起始时间信息和终止时间信息，i≤q；使用语音端点检测算法，对所述语音通道分离结果{T1,T2,…Tp}进行处理，得到语音除噪结果{B1,B2,…,Bq}，其中，Bq包括所述多个对话人中的第j个对话人的经过除噪处理后的独立语音子文件及所述第j个对话人的经过除噪处理后的独立语音子文件的起始时间信息和终止时间信息，j≤q。6.一种语音识别装置，其特征在于，所述装置包括：语音文件获取模块，用于获取多通道语音文件，其中，所述多通道语音文件包含多个对话人进行对话的语音数据；语音文件分离模块，用于将所述语音文件获取模块获取到的多通道语音文件分离为每个对话人的独立语音子文件；信息获得模块，用于获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息；2CN108630193A权利要求书2/2页语音识别模块，用于将所述语音文件分离模块分离出的每个独立语音子文件识别为文本；特征信息生成模块，用于生成所述多通道语音文件的特征信息，其中，所述特征信息包括：所述多通道语音文件对应的所述每个独立语音子文件的文本信息、所述每个独立语音子文件的起始时间信息、所述每个独立语音子文件的终止时间信息、所述每个独立语音子文件的排序信息及所述每个独立语音子文件的对话人标识信息。7.根据权利要

相关资料

语音识别方法及装置.pdf

本发明提出一种语音识别方法及装置，其中方法包括：通过获取待识别的语音以及参数信息；所述参数信息包括：当前模式、所述语音的识别序号、内外噪音信息以及方位信息；提取所述语音对应的特征向量；根据所述当前模式、所述识别序号，确定所述语音是否属于单次唤醒多次识别模式中的非首次语音；若所述语音属于单次唤醒多次识别模式中的非首次语音，则根据所述参数信息和所述特征向量，获取语音识别结果、声学判定结果和语义判定结果，根据所述声学判定结果和所述语义判定结果，确定所述语音是否属于音乐领域；若所述语音属于音乐领域，则根据所述语音

2023-12-04

613KB

语音识别方法及装置.pdf

本发明实施例提供一种语音识别方法及装置，包括：获取语音信号对应的候选词串；调用领域语言模型，确定所述候选词串在领域语言模型中对应的概率增强系数；调用基本语言模型，确定所述候选词串在基本语言模型中的基本匹配概率；将所述概率增强系数结合所述基本匹配概率获得所述候选词串的总匹配概率；根据各候选词串的总匹配概率，计算各候选词串组成的词序列的概率，并根据概率最高的词序列生成所述语音信号对应的语言文本。本发明实施例提供的语音识别方法及装置，综合考虑了基本语言模型中的通用说话习惯，又兼顾了领域语言模型中的特定用词习惯，

2023-12-07

747KB

语音识别方法及装置.pdf

本发明实施例提供一种语音识别方法及装置，服务器获得待处理的语音信号后，利用预先部署的增量训练模型对该语音信号进行识别从而得到文本信息。由于增量训练模型是预先采用知识蒸馏的方式，仅利用少量新业务场景的样本对旧业务场景的ASR模型进行训练得到的，使得该增量训练模型既能够适用于新业务场景又能保留旧业务场景的语音信号的识别能力，解决了采用全量数据训练带来的时间成本以及深度迁移学习导致的泛化能力下降的问题。

2023-11-07

954KB

语音识别方法及装置.pdf

本申请实施例提供一种语音识别方法及装置，涉及信息处理技术领域，该方法包括：获取多通道语音文件；将多通道语音文件分离为每个对话人的独立语音子文件；获得每个独立语音子文件的起始时间信息、终止时间信息及对话人标识信息；将每个独立语音子文件识别为文本；生成多通道语音文件的特征信息，该特征信息包括多通道语音文件对应的每个独立语音子文件的文本信息、每个独立语音子文件的起始时间信息和终止时间信息、每个独立语音子文件的排序信息及每个独立语音子文件的对话人标识信息。因此可以从多通道语音文件中分离出每个对话人的文本信息、各文

2023-08-19

1.1MB

语音识别方法及其装置.pdf

本说明书实施例公开了一种自动语音识别方法及其装置，其中，该方法包括：获取待识别语音，对待识别语音进行分割，以生成多个音频切片。将多个音频切片分别发送给多个语音识别方，其中，语音识别方能够生成音频切片对应的文本。分别从每个语音识别方接收音频切片对应的文本，对多个音频切片对应的文本进行文本聚合，以生成待识别语音的识别结果。由此，实现了将待识别语音的音频切片发送给多个语音识别方，由多个语音识别方共同完成待识别语音的识别工作，在语音识别过程中任何语音识别方无法获得全部的待识别语音，从而防止了待识别语音出现泄漏，对

2023-05-25

858KB