音频识别方法、装置和计算机可读存储介质-豆柴文库

音频识别方法、装置和计算机可读存储介质.pdf

2023-07-25

10金币

1.3MB

30页

努力****冰心

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共30页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113761269A(43)申请公布日2021.12.07(21)申请号202110558140.0(22)申请日2021.05.21(71)申请人腾讯科技（深圳）有限公司地址518057广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人张义飞康斌(74)专利代理机构北京市柳沈律师事务所11105代理人王娟(51)Int.Cl.G06F16/683(2019.01)G06F16/68(2019.01)G06F16/65(2019.01)G06K9/00(2006.01)G06K9/62(2006.01)权利要求书4页说明书18页附图7页(54)发明名称音频识别方法、装置和计算机可读存储介质(57)摘要提供了音频识别方法、装置和计算机可读存储介质。方法可以由包括云服务器的计算机设备执行，并且包括：提取待识别音频文件的音频特征；待识别音频文件进行分段，得到多个音频时间片，并基于每个音频时间片内的音频的事件类别以及所述事件类别与预设目标事件的相关性，确定与音频时间片关联的音频特征的权重；基于待识别音频文件的音频特征得到多个音频特征分段，其中每个音频特征分段对应至少一个时间片；将每个音频特征分段与音频特征组合库进行特征匹配，并基于至少一个音频时间片中的音频特征以及与其关联的权重，得到所述音频特征分段的匹配音频文件集；以及基于每个音频特征分段的匹配音频文件集，得到所述待识别音频文件的识别结果。CN113761269ACN113761269A权利要求书1/4页1.一种音频识别方法，包括：获取待识别音频文件，并提取所述待识别音频文件的音频特征；将所述待识别音频文件按照第一时间间隔进行分段，得到多个音频时间片，并基于每个音频时间片内的音频的事件类别以及所述事件类别与预设目标事件的相关性，确定与所述音频时间片相关联的权重；将所述待识别音频文件的音频特征按照第二时间间隔进行分段，得到多个音频特征分段，其中每个音频特征分段包括至少一个音频时间片中的音频特征；针对每个音频特征分段，将所述音频特征分段与音频特征组合库进行特征匹配，并基于所述至少一个音频时间片中的音频特征以及与所述至少一个音频时间片相关联的权重，得到所述音频特征分段的匹配音频文件集；以及基于所述多个音频特征分段中的每个音频特征分段的匹配音频文件集，得到所述待识别音频文件的识别结果。2.根据权利要求1所述的方法，其中，基于每个音频时间片内的音频的事件类别以及所述事件类别与预设目标事件的相关性，确定与所述音频时间片相关联的权重，包括：对所述音频时间片内的音频进行事件分类，得到所述音频时间片内的音频属于预设事件类别集中的每个事件类别的概率集；基于所述概率集确定所述音频时间片内的音频的至少一个事件类别；以及基于所述至少一个事件类别与所述预设目标事件的相关性，确定与所述音频时间片相关联的权重。3.根据权利要求1所述的方法，其中，所述待识别音频文件的音频特征包括多个特征向量和与所述多个特征向量分别对应的多个时间点，其中，将所述音频特征分段与音频特征组合库进行特征匹配，并基于所述至少一个音频时间片中的音频特征以及与所述至少一个音频时间片相关联的权重，得到所述音频特征分段的匹配音频文件集，包括：将所述音频特征分段的音频特征与所述音频特征组合库进行特征匹配，得到所述音频特征分段的音频特征对应的相似特征向量对集、时间对集和音频文件标识集，其中，所述相似特征向量对集包括多个相似特征向量对，所述时间对集包括多个时间对，所述音频文件标识集包括多个音频文件标识，并且所述每个相似特征向量对具有与其对应的时间对和音频文件标识，每个相似特征向量对包括所述音频特征分段的音频特征包括的第一特征向量和音频特征组合库中的音频特征包括的第二特征向量，每个时间对包括所述第一特征向量对应的第一时间点和所述第二特征向量对应的第二时间点，与所述相似特征向量对和所述时间对相对应的音频文件标识为所述音频特征组合库中包括所述第二特征向量的音频特征所属的参考音频文件的标识；基于所述多个相似特征向量对、所述音频特征分段在每个第一时间点处的音频特征的第一权重、所述音频特征组合库中在每个第二时间点处的音频特征的第二权重、以及所述音频文件标识集，确定所述音频特征分段的匹配音频文件集，其中所述匹配音频文件集包括至少一个匹配音频文件。4.根据权利要求3所述的方法，其中，基于所述多个相似特征向量对、所述音频特征分段在每个第一时间点处的音频特征的第一权重、所述音频特征组合库中在每个第二时间点2CN113761269A权利要求书2/4页处的音频特征的第二权重、以及音频文件标识集，确定所述音频特征分段的匹配音频文件集，包括：基于所述音频文件标识集包括的多个音频文件标识，确定用于

相关资料

音频识别方法、装置和计算机可读存储介质.pdf

提供了音频识别方法、装置和计算机可读存储介质。方法可以由包括云服务器的计算机设备执行，并且包括：提取待识别音频文件的音频特征；待识别音频文件进行分段，得到多个音频时间片，并基于每个音频时间片内的音频的事件类别以及所述事件类别与预设目标事件的相关性，确定与音频时间片关联的音频特征的权重；基于待识别音频文件的音频特征得到多个音频特征分段，其中每个音频特征分段对应至少一个时间片；将每个音频特征分段与音频特征组合库进行特征匹配，并基于至少一个音频时间片中的音频特征以及与其关联的权重，得到所述音频特征分段的匹配音频

2023-07-25

1.3MB

音频识别方法、装置、电子设备和可读存储介质.pdf

本申请提供一种音频识别方法、装置、电子设备和可读存储介质，首先利用预先构建的第一过滤模型对待识别音频中的第一类噪声进行过滤得到第一识别音频，第一类噪声为非语音噪声。再利用预先构建的第二过滤模型对第一识别音频中的第二类噪声进行过滤得到第二识别音频，第一识别音频中包含目标语音和非目标语音，第二类噪声属于非目标语音。最后，将第二识别音频导入预先构建的识别模型，对第二识别音频中的目标语音进行处理得到对应的文本。该方案，预先对非语音噪声和属于非目标语音的噪声进行过滤处理，降低了语音识别的处理压力且排除各类噪声的干扰

2023-07-24

843KB

音频识别方法、装置、终端、耳机及可读存储介质.pdf

本申请涉及一种音频识别方法、装置、终端、耳机及可读存储介质。该方法包括：接收音频识别请求，根据所述音频识别请求生成音频识别指令；执行所述音频识别指令，基于耳机上的电声换能器录制音频片段；向服务器发送携带所述音频片段的识别请求；所述识别请求用于指示所述服务器获取与所述音频片段相关的音频信息；接收所述服务器返回的识别结果，并根据所述识别结果进行信息播放。通过上述方法，可以通过耳机实现识别音频片段的过程，并且可以将识别结果直接通过耳机播放出来，给用户带来更便捷的听觉体验，方便用户随时收录想要收听的音乐。

2023-12-05

678KB

音频内容识别方法、装置、设备和计算机可读介质.pdf

本公开的实施例公开了音频内容识别方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：对音频进行切分，得到语音片段集合和非语音片段集合；确定上述语音片段集合中的每个语音片段的类型和语种信息；对于上述语音片段集合中的每个语音片段，基于上述语音片段的类型和语种信息，对上述语音片段进行语音识别，得到第一识别结果。该实施方式通过将音频中的说话和音乐片段用不同的模型进行识别，使两种音频内容都能得到更好的识别效果。以及，通过使用不同的模型是被不同语种内容的音频，进一步提升了语音识别的效果。

2023-12-03

626KB

音频分类方法、装置及计算机可读存储介质.pdf

本发明公开了一种音频分类方法、装置及计算机可读存储介质，属于电子技术领域。该方法包括：采集音频信号；对音频信号进行截取或补充，以将音频信号的时长调整为预设时长；根据音频信号的频率信息，将音频信号转换为目标音频；通过预设分类器中包括的卷积网络提取目标音频的音频特征；通过预设分类器中包括的门限循环网络提取音频特征的时序特征；根据时序特征，通过预设分类器中包括的全连接网络确定目标音频的类别为多个预设类别标识中每个预设类别标识所标识的预设类别的概率；将多个预设类别标识中概率最大的预设类别标识所标识的预设类别确定为

2023-11-17

1MB