音频信号识别方法及装置-豆柴文库

音频信号识别方法及装置.pdf

2023-06-02

10金币

944KB

15页

a是****澜吖

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共15页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115938349A(43)申请公布日2023.04.07(21)申请号202211506278.7G10L25/03(2013.01)(22)申请日2022.11.28G10L25/27(2013.01)G06N20/00(2019.01)(71)申请人中国银行股份有限公司地址100818北京市西城区复兴门内大街1号(72)发明人毕珊(74)专利代理机构北京三友知识产权代理有限公司11127专利代理师赵冬梅(51)Int.Cl.G10L15/02(2006.01)G10L15/10(2006.01)G10L15/06(2013.01)G10L15/07(2013.01)G10L17/26(2013.01)权利要求书2页说明书6页附图6页(54)发明名称音频信号识别方法及装置(57)摘要本发明公开一种音频信号识别方法及装置，涉及人工智能技术领域，该方法包括：获取待识别音频模拟信号，音频模拟信号具备指定人群口语特征时，将音频模拟信号输入声音特征模型，得到音频模拟信号声音特征；对音频模拟信号声音特征生成脉冲编码调制PCM音频数据；对PCM音频数据频谱图进行分帧和频域处理，得到星状图；构建指纹哈希值，提取指纹哈希值第一时间偏移；将指纹哈希值与数据库音频哈希值匹配，提取匹配的音频哈希值第二时间偏移；第一时间偏移与第二时间偏移相似度大于阈值，将哈希值与指纹哈希值匹配音频确定为音频模拟信号识别结果。本发明可以实现针对指定人群更准确的音频识别，提升音频信号识别成功率，改善用户体验。CN115938349ACN115938349A权利要求书1/2页1.一种音频信号识别方法，其特征在于，包括：获取待识别的音频模拟信号，在音频模拟信号具备指定人群的口语特征时，将音频模拟信号输入声音特征模型，得到音频模拟信号的声音特征；所述声音特征模型根据指定人群的语音库对机器学习模型训练得到，所述语音库包括具备指定人群的口语特征的语料；对音频模拟信号的声音特征生成脉冲编码调制PCM音频数据；对PCM音频数据的频谱图进行分帧和频域处理，得到星状图；对星状图构建指纹哈希值，提取指纹哈希值的第一时间偏移；将指纹哈希值与音频数据库中音频的哈希值进行匹配，提取与指纹哈希值匹配的音频的哈希值的第二时间偏移；在第一时间偏移与第二时间偏移的相似度大于阈值时，将哈希值与指纹哈希值匹配的音频确定为音频模拟信号的识别结果。2.如权利要求1所述的方法，其特征在于，将指纹哈希值与音频数据库中音频的哈希值进行匹配，提取与指纹哈希值匹配的音频的哈希值的第二时间偏移，包括：将指纹哈希值与音频数据库中音频的哈希值进行匹配，为每个匹配的指纹哈希值和哈希值生成一个时间对；其中，每一时间对包括音频模拟信号的播放时间和数据库中音频的播放时间；将每个音频对应的所有时间对构成散点图，根据散点图提取与指纹哈希值匹配的音频的哈希值的第二时间偏移。3.如权利要求1所述的方法，其特征在于，获取待识别的音频模拟信号之后，还包括：对音频模拟信号的如下一项或任意多项特征进行分析，根据分析结果确定音频模拟信号是否具备指定人群的口语特征：清晰度特征、连续性特征、音调准确度特征。4.如权利要求1所述的方法，其特征在于，还包括：在无法确定出识别结果或确定出的识别结果有误时，向用户发出补充输入信息的提示。5.如权利要求4所述的方法，其特征在于，还包括：将以下内容作为新增样本，录入语音库，继续对所述声音特征模型进行训练：确定出的识别结果无误时，音频模拟信号和音频模拟信号的声音特征；和/或，无法确定出识别结果或确定出的识别结果有误时，音频模拟信号、用户补充输入信息、和根据用户补充输入信息更新的音频模拟信号的声音特征。6.一种音频信号识别装置，其特征在于，包括：音频识别模块，用于获取待识别的音频模拟信号，在音频模拟信号具备指定人群的口语特征时，将音频模拟信号输入声音特征模型，得到音频模拟信号的声音特征；所述声音特征模型根据指定人群的语音库对机器学习模型训练得到，所述语音库包括具备指定人群的口语特征的语料；音频处理模块，用于对音频模拟信号的声音特征生成脉冲编码调制PCM音频数据；对PCM音频数据的频谱图进行分帧和频域处理，得到星状图；对星状图构建指纹哈希值，提取指纹哈希值的第一时间偏移；音频匹配模块，用于将指纹哈希值与音频数据库中音频的哈希值进行匹配，提取与指2CN115938349A权利要求书2/2页纹哈希值匹配的音频的哈希值的第二时间偏移；在第一时间偏移与第二时间偏移的相似度大于阈值时，将哈希值与指纹哈希值匹配的音频确定为音频模拟信号的识别结果。7.如权利要求6所述的装置，其特征在于，所述音频处理模块具体用于：将指纹哈希值与音频数据库中音频的哈希值进行匹配，为每个匹配的指

相关资料

音频信号识别方法及装置.pdf

本发明公开一种音频信号识别方法及装置，涉及人工智能技术领域，该方法包括：获取待识别音频模拟信号，音频模拟信号具备指定人群口语特征时，将音频模拟信号输入声音特征模型，得到音频模拟信号声音特征；对音频模拟信号声音特征生成脉冲编码调制PCM音频数据；对PCM音频数据频谱图进行分帧和频域处理，得到星状图；构建指纹哈希值，提取指纹哈希值第一时间偏移；将指纹哈希值与数据库音频哈希值匹配，提取匹配的音频哈希值第二时间偏移；第一时间偏移与第二时间偏移相似度大于阈值，将哈希值与指纹哈希值匹配音频确定为音频模拟信号识别结果。

2023-06-02

944KB

音频识别方法和装置.pdf

本发明公开一种音频识别方法和装置。其中音频识别方法包括：采集在播放音频文件时产生的音频信息；提取出隐藏在音频信息中的附加信息；从附加信息中提取出音频文件的标识信息；将标识信息呈现给用户。本发明通过在音频播放过程中采集、滤出并还原音频制作时隐藏在音频信息中的标识信息，从而实现音频的即时识别。该方法适用于通过移动终端上的应用，识别广播、广告、电视和电影中正在播放的音乐，从而提高用户体验。

2023-12-07

1.9MB

音频信号处理方法、音频信号处理装置及存储介质.pdf

本公开关于一种音频信号处理方法、音频信号处理装置及存储介质。音频信号处理方法包括：获取麦克风所采集的观测数据。响应于存在直达声和早期反射的协方差矩阵估计更新值，基于直达声和早期反射声的协方差矩阵估计更新值，对观测数据进行去混响处理，得到直达声和早期反射声的估计值。基于直达声和早期反射声的估计值，对多声源音频信号进行盲源分离处理，得到各声源的时域声源信号。通过本公开提供的音频信号处理方法，能够基于盲源分离算法，获取用于确定直达声和早期反射声的估计值的直达声和早期反射声的协方差矩阵，进而进行盲源分离得到各音频

2023-06-27

1.2MB

音频识别方法、装置及存储介质.pdf

本发明公开了一种音频识别方法、装置及存储介质，该方法包括：获取音频文件，以及音频文件对应的文本信息，文本信息包括多个字；依次将文本信息中的每个字，设置为目标字，并获取目标字对应的时间信息，时间信息包括目标字的开始时间和目标字的结束时间；根据目标字的开始时间，确定目标字对应的多个开始调整时间，并根据目标字的结束时间，确定目标字对应的多个结束调整时间；根据目标字的多个开始调整时间和目标字的多个结束调整时间，对音频文件进行识别，得到目标字的音高信息。该方案通过在根据目标字对应的开始时间和结束时间，确定多个开始调

2023-12-05

1.2MB

一种音频信号处理方法及音频信号处理装置.pdf

本发明公开了一种音频信号处理方法，包括：获取用户在运动过程中产生的步频参数；从终端中获取待处理的音频信号；根据步频参数对音频信号的节拍频率进行修改，使得修改后音频信号的节拍频率与步频参数之差小于预设阈值；输出修改后的音频信号。本发明还提供一种可以实现上述音频信号处理方法的终端。本发明能够保持音乐节拍频率与用户运动步频一致。

2023-12-06

722KB