预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115938349A(43)申请公布日2023.04.07(21)申请号202211506278.7G10L25/03(2013.01)(22)申请日2022.11.28G10L25/27(2013.01)G06N20/00(2019.01)(71)申请人中国银行股份有限公司地址100818北京市西城区复兴门内大街1号(72)发明人毕珊(74)专利代理机构北京三友知识产权代理有限公司11127专利代理师赵冬梅(51)Int.Cl.G10L15/02(2006.01)G10L15/10(2006.01)G10L15/06(2013.01)G10L15/07(2013.01)G10L17/26(2013.01)权利要求书2页说明书6页附图6页(54)发明名称音频信号识别方法及装置(57)摘要本发明公开一种音频信号识别方法及装置,涉及人工智能技术领域,该方法包括:获取待识别音频模拟信号,音频模拟信号具备指定人群口语特征时,将音频模拟信号输入声音特征模型,得到音频模拟信号声音特征;对音频模拟信号声音特征生成脉冲编码调制PCM音频数据;对PCM音频数据频谱图进行分帧和频域处理,得到星状图;构建指纹哈希值,提取指纹哈希值第一时间偏移;将指纹哈希值与数据库音频哈希值匹配,提取匹配的音频哈希值第二时间偏移;第一时间偏移与第二时间偏移相似度大于阈值,将哈希值与指纹哈希值匹配音频确定为音频模拟信号识别结果。本发明可以实现针对指定人群更准确的音频识别,提升音频信号识别成功率,改善用户体验。CN115938349ACN115938349A权利要求书1/2页1.一种音频信号识别方法,其特征在于,包括:获取待识别的音频模拟信号,在音频模拟信号具备指定人群的口语特征时,将音频模拟信号输入声音特征模型,得到音频模拟信号的声音特征;所述声音特征模型根据指定人群的语音库对机器学习模型训练得到,所述语音库包括具备指定人群的口语特征的语料;对音频模拟信号的声音特征生成脉冲编码调制PCM音频数据;对PCM音频数据的频谱图进行分帧和频域处理,得到星状图;对星状图构建指纹哈希值,提取指纹哈希值的第一时间偏移;将指纹哈希值与音频数据库中音频的哈希值进行匹配,提取与指纹哈希值匹配的音频的哈希值的第二时间偏移;在第一时间偏移与第二时间偏移的相似度大于阈值时,将哈希值与指纹哈希值匹配的音频确定为音频模拟信号的识别结果。2.如权利要求1所述的方法,其特征在于,将指纹哈希值与音频数据库中音频的哈希值进行匹配,提取与指纹哈希值匹配的音频的哈希值的第二时间偏移,包括:将指纹哈希值与音频数据库中音频的哈希值进行匹配,为每个匹配的指纹哈希值和哈希值生成一个时间对;其中,每一时间对包括音频模拟信号的播放时间和数据库中音频的播放时间;将每个音频对应的所有时间对构成散点图,根据散点图提取与指纹哈希值匹配的音频的哈希值的第二时间偏移。3.如权利要求1所述的方法,其特征在于,获取待识别的音频模拟信号之后,还包括:对音频模拟信号的如下一项或任意多项特征进行分析,根据分析结果确定音频模拟信号是否具备指定人群的口语特征:清晰度特征、连续性特征、音调准确度特征。4.如权利要求1所述的方法,其特征在于,还包括:在无法确定出识别结果或确定出的识别结果有误时,向用户发出补充输入信息的提示。5.如权利要求4所述的方法,其特征在于,还包括:将以下内容作为新增样本,录入语音库,继续对所述声音特征模型进行训练:确定出的识别结果无误时,音频模拟信号和音频模拟信号的声音特征;和/或,无法确定出识别结果或确定出的识别结果有误时,音频模拟信号、用户补充输入信息、和根据用户补充输入信息更新的音频模拟信号的声音特征。6.一种音频信号识别装置,其特征在于,包括:音频识别模块,用于获取待识别的音频模拟信号,在音频模拟信号具备指定人群的口语特征时,将音频模拟信号输入声音特征模型,得到音频模拟信号的声音特征;所述声音特征模型根据指定人群的语音库对机器学习模型训练得到,所述语音库包括具备指定人群的口语特征的语料;音频处理模块,用于对音频模拟信号的声音特征生成脉冲编码调制PCM音频数据;对PCM音频数据的频谱图进行分帧和频域处理,得到星状图;对星状图构建指纹哈希值,提取指纹哈希值的第一时间偏移;音频匹配模块,用于将指纹哈希值与音频数据库中音频的哈希值进行匹配,提取与指2CN115938349A权利要求书2/2页纹哈希值匹配的音频的哈希值的第二时间偏移;在第一时间偏移与第二时间偏移的相似度大于阈值时,将哈希值与指纹哈希值匹配的音频确定为音频模拟信号的识别结果。7.如权利要求6所述的装置,其特征在于,所述音频处理模块具体用于:将指纹哈希值与音频数据库中音频的哈希值进行匹配,为每个匹配的指