预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112035696A(43)申请公布日2020.12.04(21)申请号202010938773.X(22)申请日2020.09.09(71)申请人兰州理工大学地址730050甘肃省兰州市七里河区兰工坪路287号(72)发明人张秋余许福久张其文段宏湘白建赵雪娇(74)专利代理机构北京高沃律师事务所11569代理人杜阳阳(51)Int.Cl.G06F16/635(2019.01)G06F16/683(2019.01)G10L15/02(2006.01)G10L15/08(2006.01)G10L25/24(2013.01)权利要求书3页说明书12页附图3页(54)发明名称一种基于音频指纹的语音检索方法及系统(57)摘要本发明涉及一种基于音频指纹的语音检索方法及系统。该方法包括:提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征;将所述MFCC特征和所述LPCC特征进行特征组合处理,确定组合后的特征矩阵;基于信息熵的特征降维方法,对所述组合后的特征矩阵进行列降维,确定列降维后的特征矩阵;基于能量的特征降维方法,对所述列降维后的特征矩阵进行行降维,确定行降维后的特征矩阵;根据所述行降维后的特征矩阵构建音频指纹数据库;利用归一化汉明距离算法,将待查询语音片段与所述音频指纹库中的音频指纹进行匹配检索。本发明能够提高对长语音片段的检索效率和检索精度以及音频指纹的检索鲁棒性。CN112035696ACN112035696A权利要求书1/3页1.一种基于音频指纹的语音检索方法,其特征在于,包括:提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征;将所述MFCC特征和所述LPCC特征进行特征组合处理,确定组合后的特征矩阵;基于信息熵的特征降维方法,对所述组合后的特征矩阵进行列降维,确定列降维后的特征矩阵;基于能量的特征降维方法,对所述列降维后的特征矩阵进行行降维,确定行降维后的特征矩阵;根据所述行降维后的特征矩阵构建音频指纹数据库;利用归一化汉明距离算法,将待查询语音片段与所述音频指纹库中的音频指纹进行匹配检索。2.根据权利要求1所述的基于音频指纹的语音检索方法,其特征在于,所述提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征,之前还包括:对所述原始语音进行加窗分帧处理,确定加窗分帧处理后的原始语音。3.根据权利要求1所述的基于音频指纹的语音检索方法,其特征在于,所述基于信息熵的特征降维方法,对所述组合后的特征矩阵进行列降维,确定列降维后的特征矩阵,具体包括:对所述组合后的特征矩阵进行归一化处理,确定归一化处理后的特征矩阵;计算所述归一化处理后的特征矩阵的信息熵,确定信息熵矩阵;基于所述信息熵矩阵,将特征分量从大到小进行排序,确定列降维后的特征矩阵。4.根据权利要求1所述的基于音频指纹的语音检索方法,其特征在于,所述基于能量的特征降维方法,对所述列降维后的特征矩阵进行行降维,确定行降维后的特征矩阵,具体包括:将所述原始语音进行分帧处理,分成n帧,将分帧后的语音信号平均分为五段,每段语音信号包含的帧数为z;在所述每段语音信号的帧数范围[f1,f(z-30)]内,对每帧语音信号进行快速傅里叶变换,得到频域信号,并确定每帧语音信号的对数能量特征;基于所述每帧语音信号的对数能量特征,对比所述每段语音信号的对数能量特征确定所述每段语音信号中能量最高的帧fmax;并以所述帧fmax为起点,向后取30个帧,将帧数范围[fmax,f(max+30)]作为所述每段语音信号的待提取特征帧;构建一个n×1的空矩阵,并将所述空矩阵中待提取特征帧的位置置1,剩余位置置0,确定特征选择矩阵;将所述列降维后的特征矩阵与所述特征选择矩阵相乘,确定行降维后的特征矩阵。5.根据权利要求1所述的基于音频指纹的语音检索方法,其特征在于,所述根据所述行降维后的特征矩阵构建音频指纹数据库,具体包括:根据所述行降维后的特征矩阵构建音频指纹;将所述音频指纹的每列进行转置处理并进行组合,确定重构的音频指纹;确定语音库中所有语音信号的音频指纹;根据所述重构的音频指纹以及所述语音库中所有语音信号的音频指纹构建线性检索2CN112035696A权利要求书2/3页表;根据所述线性检索表生成音频指纹数据库。6.一种基于音频指纹的语音检索系统,其特征在于,包括:特征提取模块,用于提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征;组合处理模块,用于将所述MFCC特征和所述LPCC特征进行特征组合处理,确定组合后的特征矩阵;列降维模块,用于基于信息熵的特征降维方法,对所述组合后的特征矩阵