一种基于音频指纹的语音检索方法及系统-豆柴文库

一种基于音频指纹的语音检索方法及系统.pdf

2023-06-25

10金币

838KB

19页

书生****ma

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共19页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN112035696A(43)申请公布日2020.12.04(21)申请号202010938773.X(22)申请日2020.09.09(71)申请人兰州理工大学地址730050甘肃省兰州市七里河区兰工坪路287号(72)发明人张秋余许福久张其文段宏湘白建赵雪娇(74)专利代理机构北京高沃律师事务所11569代理人杜阳阳(51)Int.Cl.G06F16/635(2019.01)G06F16/683(2019.01)G10L15/02(2006.01)G10L15/08(2006.01)G10L25/24(2013.01)权利要求书3页说明书12页附图3页(54)发明名称一种基于音频指纹的语音检索方法及系统(57)摘要本发明涉及一种基于音频指纹的语音检索方法及系统。该方法包括：提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征；将所述MFCC特征和所述LPCC特征进行特征组合处理，确定组合后的特征矩阵；基于信息熵的特征降维方法，对所述组合后的特征矩阵进行列降维，确定列降维后的特征矩阵；基于能量的特征降维方法，对所述列降维后的特征矩阵进行行降维，确定行降维后的特征矩阵；根据所述行降维后的特征矩阵构建音频指纹数据库；利用归一化汉明距离算法，将待查询语音片段与所述音频指纹库中的音频指纹进行匹配检索。本发明能够提高对长语音片段的检索效率和检索精度以及音频指纹的检索鲁棒性。CN112035696ACN112035696A权利要求书1/3页1.一种基于音频指纹的语音检索方法，其特征在于，包括：提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征；将所述MFCC特征和所述LPCC特征进行特征组合处理，确定组合后的特征矩阵；基于信息熵的特征降维方法，对所述组合后的特征矩阵进行列降维，确定列降维后的特征矩阵；基于能量的特征降维方法，对所述列降维后的特征矩阵进行行降维，确定行降维后的特征矩阵；根据所述行降维后的特征矩阵构建音频指纹数据库；利用归一化汉明距离算法，将待查询语音片段与所述音频指纹库中的音频指纹进行匹配检索。2.根据权利要求1所述的基于音频指纹的语音检索方法，其特征在于，所述提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征，之前还包括：对所述原始语音进行加窗分帧处理，确定加窗分帧处理后的原始语音。3.根据权利要求1所述的基于音频指纹的语音检索方法，其特征在于，所述基于信息熵的特征降维方法，对所述组合后的特征矩阵进行列降维，确定列降维后的特征矩阵，具体包括：对所述组合后的特征矩阵进行归一化处理，确定归一化处理后的特征矩阵；计算所述归一化处理后的特征矩阵的信息熵，确定信息熵矩阵；基于所述信息熵矩阵，将特征分量从大到小进行排序，确定列降维后的特征矩阵。4.根据权利要求1所述的基于音频指纹的语音检索方法，其特征在于，所述基于能量的特征降维方法，对所述列降维后的特征矩阵进行行降维，确定行降维后的特征矩阵，具体包括：将所述原始语音进行分帧处理，分成n帧，将分帧后的语音信号平均分为五段，每段语音信号包含的帧数为z；在所述每段语音信号的帧数范围[f1，f(z-30)]内，对每帧语音信号进行快速傅里叶变换，得到频域信号，并确定每帧语音信号的对数能量特征；基于所述每帧语音信号的对数能量特征，对比所述每段语音信号的对数能量特征确定所述每段语音信号中能量最高的帧fmax；并以所述帧fmax为起点，向后取30个帧，将帧数范围[fmax，f(max+30)]作为所述每段语音信号的待提取特征帧；构建一个n×1的空矩阵，并将所述空矩阵中待提取特征帧的位置置1，剩余位置置0，确定特征选择矩阵；将所述列降维后的特征矩阵与所述特征选择矩阵相乘，确定行降维后的特征矩阵。5.根据权利要求1所述的基于音频指纹的语音检索方法，其特征在于，所述根据所述行降维后的特征矩阵构建音频指纹数据库，具体包括：根据所述行降维后的特征矩阵构建音频指纹；将所述音频指纹的每列进行转置处理并进行组合，确定重构的音频指纹；确定语音库中所有语音信号的音频指纹；根据所述重构的音频指纹以及所述语音库中所有语音信号的音频指纹构建线性检索2CN112035696A权利要求书2/3页表；根据所述线性检索表生成音频指纹数据库。6.一种基于音频指纹的语音检索系统，其特征在于，包括：特征提取模块，用于提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征；组合处理模块，用于将所述MFCC特征和所述LPCC特征进行特征组合处理，确定组合后的特征矩阵；列降维模块，用于基于信息熵的特征降维方法，对所述组合后的特征矩阵

相关资料

一种基于音频指纹的语音检索方法及系统.pdf

本发明涉及一种基于音频指纹的语音检索方法及系统。该方法包括：提取时长为20s的原始语音的梅尔频率倒谱系数MFCC特征和线性预测倒谱系数LPCC特征；将所述MFCC特征和所述LPCC特征进行特征组合处理，确定组合后的特征矩阵；基于信息熵的特征降维方法，对所述组合后的特征矩阵进行列降维，确定列降维后的特征矩阵；基于能量的特征降维方法，对所述列降维后的特征矩阵进行行降维，确定行降维后的特征矩阵；根据所述行降维后的特征矩阵构建音频指纹数据库；利用归一化汉明距离算法，将待查询语音片段与所述音频指纹库中的音频指纹进行

2023-06-25

838KB

基于音频指纹特征的音乐检索系统.pdf

本发明属于信息检索技术领域，具体为一种基于音频指纹特征的音乐检索系统。该系统由预处理模块、特征提取模块、倒排索引模块和精匹配模块四部分组成。预处理模块主要完成音频信号的转换、重采样、滤波；特征提取模块是对音频文件的表示，采用音频指纹特征，通过两次基于动态阈值的筛选来选取频谱中最为稳定的点作为特征点，用一个点对表示一个特征；倒排索引模块是将特征作为关键词，由歌曲库的特征建立倒排索引，根据相同关键词多少返回索引结果；精匹配模块是结合音频特征间的时序关系，采用改进的编辑距离作为两个特征序列的相似度，以此优化索引

2024-01-03

742KB

一种基于指纹因子的鲁棒音频检索方法.docx

一种基于指纹因子的鲁棒音频检索方法标题：一种基于指纹因子的鲁棒音频检索方法摘要：音频检索是一种重要的多媒体检索技术，它可以在广泛的应用场景中帮助用户快速准确地定位所需音频。然而，由于音频信号的复杂性和多样性，音频检索仍然面临着许多挑战。本文针对这些问题，提出了一种基于指纹因子的鲁棒音频检索方法。该方法充分利用音频指纹技术的优势，并通过引入指纹因子的概念，提高了音频检索的准确性和鲁棒性。实验结果表明，该方法在音频检索任务中具有较好的性能和效果。关键词：音频检索、指纹因子、鲁棒性、准确性1.引言音频检索是一种

2024-10-23

11KB

基于压缩感知和音频指纹的固定音频检索方法.docx

基于压缩感知和音频指纹的固定音频检索方法基于压缩感知和音频指纹的固定音频检索方法摘要随着数字化媒体的快速发展，音频数据的规模不断增加，使得音频检索成为一个重要的研究领域。本论文提出了一种基于压缩感知和音频指纹的固定音频检索方法。首先，通过压缩感知原理对音频信号进行高效压缩并提取压缩感知测量系数。然后，基于音频指纹技术生成音频指纹，将其与数据库中的音频指纹进行比对匹配。实验结果表明，该方法在固定音频检索中具有较高的检索精度和较快的检索速度，适用于大规模音频数据库的检索。关键词：压缩感知、音频指纹、固定音频、

2024-10-20

12KB

一种基于音频指纹的听歌识曲方法、系统及音频设备.pdf

本发明公开了一种基于音频指纹的听歌识曲方法、系统及音频设备，其收集歌曲音频作为模板音频，并获取所述模板音频对应的频谱图，从所述频谱图中提取峰值点作为所述模板音频对应的模板音频指纹，根据所述模板音频和所述模板音频指纹进行构建歌曲音频的模板音频指纹数据库；获取当前音乐的录制音频，并获取所述录制音频对应的频谱图，从所述频谱图中提取峰值点作为所述录制音频对应的录制音频指纹；将所述录制音频指纹与所述模板音频指纹数据库中的模板音频指纹进行匹配；若匹配度达到设定的阈值，则输出所述录制音频对应匹配的歌曲音频，从而能够自动

2023-12-03

756KB