一种基于哈希编码的图像声音检索方法-豆柴文库

一种基于哈希编码的图像声音检索方法.pdf

2023-07-24

10金币

556KB

9页

雨巷****莺莺

实名认证

内容提供者

1/9

2/9

3/9

4/9

5/9

6/9

7/9

8/9

9/9

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114328991A(43)申请公布日2022.04.12(21)申请号202111599825.6G06N3/04(2006.01)(22)申请日2021.12.24G06N3/08(2006.01)(71)申请人深圳龙岗智能视听研究院地址518116广东省深圳市龙岗区龙城街道腾飞路龙岗创投大厦37楼申请人广东博华超高清创新中心有限公司(72)发明人李若尘张世雄黎俊良魏文应龙仕强安欣赏(74)专利代理机构北京京万通知识产权代理有限公司11440代理人万学堂王跃交(51)Int.Cl.G06F16/432(2019.01)G06F16/483(2019.01)G06F16/45(2019.01)权利要求书1页说明书5页附图2页(54)发明名称一种基于哈希编码的图像声音检索方法(57)摘要一种基于哈希编码的图像声音检索方法。在预处理阶段，首先将声音通过快速傅里叶变换转化为语谱图，同时对转化后的语谱图以及原始的人脸图像进行旋转、对比度变换等数据增强操作；在训练阶段，将之前处理好的人脸图像以及语谱图传入一个经由ImageNet预训练的基于内容分类的神经网络中，自动将人脸和语谱图传递到各自模态的特征提取网络中。相比于传统方法，哈希编码大幅降低了检索消耗的时间，提升了系统执行效率；同时，对语谱图进行对比度增强可以抑制低频噪声，以及采用一个基于内容的样本分类器可以减少人为区分样本出错的概率，本方法在目前公开的测试数据集上，取得了领先的检测水平。CN114328991ACN114328991A权利要求书1/1页1.一种基于哈希编码的图像声音检索方法，其特征在于，包括以下步骤：S1.对人脸图像及声音进行预处理，将声音转化为语谱图；S2.对步骤S1中的人脸图像进行数据增强变换，对语谱图采用锐化操作，增强对比度；S3.通过模态选择器将步骤S2处理后的图像送入相应模态，并通过特征提取网络提取特征；S4.将步骤S3输出的结果经过一个相同全连接网络映射到同一个特征空间，输出分别表示人脸图像的特征向量及语谱图的特征向量；S5.对步骤S4输出的结果进行哈希编码，同时计算步骤S4输出的结果的均方误差损失；以及S6.对步骤S5输出的哈希编码后的结果计算汉明损失，引入松弛因子使得汉明损失连续化，结合S5输出的均方误差损失一起作为网络的最终损失函数。2.根据权利要求1所述的基于哈希编码的图像声音检索方法，其特征在于，在步骤S1中，首选准备训练所需数据，人脸图像为“.jpg”格式，声音为“.wav”格式，之后使用声音处理软件读取“.wav”文件，将其转化为对应的声波，之后使用快速傅里叶变换将声波转化为语谱图，并进行输出。3.根据权利要求1所述的基于哈希编码的图像声音检索方法，其特征在于，在步骤S1中，在步骤S2中，所述数据增强变换包括对所有所述人脸图像进行旋转、对比度调整。4.根据权利要求1所述的基于哈希编码的图像声音检索方法，其特征在于，在步骤S1中，在步骤S3中，所述模态选择器是一个经由ImageNet预训练的卷积神经网络。5.根据权利要求1所述的基于哈希编码的图像声音检索方法，其特征在于，在步骤S1中，在步骤S3中，将S2处理后的图像送入经由ImageNet预训练的卷积神经网络，按照内容对输入数据自动分类，自动将所述人脸图像和所述语谱图送入相应模态的特征提取网络中，并对所述人脸图像和所述语谱图分别提取特征，其中，人脸特征提取网络选用ResNet50，语谱图特征提取网络选用VGG‑M。6.根据权利要求1所述的基于哈希编码的图像声音检索方法，其特征在于，在步骤S1中，在步骤S4中，最终输出512维特征向量Vf，Vv，Vf和Vv分别表示人脸图像的特征向量及语谱图的特征向量，之后将二者送入一个单层全连接网络，将它们映射到一个相同的特征空间—汉明空间中，所述全连接网络的全连接层的输入为512，输出为哈希编码长度C，在实验中哈希编码长度一般取C＝18。7.根据权利要求1所述的基于哈希编码的图像声音检索方法，其特征在于，在步骤S1中，在步骤S6中，计算哈希编码后的人脸特征和声音特征二者的距离，采取欧几里得距离替代汉明距离，并通过施加一个附加的正则化函数来逼近原始汉明距离输出的结果，之后将S5计算的所述均方误差损失和S6计算的所述汉明损失加权平均即可得到最终的损失函数。2CN114328991A说明书1/5页一种基于哈希编码的图像声音检索方法技术领域[0001]本发明涉及到人工智能、机器视觉、跨膜态检索领域，具体涉及一种基于跨膜态动态特征提取神经网络及特征哈希编码算法的图像声音互检索方法。背景技术[0002]从声音推断一个人的长相不是一种无意识的行为，平时我们在打电话时会根据对方的声音形成对方相貌的

相关资料

一种基于哈希编码的图像声音检索方法.pdf

一种基于哈希编码的图像声音检索方法。在预处理阶段，首先将声音通过快速傅里叶变换转化为语谱图，同时对转化后的语谱图以及原始的人脸图像进行旋转、对比度变换等数据增强操作；在训练阶段，将之前处理好的人脸图像以及语谱图传入一个经由ImageNet预训练的基于内容分类的神经网络中，自动将人脸和语谱图传递到各自模态的特征提取网络中。相比于传统方法，哈希编码大幅降低了检索消耗的时间，提升了系统执行效率；同时，对语谱图进行对比度增强可以抑制低频噪声，以及采用一个基于内容的样本分类器可以减少人为区分样本出错的概率，本方法在

2023-07-24

556KB

基于哈希编码学习的图像检索方法.docx

基于哈希编码学习的图像检索方法标题：基于哈希编码学习的图像检索方法摘要：图像检索技术在当今的信息时代中扮演着重要的角色，可以快速准确地从大规模的图像集合中检索到用户感兴趣的图像。然而，随着图像数据的快速增长，传统的图像检索方法面临着检索速度慢、存储空间大以及检索精度低的问题。为了解决这些问题，哈希编码学习技术逐渐成为图像检索领域的研究热点。本文将介绍基于哈希编码学习的图像检索方法，并讨论其优缺点及未来的研究方向。一、引言随着互联网和数码相机的普及，图像数据的数量呈现爆发式增长。面对如此大量的图像数据，如何

2024-10-23

11KB

一种利用基于深度语义排序哈希编码的图像检索方法.pdf

本发明公开了一种利用基于深度语义排序哈希编码的图像检索方法，该方法包括以下步骤：将多标签图像数据集中的部分图像作为训练集，剩下的图像作为图像测试集；使用深度卷积神经网络来构建深度哈希函数；根据图像的多标签信息，构建出图像间的语义相似度排序；以基于三元组的代理排序损失函数做为实际的模型目标函数，并使用随机梯度下降法来优化深度哈希函数；用学习到的深度哈希函数计算图像的哈希码，通过计算测试图像的哈希码与训练集中每一个图像的哈希码之间的汉明距离来检索图像。本发明方法能够保留多标签图像在语义空间中的多级相似度，并且

2023-11-22

852KB

基于哈希编码的大规模图像检索方法研究的开题报告.docx

基于哈希编码的大规模图像检索方法研究的开题报告一、研究背景图像是一种重要的多媒体数据，它被广泛地应用于许多领域中，如人脸识别、视觉监控、医学影像分析、搜索引擎等。随着互联网的快速发展和数字化技术的不断进步，大量的图像数据被产生和存储，如何有效地管理和检索这些大规模的图像数据成为了一个急需解决的问题。哈希编码（hashing）是一种快速的图像检索方法，其主要思想是将高维的图像数据映射成低维的二进制编码，从而大大降低了存储和计算的复杂度。哈希编码方法具有速度快、内存占用小和可扩展性强等优点，在大规模图像检索中

2024-10-10

11KB

基于哈希编码的大规模图像检索方法研究的任务书.docx

基于哈希编码的大规模图像检索方法研究的任务书任务书一、背景随着数字图像的快速增长，如何快速、准确地找到图像库中的相似图像成为了图像检索领域的重要研究课题。传统的相似图像检索方法通常基于图像的特征向量来进行匹配，但针对大规模图像库，这种方法需要耗费大量的时间和计算资源。因此，基于哈希编码的大规模图像检索方法成为了研究热点。二、任务本次研究任务旨在：1.研究哈希编码的原理和算法，掌握其在大规模图像检索中的应用。2.实现一种基于哈希编码的图像检索算法，并与传统的特征向量匹配方法进行比较分析。3.针对实验中存在的

2024-10-09

11KB