预览加载中,请您耐心等待几秒...
1/9
2/9
3/9
4/9
5/9
6/9
7/9
8/9
9/9

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114328991A(43)申请公布日2022.04.12(21)申请号202111599825.6G06N3/04(2006.01)(22)申请日2021.12.24G06N3/08(2006.01)(71)申请人深圳龙岗智能视听研究院地址518116广东省深圳市龙岗区龙城街道腾飞路龙岗创投大厦37楼申请人广东博华超高清创新中心有限公司(72)发明人李若尘张世雄黎俊良魏文应龙仕强安欣赏(74)专利代理机构北京京万通知识产权代理有限公司11440代理人万学堂王跃交(51)Int.Cl.G06F16/432(2019.01)G06F16/483(2019.01)G06F16/45(2019.01)权利要求书1页说明书5页附图2页(54)发明名称一种基于哈希编码的图像声音检索方法(57)摘要一种基于哈希编码的图像声音检索方法。在预处理阶段,首先将声音通过快速傅里叶变换转化为语谱图,同时对转化后的语谱图以及原始的人脸图像进行旋转、对比度变换等数据增强操作;在训练阶段,将之前处理好的人脸图像以及语谱图传入一个经由ImageNet预训练的基于内容分类的神经网络中,自动将人脸和语谱图传递到各自模态的特征提取网络中。相比于传统方法,哈希编码大幅降低了检索消耗的时间,提升了系统执行效率;同时,对语谱图进行对比度增强可以抑制低频噪声,以及采用一个基于内容的样本分类器可以减少人为区分样本出错的概率,本方法在目前公开的测试数据集上,取得了领先的检测水平。CN114328991ACN114328991A权利要求书1/1页1.一种基于哈希编码的图像声音检索方法,其特征在于,包括以下步骤:S1.对人脸图像及声音进行预处理,将声音转化为语谱图;S2.对步骤S1中的人脸图像进行数据增强变换,对语谱图采用锐化操作,增强对比度;S3.通过模态选择器将步骤S2处理后的图像送入相应模态,并通过特征提取网络提取特征;S4.将步骤S3输出的结果经过一个相同全连接网络映射到同一个特征空间,输出分别表示人脸图像的特征向量及语谱图的特征向量;S5.对步骤S4输出的结果进行哈希编码,同时计算步骤S4输出的结果的均方误差损失;以及S6.对步骤S5输出的哈希编码后的结果计算汉明损失,引入松弛因子使得汉明损失连续化,结合S5输出的均方误差损失一起作为网络的最终损失函数。2.根据权利要求1所述的基于哈希编码的图像声音检索方法,其特征在于,在步骤S1中,首选准备训练所需数据,人脸图像为“.jpg”格式,声音为“.wav”格式,之后使用声音处理软件读取“.wav”文件,将其转化为对应的声波,之后使用快速傅里叶变换将声波转化为语谱图,并进行输出。3.根据权利要求1所述的基于哈希编码的图像声音检索方法,其特征在于,在步骤S1中,在步骤S2中,所述数据增强变换包括对所有所述人脸图像进行旋转、对比度调整。4.根据权利要求1所述的基于哈希编码的图像声音检索方法,其特征在于,在步骤S1中,在步骤S3中,所述模态选择器是一个经由ImageNet预训练的卷积神经网络。5.根据权利要求1所述的基于哈希编码的图像声音检索方法,其特征在于,在步骤S1中,在步骤S3中,将S2处理后的图像送入经由ImageNet预训练的卷积神经网络,按照内容对输入数据自动分类,自动将所述人脸图像和所述语谱图送入相应模态的特征提取网络中,并对所述人脸图像和所述语谱图分别提取特征,其中,人脸特征提取网络选用ResNet50,语谱图特征提取网络选用VGG‑M。6.根据权利要求1所述的基于哈希编码的图像声音检索方法,其特征在于,在步骤S1中,在步骤S4中,最终输出512维特征向量Vf,Vv,Vf和Vv分别表示人脸图像的特征向量及语谱图的特征向量,之后将二者送入一个单层全连接网络,将它们映射到一个相同的特征空间—汉明空间中,所述全连接网络的全连接层的输入为512,输出为哈希编码长度C,在实验中哈希编码长度一般取C=18。7.根据权利要求1所述的基于哈希编码的图像声音检索方法,其特征在于,在步骤S1中,在步骤S6中,计算哈希编码后的人脸特征和声音特征二者的距离,采取欧几里得距离替代汉明距离,并通过施加一个附加的正则化函数来逼近原始汉明距离输出的结果,之后将S5计算的所述均方误差损失和S6计算的所述汉明损失加权平均即可得到最终的损失函数。2CN114328991A说明书1/5页一种基于哈希编码的图像声音检索方法技术领域[0001]本发明涉及到人工智能、机器视觉、跨膜态检索领域,具体涉及一种基于跨膜态动态特征提取神经网络及特征哈希编码算法的图像声音互检索方法。背景技术[0002]从声音推断一个人的长相不是一种无意识的行为,平时我们在打电话时会根据对方的声音形成对方相貌的