预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113806580A(43)申请公布日2021.12.17(21)申请号202111140203.7G06N3/06(2006.01)(22)申请日2021.09.28G06N3/08(2006.01)(71)申请人西安电子科技大学地址710071陕西省西安市太白南路2号(72)发明人王笛田玉敏王义峰张彩平万波罗雪梅赵辉潘蓉(74)专利代理机构陕西电子工业专利中心61205代理人田文英王品华(51)Int.Cl.G06F16/583(2019.01)G06F16/55(2019.01)G06F16/58(2019.01)G06F40/30(2020.01)G06N3/04(2006.01)权利要求书3页说明书10页附图2页(54)发明名称基于层次语义结构的跨模态哈希检索方法(57)摘要本发明公开了一种基于层次语义结构的跨模态哈希检索方法,其步骤为:(1)建立数据集;(2)构建图像和文本特征提取网络;(3)利用层次语义结构生成损失函数;(4)训练图像和文本特征提取网络;(5)用户用图像检索文本;(6)用户用文本检索图像。本发明通过将图像文本对标签中每层的所有类别的类哈希码扩展为对应层次的层次语义结构,将各层的层次语义结构融合到哈希码中,使得图像文本对的哈希码很大程度地保留了标签的同层与层间的关联信息,解决了现有跨模态哈希检索方法忽略层间关系导致标签信息不全面的问题和将标签信息融合到图像特征和文本特征中导致哈希码损失了部分语义信息的问题。CN113806580ACN113806580A权利要求书1/3页1.一种基于层次语义结构的跨模态哈希检索方法,其特征在于,通过将所有图像文本对标签中每层的所有类别对应的类哈希码扩展为层次语义结构,将层次语义结构直接映射到图像文本对哈希码中;该方法的具体步骤包括如下:步骤1,建立训练集:(1a)选取至少500个自然图像数据样本与其对应的文本数据样本组成图像文本对样本集,对每个图像文本对中的图像和文本样本分别从粗粒度到细粒度进行人工分层标注;(1b)将标注后的每个图像文本对中的图像样本裁剪成224×224像素值的图像;(1c)利用词袋模型,将标注后的每个图像文本对中的文本样本转化成同样长度的0‑1词袋向量;(1d)将裁剪后的所有图像样本与其对应的文本的词袋向量,组成图像文本对训练集;步骤2,构建图像和文本特征提取网络:(2a)构建一个12层的图像特征提取网络,其结构依次为:输入层,第一卷积层,第一最大池化层,第二卷积层,第二最大池化层,第三卷积层,第四卷积层,第五卷积层,第三最大池化层,第一全连接层,第二全连接层,第三全连接层,第四全连接层,输出层;设置图像特征提取网络的各层参数如下:将第一至第五卷积层的卷积核大小分别设置为:11×11×3×64、5×5×64×256、3×3×256×256、3×3×256×256、3×3×256×256,步长分别设置为:4、1、1、1、1;将第一至第四全连接层的神经元数目分别设置为:4096、2048、1024、r,其中r表示图像文本对的哈希码长度,其数值由用户根据其检索的模糊程度从8bits,16bits,32bits,64bits,128bits的编码长度中选取一个长度;第一至第三最大池化层的窗口大小均设置为3×3;(2b)构建一个由两个卷积层串联的文本特征提取模块;将第一至第二卷积层的卷积核大小分别设置为:1×m×1×8192、1×1×8192×r,步长均设置为1,其中,m表示词袋向量的维度;(2c)将图像特征提取网络和文本特征提取网络并联成一个图像和文本特征提取网络;步骤3,利用层次语义结构生成损失函数:(3a)将所有图像文本对标签中每层所有类别的类哈希码按列从左往右组成一个类哈希码矩阵;(3b)按照下式,计算训练集中每个图像文本对中每层的层次语义结构:其中,表示第i个图像文本对中第k层的层次语义结构,Bk表示所有图像文本对第k层的类哈希码矩阵,表示第i个图像文本对中第k层的标签;(3c)按照下式,计算将每个图像文本对每层的层次语义结构映射到图像文本对哈希码中的损失值:其中,表示第i个图像文本对第k层的层次语义结构映射到该图像文本对哈希码的损失值,||·||2表示二范数操作,Bi表示第i个图像文本对的哈希码;(3d)生成损失函数如下:2CN113806580A权利要求书2/3页其中,J表示损失函数,n表示训练集中图像文本对的总数,t表示图像文本对标签的总层数,αk表示第k层的层次语义结构的权重,设置表示第i个图像文本对第k层的标签对该图像文本对对应层的层次语义结构分类的损失值,表示第i个图像文本对的最底层的标签对该图像文本对对应的哈希码分类的损失值,η表示将图像特征和文本特征映射