一种基于对偶学习的音频-图像跨模态检索方法-豆柴文库

一种基于对偶学习的音频-图像跨模态检索方法.pdf

2023-06-03

10金币

1.2MB

11页

是你****芹呀

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共11页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115905583A(43)申请公布日2023.04.04(21)申请号202211326377.7G06N3/08(2023.01)(22)申请日2022.10.27(71)申请人广东技术师范大学地址510665广东省广州市天河区中山大道西293号申请人大连理工大学(72)发明人姜莱文瑞王鹏飞(74)专利代理机构大连理工大学专利中心21200专利代理师戴风友(51)Int.Cl.G06F16/432(2019.01)G06F16/48(2019.01)G06N3/0442(2023.01)G06N3/0464(2023.01)权利要求书2页说明书5页附图3页(54)发明名称一种基于对偶学习的音频-图像跨模态检索方法(57)摘要本发明属于深度学习技术领域，涉及一种基于对偶学习的音频‑图像跨模态检索方法。本发明实现了一种音频‑图像的跨模态检索，解决使用传统机器学习方法多模态数据对应关系难以标注的问题。在数据特征提取中，VGG采用小的卷积核和池化层，层数更深，通道数更多，而更多的通道数表示更丰富的图像特征，同时，通道数的增加，使得更多的信息可以被提取出来。构建了特征转换神经网络，将对偶学习引入模型学习，将两个跨模态任务进行训练，为跨模态数据的深度学习方法提供了新思路。CN115905583ACN115905583A权利要求书1/2页1.一种基于对偶学习的音频‑图像跨模态检索方法，其特征在于，包括以下步骤：步骤一，对于音频数据库中随机选取的一段音频数据A，对其进行预处理后，进行STFT(短时傅里叶变换)，然后使用CNN(卷积神经网络)模型和Bi‑LSTM(双向长短期记忆网络)模型提取音频特征Ax；步骤二，对于图像数据库中随机选取的一张图像数据B，对其进行预处理后，使用VGG16模型提取图像特征Bx；步骤三，构建音频、图像相似度算法，计算音频特征之间与图像特征之间的相似度；步骤四，构建音频‑图像、图像‑音频特征转换的神经网络模型；步骤五，结合步骤三中的相似度计算方法，使用对偶学习对步骤四中的神经网络进行训练；步骤六，使用步骤五中训练好的模型，创建音频‑图像跨模态检索系统，使之能够通过输入音频，搜索到与之相关的图像，或通过输入图像，找到与之相关的音频数据。2.如权利要求1所述的一种基于对偶学习的音频‑图像跨模态检索方法，其特征在于，所述步骤一中，对音频数据进行特征提取，具体步骤如下：1.1对随机选取的音频数据A进行预加重、分帧和加窗预处理，得到音频数据A1；1.2将预处理过后的音频数据A1通过STFT，获取其功率向量和相位向量；如下式所示：其中，x(t)、τ和ω分别为输入的音频数据A1、要提取的相位向量和功率向量；1.3使用CNN模型从1.2中得到的相位向量和功率向量中分别提取特征，并最后使用一个全连接层将其连接，得到音频特征向量A2；1.4基于音频数据天然的时序性，将从1.3中的CNN模型中得到的音频向量特征A2进一步输入到Bi‑LSTM模型中，提取得到音频特征Ax。3.如权利要求2所述的一种基于对偶学习的音频‑图像跨模态检索方法，其特征在于，所述步骤三音频、图像相似度计算方法具体步骤如下：3.1将音频一特征Ax1与音频二特征Ax2进行数据归一化处理，得到A′x1以及A′x2；3.2使用DTW算法计算两个音频特征序列的相似程度，设特征序列A′x1长度为M，特征序列A′x2长度为N，首先构建DTW规整路径W＝(w1,w2,w3,…,wk)，其中Max(|X|,|Y|)≤k≤|X|+|Y|；wk的形式为w(i,j)，i表示X中的第i下标，j表示Y中的第j下标，其中i与j单调递增，且规整路径W规定必须以w1＝(1,1)作为开始，以wk＝(|X|,|Y|)作为结尾，X与Y中的各个坐标均需要在规整路径中出现；3.3求出最短规整路径D(i，j)＝Dist(i，j)+min[D(i‑1，j)，D(i，j‑1)]3.4将最短规整路径长度作为音频特征序列相似度衡量标准，路径长度越小，说明相似程度越高；3.5对于图像相似度，由于音频与图像数据的对应严格程度较低，只需要比较两张图像是否具有类似特征，无需在二维向量空间内高度相似；因此，同样使用上述算法对图像特征进行相似度计算。4.如权利要求3所述的一种基于对偶学习的音频‑图像跨模态检索方法，其特征在于，所述步骤四音频‑图像、图像‑音频特征转换的神经网络模型，具体步骤如下：2CN115905583A权利要求书2/2页4.1构建基础LSTM神经网络作为音频‑图像特征转换模型，其中输入向量维度为步骤一中音频提取特征维度m，LSTM层数设置为α1，输出向量维度设置为O1；4.2设计线性全连接层，输入向量维度为O1，输出向量维度为图像的特征维度n；并将该

相关资料

一种基于对偶学习的音频-图像跨模态检索方法.pdf

本发明属于深度学习技术领域，涉及一种基于对偶学习的音频‑图像跨模态检索方法。本发明实现了一种音频‑图像的跨模态检索，解决使用传统机器学习方法多模态数据对应关系难以标注的问题。在数据特征提取中，VGG采用小的卷积核和池化层，层数更深，通道数更多，而更多的通道数表示更丰富的图像特征，同时，通道数的增加，使得更多的信息可以被提取出来。构建了特征转换神经网络，将对偶学习引入模型学习，将两个跨模态任务进行训练，为跨模态数据的深度学习方法提供了新思路。

2023-06-03

1.2MB

基于跨模态技术的商品图像检索方法研究的开题报告.docx

基于跨模态技术的商品图像检索方法研究的开题报告一、研究背景及意义在当前庞大的电商市场中，商品图片数量非常庞大，面对如此庞大的商品数据，传统的基于关键词的图像检索方法常常不能满足精准的检索需求。因此，基于跨模态技术的商品图像检索已经成为当今商品搜索领域中的研究热点。跨模态技术是一种能够将不同类型的信息或数据转换为同一表示形式的技术，常见的跨模态应用包括图像检索、语音识别、视频分析等领域。本研究旨在研究并应用跨模态技术，通过建立有效的商品图像检索模型，提高商品搜索精度，从而为电商平台带来更好的用户体验，提高平

2024-09-27

11KB

基于深度学习的特种车辆跨模态检索方法.pptx

汇报人：CONTENTS添加章节标题跨模态检索方法概述跨模态检索的概念和意义跨模态检索的方法和流程跨模态检索的应用场景和优势基于深度学习的跨模态检索方法深度学习在跨模态检索中的应用基于深度学习的跨模态检索模型深度学习模型的训练和优化特种车辆跨模态检索的挑战和解决方案特种车辆跨模态检索的难点和挑战针对特种车辆的特点和需求的解决方案解决特种车辆跨模态检索问题的关键技术基于深度学习的特种车辆跨模态检索方法实现数据预处理和特征提取模型训练和优化过程检索结果的评价和展示案例分析和应用效果评估案例介绍和分析应用效果评

2024-10-05

5MB

基于深度学习的跨模态音频情感分类方法研究.docx

基于深度学习的跨模态音频情感分类方法研究基于深度学习的跨模态音频情感分类方法研究摘要：随着人们对情感分析和情感识别的需求不断增加，音频情感分类也成为一个热门研究领域。然而，传统的音频情感分类方法在特征提取和模型构建方面仍然存在一些问题。为解决这些问题，本论文提出了一种基于深度学习的跨模态音频情感分类方法。该方法利用深度卷积神经网络（DCNN）和长短时记忆网络（LSTM）来提取音频的语义信息，并通过多模态融合方法将音频情感分析与其他模态的情感信息相结合。实验结果表明，所提出的方法在音频情感分类任务上取得了较

2024-10-24

11KB

基于多任务学习的图像和文本跨模态哈希检索研究.docx

基于多任务学习的图像和文本跨模态哈希检索研究基于多任务学习的图像和文本跨模态哈希检索研究摘要：在现代社会中，信息爆炸的问题越来越突出，如何高效地检索到所需的信息成为一个重要的问题。图像和文本是两种常见的信息形式，跨模态哈希检索是一种将图像和文本映射到同一空间的技术，使得可以通过一种模态的数据来检索到另一种模态的数据。本文提出了一种基于多任务学习的图像和文本跨模态哈希检索方法，该方法结合图像和文本的语义信息，并利用多任务学习的能力进行端到端的训练。实验结果表明，该方法在图像和文本跨模态哈希检索任务上取得了良

2024-10-23

11KB