预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115905583A(43)申请公布日2023.04.04(21)申请号202211326377.7G06N3/08(2023.01)(22)申请日2022.10.27(71)申请人广东技术师范大学地址510665广东省广州市天河区中山大道西293号申请人大连理工大学(72)发明人姜莱文瑞王鹏飞(74)专利代理机构大连理工大学专利中心21200专利代理师戴风友(51)Int.Cl.G06F16/432(2019.01)G06F16/48(2019.01)G06N3/0442(2023.01)G06N3/0464(2023.01)权利要求书2页说明书5页附图3页(54)发明名称一种基于对偶学习的音频-图像跨模态检索方法(57)摘要本发明属于深度学习技术领域,涉及一种基于对偶学习的音频‑图像跨模态检索方法。本发明实现了一种音频‑图像的跨模态检索,解决使用传统机器学习方法多模态数据对应关系难以标注的问题。在数据特征提取中,VGG采用小的卷积核和池化层,层数更深,通道数更多,而更多的通道数表示更丰富的图像特征,同时,通道数的增加,使得更多的信息可以被提取出来。构建了特征转换神经网络,将对偶学习引入模型学习,将两个跨模态任务进行训练,为跨模态数据的深度学习方法提供了新思路。CN115905583ACN115905583A权利要求书1/2页1.一种基于对偶学习的音频‑图像跨模态检索方法,其特征在于,包括以下步骤:步骤一,对于音频数据库中随机选取的一段音频数据A,对其进行预处理后,进行STFT(短时傅里叶变换),然后使用CNN(卷积神经网络)模型和Bi‑LSTM(双向长短期记忆网络)模型提取音频特征Ax;步骤二,对于图像数据库中随机选取的一张图像数据B,对其进行预处理后,使用VGG16模型提取图像特征Bx;步骤三,构建音频、图像相似度算法,计算音频特征之间与图像特征之间的相似度;步骤四,构建音频‑图像、图像‑音频特征转换的神经网络模型;步骤五,结合步骤三中的相似度计算方法,使用对偶学习对步骤四中的神经网络进行训练;步骤六,使用步骤五中训练好的模型,创建音频‑图像跨模态检索系统,使之能够通过输入音频,搜索到与之相关的图像,或通过输入图像,找到与之相关的音频数据。2.如权利要求1所述的一种基于对偶学习的音频‑图像跨模态检索方法,其特征在于,所述步骤一中,对音频数据进行特征提取,具体步骤如下:1.1对随机选取的音频数据A进行预加重、分帧和加窗预处理,得到音频数据A1;1.2将预处理过后的音频数据A1通过STFT,获取其功率向量和相位向量;如下式所示:其中,x(t)、τ和ω分别为输入的音频数据A1、要提取的相位向量和功率向量;1.3使用CNN模型从1.2中得到的相位向量和功率向量中分别提取特征,并最后使用一个全连接层将其连接,得到音频特征向量A2;1.4基于音频数据天然的时序性,将从1.3中的CNN模型中得到的音频向量特征A2进一步输入到Bi‑LSTM模型中,提取得到音频特征Ax。3.如权利要求2所述的一种基于对偶学习的音频‑图像跨模态检索方法,其特征在于,所述步骤三音频、图像相似度计算方法具体步骤如下:3.1将音频一特征Ax1与音频二特征Ax2进行数据归一化处理,得到A′x1以及A′x2;3.2使用DTW算法计算两个音频特征序列的相似程度,设特征序列A′x1长度为M,特征序列A′x2长度为N,首先构建DTW规整路径W=(w1,w2,w3,…,wk),其中Max(|X|,|Y|)≤k≤|X|+|Y|;wk的形式为w(i,j),i表示X中的第i下标,j表示Y中的第j下标,其中i与j单调递增,且规整路径W规定必须以w1=(1,1)作为开始,以wk=(|X|,|Y|)作为结尾,X与Y中的各个坐标均需要在规整路径中出现;3.3求出最短规整路径D(i,j)=Dist(i,j)+min[D(i‑1,j),D(i,j‑1)]3.4将最短规整路径长度作为音频特征序列相似度衡量标准,路径长度越小,说明相似程度越高;3.5对于图像相似度,由于音频与图像数据的对应严格程度较低,只需要比较两张图像是否具有类似特征,无需在二维向量空间内高度相似;因此,同样使用上述算法对图像特征进行相似度计算。4.如权利要求3所述的一种基于对偶学习的音频‑图像跨模态检索方法,其特征在于,所述步骤四音频‑图像、图像‑音频特征转换的神经网络模型,具体步骤如下:2CN115905583A权利要求书2/2页4.1构建基础LSTM神经网络作为音频‑图像特征转换模型,其中输入向量维度为步骤一中音频提取特征维度m,LSTM层数设置为α1,输出向量维度设置为O1;4.2设计线性全连接层,输入向量维度为O1,输出向量维度为图像的特征维度n;并将该