预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN116028662A(43)申请公布日2023.04.28(21)申请号202310114265.3G06V10/80(2022.01)(22)申请日2023.02.15G06V10/82(2022.01)G06N3/045(2023.01)(71)申请人武汉理工大学三亚科教创新园G06N3/0499(2023.01)地址572025海南省三亚市崖州区崖州湾G06N3/084(2023.01)科技城用友产业园9号楼G06N3/088(2023.01)(72)发明人陈亚雄黄景灏赵怡晨魏志程熊盛武(74)专利代理机构武汉开元知识产权代理有限公司42104专利代理师刘琳(51)Int.Cl.G06F16/583(2019.01)G06F16/683(2019.01)G06V10/30(2022.01)G06V10/52(2022.01)权利要求书3页说明书6页附图2页(54)发明名称基于无监督交互式对齐的海洋遥感图像音频检索方法(57)摘要本发明公开了一种基于无监督交互式对齐的海洋遥感图像音频检索方法,包括步骤:收集海洋遥感图像和遥感相关音频,构建海洋遥感图像音频检索数据集;提取遥感相关音频的音频特征FA和海洋遥感图像的图像特征FI;将其对齐得到音频检索特征向量FA’和图像检索特征向量FI’;计算整个模型的损失函数值,进行反向传播,训练多轮后得到海洋遥感图像音频检索模型;输入待检索的音频或图像,输出与其相关的海洋遥感图像或者音频数据。本发明利用大量未标记的样本学习显著语义信息和海洋遥感图像和音频间的相似性;抑制图像噪声,捕获图像的显著信息;引入交互式对齐模块探索遥感图像和音频间的精细对应关系,最终提高了海洋遥感图像音频检索的效率和准确率。CN116028662ACN116028662A权利要求书1/3页1.一种基于无监督交互式对齐的海洋遥感图像音频检索方法,其特征在于:所述方法包括如下步骤:S1)收集海洋遥感图像和遥感相关音频数据,构建海洋遥感图像音频检索数据集;S2)构建基于无监督交互式对齐的海洋遥感图像音频检索模型,模型结构包括四个部分:音频特征提取模块、多尺度特征融合模块、语音引导图像去噪模块和交互式对齐模块;S3)所述音频特征提取模块提取遥感相关音频特征FA,所述多尺度特征融合模块提取海洋遥感图像的图像初始特征Itoken,所述语音引导图像去噪模块根据所述图像初始特征Itoken得到语音引导去噪后的图像特征FI;S4)所述交互式对齐模块对齐所述遥感相关音频特征FA与海洋遥感图像的图像特征FI,得到特征对齐后的音频检索特征向量FA'和图像检索特征向量FI';S5)训练模型,将所述检索数据集中的样本数据输入模型,计算总的损失函数值,进行反向传播,通过选定的优化器和相应参数对连接权重进行优化,训练多轮后得到最终的海洋遥感图像音频检索模型;S6)基于训练好的海洋遥感图像音频检索模型,输入待检索的音频,输出与其相关的海洋遥感图像数据;或者输入待检索的图像,输出与其相关的海洋遥感音频数据。2.根据权利要求1所述的一种基于无监督交互式对齐的海洋遥感图像音频检索方法,其特征在于:步骤S3)中,所述音频特征提取模块将原始音频转化为梅尔倒谱系数MFCC特征,再将得到的MFCC特征输入到用AudioSet预训练的ResNet18网络以模拟声音内容,从而(3)得到音频特征FA,同时保留ResNet18网络中在卷积后得到的中间音频特征A。3.根据权利要求2所述的一种基于无监督交互式对齐的海洋遥感图像音频检索方法,其特征在于:所述MFCC特征的提取过程如下:Sa1)依次对原始音频进行预加重、分帧和加窗得到短时分析窗;Sa2)将每一个短时分析窗进行短时傅里叶变换得到对应的频谱;Sa3)将得到频谱通过Mel滤波器组得到Mel频谱;Sa4)在Mel频谱上面进行倒谱分析,进行取对数操作,利用DCT离散余弦变换做逆变换,取逆变换后的第2个到第13个系数当作Mel频率倒谱系数MFCC,即得到原始音频对应的MFCC特征。4.根据权利要求2所述的一种基于无监督交互式对齐的海洋遥感图像音频检索方法,其特征在于:步骤S3)中,所述多尺度特征融合模块将海洋遥感图像进行嵌入式表示,得到(3)海洋遥感图像的图像初始特征Itoken,将保留的所述中间音频特征A和图像的初始特征Itoken同时输入到语音引导图像去噪模块。5.根据权利要求4所述的一种基于无监督交互式对齐的海洋遥感图像音频检索方法,其特征在于:所述语音引导图像去噪模块以抑制图像特征中与音频无关信息的特征表示,最终得到语音引导去噪后的图像特征FI,具体步骤包括:(3)Sb1)将图像的初始特征Itoken通过一个全连接层被映射为向量QI,将中间音频特征A(3)