预览加载中,请您耐心等待几秒...
1/8
2/8
3/8
4/8
5/8
6/8
7/8
8/8

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113657232A(43)申请公布日2021.11.16(21)申请号202110911051.X(22)申请日2021.08.10(71)申请人大连理工大学地址116024辽宁省大连市甘井子区凌工路2号(72)发明人赵文达杨瑞凯祝嘉文徐从安姚力波刘瑜何友卢湖川(74)专利代理机构大连理工大学专利中心21200代理人温福雪(51)Int.Cl.G06K9/00(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书4页附图1页(54)发明名称基于风格内容解耦的跨域遥感图像目标检测方法(57)摘要本发明属于图像信息处理技术领域,提供了一种基于风格内容解耦的跨域遥感图像目标检测方法。本发明的端到端训练的跨域遥感图像目标检测方法利用了自适应实例归一化的方式获得多域图像,并且进一步将解耦获得的内容特征编码送入目标检测网络来进行目标检测。本方法对于不同域的遥感图像有较好的泛化性,可以得到理想的目标检测结果。CN113657232ACN113657232A权利要求书1/2页1.一种基于风格内容解耦的跨域遥感图像目标检测方法,其特征在于,步骤如下:在所设计的编码器基础上,采用YOLO目标检测框架中的解码器进行遥感图像的目标检测,在网络训练阶段,利用FocalLoss损失函数来平衡正负样本对应的损失函数值:其中,N1为一个训练批次中目标的数目,Yxyc为图片真值,为网络预测值α和β为网络的两个超参数用于规定锚框分类过程中正负样本的平衡程度;锚框回归分支实际上预测的是人为规定的锚框与真值之间的位置和大小的差距;现设真值锚框为(x,y,h,w),四个值分别代表锚框位置的横坐标、纵坐标、锚框高度和宽度;人为规定的锚框为则网络需要预测:利用如下损失函数来监督网络:其中,N2为与第j个真值框重叠度大于阈值的预测框数目;为网络的对第i个符合要求锚框的预测值,与第j个真值框重叠度大于阈值;tmj为对应真值,(xj,yj,hj,wj)为第j个真值锚框的参数;为第i个符合要求的人为规定锚框的参数;在网络对于目标检测总的损失函数Ldetect为:Ldetect=Lclass+Lloc(7)其中,Lclass和Lloc为公式中规定的损失函数;提出一个基于风格内容解耦的多域遥感图像目标检测任务的方法,通过将来自不同域的图像进行风格内容的解耦以及重组来获得多域图像,并且使用通过解耦获得的图像内容编码来进行遥感图像目标检测;因此,仅仅使用两个不同域的图像进行风格与内容的解耦与互换,并在此基础上进行监督编码器的收敛,就可获得特征提取能力优秀的特征提取器与对应地特征空间,并在此基础上进行遥感目标检测;通过使用自适应实例归一化,将一幅图像的风格与内容进行解耦,获得一幅图像的风格与内容对应的特征向量,然后将对应的特征向量与来自不同域的图像的风格与内容对应的特征向量进行呼唤,就可获得多域的遥感图像;对于生成多域遥感图像使用相应的损失进行约束;之后将原始遥感图像的与风格解耦的内容特征编码送入目标检测网络中进行有监督的目标检测,最终通过训练学习获得泛化性优秀的遥感图像目标检测模型;通过对于输入的内容图像进行实例级别的归一化,以及对应地对归一化之后的内容图像,通过使用风格图像的均值与方差参数获得风格图像的风格;2CN113657232A权利要求书2/2页其中,x表示输入的内容图像,y表示输入的风格图像,μ(x)、μ(y)分别表示输入的x、y的均值,σ(x)、σ(y)分别表示输入的x、y的方差;将归一化后的内容图的输入,通过风格的相关参数进行缩放和平移;输入x、y分别为内容图像、风格图像经过预训练的VGG深度神经网络获得的特征图;获得经过风格转换的特征图后,使用与对应编码器VGG网络相反结构的解码器输出风格转换后的图像;对于风格转换后的图像,要保证其内容是没有变化的,同时也要保证其风格与输入的风格图像相似,通过预训练生成对抗网络中的判别器来保证生成的图像在风格上与风格图像保持一致,此外,设计两种损失来保证内容的不变与风格的转换;通过使用与训练好的判别器对于生成的风格转化图像进行判别,使得网络生成的图像让判别器“认为”是属于输入的风格图像一类;Ladv=LCE(D(g(t)),1)(9)其中,t表示生成的风格转换之后获得的特征图,LCE表示交叉熵损失函数;另外还有对于生成的风格转换图像的内容进行监督,使其保持内容不变的损失其中,t表示生成的风格转换特征图,g(t)表示特征图t经过解码器g之后获得的输出图像,f表示编码器;通过内容不变损失,使得输出的特征图经过编码器解码后获得的图像g(t),再送入编码器之后获得的特征图f(g(t)),与原始的特征图t相同;另外还有