预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113850761A(43)申请公布日2021.12.28(21)申请号202111007113.0(22)申请日2021.08.30(71)申请人北京工业大学地址100124北京市朝阳区平乐园100号(72)发明人王素玉许凯焱(74)专利代理机构北京思海天达知识产权代理有限公司11203代理人沈波(51)Int.Cl.G06T7/00(2017.01)G06T7/11(2017.01)G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书6页附图2页(54)发明名称一种基于多角度检测框的遥感图像目标检测方法(57)摘要本发明公开了一种基于多角度检测框的遥感图像目标检测方法,在faster‑rcnn预测的正框基础上,设计了倾斜角度模块,主要分为两个阶段;第一个阶段通过全连接层和解码器进行初步的角度偏移旋转,第二个阶段使用rotatedroialign提取旋转不变特征,再次进行角度偏移修正,得到准确角度的检测框。除此之外,针对遥感图像尺寸大,训练慢的问题,重新设计了倾斜检测模块的回归损失函数,使得损失函数收敛更快,准确率更高。实验结果表明,本发明相较于改进后的faster‑rcnn的准确率提升了4.4%,证明本发明具有良好的检测效果。CN113850761ACN113850761A权利要求书1/2页1.一种基于多角度检测框的遥感图像目标检测方法,其特征在于;该方法分为数据预处理和数据增强、生成正框、角度旋转、角度修正三个部分:首先将输入数据进行预处理,保证输入网络的图像尺寸符合预定的大小,之后经过主干网络、特征金字塔结构、RPN结构、ROI分类输出没有角度的正框;之后进入到倾斜角度模块,使用1×1卷积、全连接层、解码器进行第一次角度旋转;为了得到更加精确的角度,需要对角度进行修正,使用rotatedroialign、1×1卷积、全连接层修正第一次旋转的角度,在此训练阶段,为方便训练,重新设计位置回归的损失函数;根据小目标的损失贡献率,决定下一次迭代是否使用数据增强策略处理输入数据。2.根据权利要求1所述的一种基于多角度检测框的遥感图像目标检测方法,其特征在于:数据预处理是首先判断一张图片的尺寸是否小于1024×1024,如果小于此尺寸则用黑色背景补齐为1024×1024大小,如果尺寸大于1024×1024,则会使用步长为512像素的滑动窗口来分割为n张尺寸为1024×1024的图片,完整的检测出分割图像边界的目标。3.根据权利要求1所述的一种基于多角度检测框的遥感图像目标检测方法,其特征在于:数据增强策略是根据一次迭代中groundtruth框小于32×32尺寸回归损失Ls占总回归损失Lreg比的大小,如果比小于0.4,则下一次迭代输入网络图像会从训练集中随机选取四张图片,每张图片的长宽比缩小为原来的1/2,之后根据方式组合起来,如果比大于等于0.4,则会正常输入原始的训练集图片,损失比计算公式如下所示;a=Ls/Lreg。4.根据权利要求1所述的一种基于多角度检测框的遥感图像目标检测方法,其特征在于:第一次角度旋转首先使用10通道的1×1卷积降维,之后使用全连接层和解码器进行第一次的角度旋转,相较于groundtruth的偏移计算方式如下所示:****其中(xr,yr,wr,hr,θr)表示经过第一阶段计算出来的偏移后的框的坐标,(x,y,w,h,θ*)表示groundtruth的框的坐标。5.根据权利要求1所述的一种基于多角度检测框的遥感图像目标检测方法,其特征在于:第二次角度修正使用rotatedroialign提取第一部分偏移后的特征的深层次特征,可以认为虽然角度进行了旋转,但是特征并没有变化,提取深层次的特征可以再一次的对2CN113850761A权利要求书2/2页角度进行修正,可以使回归出来的旋转框更加的鲁棒,贴合目标物体;角度修正具体流程是,将第一部分计算出的倾斜框参数(xr,yr,wr,hr,θr)和输入尺寸为(H×W×C)的特征图D通过rotatedroialign将特征和参数划分为K×K×C的特征图y,再使用10通道的1×1卷积降维,最后使用全连接层进行最终的分类和回归;对于索引为(i≥0,j<K)的网格输出维度为c(0≤c≤C)的特征图y的计算方式如下:yc(i,j)=∑(x,y)∈bin(i,j)Di,j,c(Tθ(x,y))/nij其中Di,j,c代表了尺寸为K×K×C的特征图,nij代表了网格的取样数量,bin(i,j)代表了坐标索引为i,j网格的真实坐标值,其中计算方式如下所示,Tθ代表了将每一个网格真实坐标(x,y)转换特征图上的坐标(x',y'),转换