预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115035386A(43)申请公布日2022.09.09(21)申请号202210751891.9G06N3/08(2006.01)(22)申请日2022.06.29(71)申请人合肥学院地址230601安徽省合肥市经开区锦绣大道99号(72)发明人程知高丽萍王玉邓灶辉陶寅端倩倩(74)专利代理机构合肥辉达知识产权代理事务所(普通合伙)34165专利代理师汪守勇(51)Int.Cl.G06V10/82(2022.01)G06V10/764(2022.01)G06V10/766(2022.01)G06N3/04(2006.01)权利要求书3页说明书7页附图4页(54)发明名称一种基于定位蒸馏的YOLOX目标检测模型压缩方法(57)摘要一种基于定位蒸馏的YOLOX目标检测模型压缩方法,涉及图像识别技术领域。该方法利用深度学习框架搭建YOLOX_X模型作为教师模型,YOLOX_Nano模型作为学生模型。利用加强特征提取网络提取两个模型的多层特征图,挑选特征图的主要蒸馏区域MainRegion和有价值定位区域VLR,将特征图进行解耦为分类检测头和定位检测头,并分别设计分类损失函数和定位损失函数;训练教师网络和学生网络,固定网络模型权重,根据总的损失函数进行反向传播,实现蒸馏学习。本发明为YOLOX目标检测的蒸馏实现分类头和回归头的分别治理,为分类和回归提供了一种统一的蒸馏框架。CN115035386ACN115035386A权利要求书1/3页1.一种基于定位蒸馏的YOLOX目标检测模型压缩方法,其特征在于,步骤如下:(1)利用深度学习框架搭建YOLOX_X模型作为教师模型,对教师模型进行压缩改进并利用深度学习框架搭建YOLOX_Nano模型作为学生网络模型;利用加强特征提取网络提取两个模型的多层特征图;(2)挑选(1)中两个模型多层特征图的主要蒸馏区域MainRegion和有价值定位区域VLR;(3)将(1)中两个模型多层特征图进行解耦,分别解耦合到分类检测头和定位检测头中;(4)利用在COCO数据集上训练好的教师网络权重,在学生网络分类检测头中的主要蒸馏区域MainRegion上进行知识蒸馏,并且设计分类头蒸馏损失函数;(5)利用在COCO数据集上训练好的教师网络权重,使学生网络在回归检测头中的有价值定位区域和主要蒸馏区域,分别进行知识蒸馏和定位蒸馏,并且设计回归头蒸馏损失函数;(6)将学生网络在COCO数据集上进行蒸馏训练,获得最终的损失函数,通过反向传播对学生网络模型进行优化。2.如权利要求1中所述的一种基于定位蒸馏YOLOX目标检测模型压缩方法,其特征在于,步骤(1)中利用pytorch深度学习框架搭建YOLOX_X目标检测模型,其主干网络为CSPDarknet,其中,主干网络中包含的改进点有,使用Focus网络结构,使用CSPNet网络结构,使用残差网络结构Residual,使用SPP网络结构,使用SiLU激活函数;其中SiLU激活函数公式如式(1):f(x)=x·sigmoid(x)(1)使用PAFPN加强特征提取网络获得所需的多尺寸特征图,获得三种不同尺寸的特征层信息。3.如权利要求2中所述的一种基于定位蒸馏YOLOX目标检测模型压缩方法,其特征在于,步骤(2)中挑选主要蒸馏区域MainRegion和有价值定位区域VLR中具体步骤为:S1:筛选主要蒸馏区域MainRegion1)第一轮筛选中,将所有预测框的中心点在真实框内部的区域保留为正样本点,构建以真实框为中心,边长为特定值的正方形,所有预测框中心点在正方形内部的区域保留为正样本,保留为正样本的两部分区域暂定为主要蒸馏区域;2)第二轮筛选中,使用simOTA方法对第一轮筛选后留下的预测框进行正样本的分配;两轮筛选之后,剩下的区域为主要蒸馏区域;S2:挑选有价值定位区域VLR面向主要蒸馏区域向外扩散一部分区域为有价值定位区域,有价值定位区域比主要蒸馏区域范围广,但并不包含主要蒸馏区域;假设X作为有价值定位区域,Xm作为主要蒸馏区域,阈值α用来调节有价值定位区域VLR大小,有价值定位区域表示如式(3):{Xm≤X≤αXm}(3)。4.如权利要求3中所述的一种基于定位蒸馏YOLOX目标检测模型压缩方法,其特征在2CN115035386A权利要求书2/3页于,步骤(3)中将特征图解耦为分类检测头和定位检测头;最后得到三个部分结果,分别为定位信息Reg(h,w,4),置信度信息Obj(h,w,1)和类别信息Cls(h,w,num_classes),其中(h,w,num_classes)分别为图片高度,宽度和类别;将三个结果进行堆叠为(h,w,4+1+num_classes)包含全部预测框的位置信息和类别信息。5.