预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114187268A(43)申请公布日2022.03.15(21)申请号202111516010.7(22)申请日2021.12.04(71)申请人北京工业大学地址100124北京市朝阳区平乐园100号(72)发明人何坚魏鑫宋雪娜吕孟飞(74)专利代理机构北京思海天达知识产权代理有限公司11203代理人刘萍(51)Int.Cl.G06T7/00(2017.01)G06T7/10(2017.01)G06K9/62(2022.01)G06N3/04(2006.01)G06N3/08(2006.01)G06V10/80(2022.01)权利要求书3页说明书7页附图2页(54)发明名称基于目标检测和语义分割融合的障碍物检测方法(57)摘要基于目标检测和语义分割融合的障碍物检测方法属于电子信息领域。该方法参考了卷积神经网络中优秀的轻量级网络框架和优秀的网络设计思路,设计了可在移动智能设备上实现实时目标检测和语义分割的端到端卷积神经网络DeSeNet,通过统一的数据标注格式和对优秀网络模块的合理利用,加强了DeSeNet网络的特征提取能力,成功将目标检测和语义分割任务结合起来,大大扩充了障碍物识别的范围,在保证正确率的情况下减少了网络参数,使得网络在移动智能设备上实时运行成为了可能,为诸如视障人士出行辅助设备的制造提供了技术支持。CN114187268ACN114187268A权利要求书1/3页1.一种基于目标检测和语义分割融合的障碍物检测方法,其特征在于:(1)目标检测数据集和语义分割数据集混合加载与数据扩充将目标检测数据标注格式和语义分割标注格式统一以txt文件进行存储,每个txt文件对应一张图片,每一行代表图片中的一个目标边界框或一个目标闭合区域,边界框的数据格式为(class_id,x,y,w,h),其中class_id为目标类别编号,x为目标的中心点x坐标(横向)/图片总宽度,y为目标的中心点y坐标(纵向)/图片总高度,w为目标框宽度/图片总宽度,h为目标框高度/图片总高度,闭合区域的数据格式为(class_id,x_1,y_1,x_2,y_2,…,x_n,y_n),其中class_id为闭合区域的类别编号,一组x、y代表一个点的坐标,x和y的值为对图片尺寸归一化后的值,n表示一共有n个点确定该闭合区域;基于PyTorch深度学习框架,实现对两种标注的同步加载,数据增强采用Mosaic的方式随机拼接4幅图像,每个图像又经过随机平移、缩放、翻转、亮度和饱和度调整,用于丰富物体背景,提高模型的泛化能力;(2)目标检测和语义分割融合的端到端深度卷积神经网络DeSeNetDeSeNet网络架构一共分为4部分,分别是Input输入端、Backbone主干网络、Neck网络和Prediction预测网络;所述Input输入端,包含一个Focus模块,将RGB图像分解成4张尺寸为原来1/2的图像,并在通道维上拼接,最后经过一个卷积操作得到无损二倍下采样特征图;所述Backbone骨干网络,用于初步提取图像特征,包含CBS模块和CSP模块:a)CBS模块由卷积层(Conv)、归一化层(BatchNrom)和激活层(Swish)串连而成,作为网络中的基本卷积单元;b)CSP模块中包含两种基本模块,一种是CBS,另一种是残差单元(ResUnit),CSP_1使用了残差单元,CSP_2使用两个串连的CBS模块替换残差单元,CSP_1_X中的X代表模块中残差单元的数量;所述Neck网络,包括SPP模块、FPN结构和PAN结构,将Backbone中的多尺度信息进行融合:a)SPP结构利用空洞卷积将多重感受野融合;b)FPN结构通过自定向下的方式提取图片的语义特征,利用上采样并按通道维进行张量拼接,将深层特征维度扩展到浅层特征维度,PAN结构通过自底向上提取图片中的位置特征,利用CBS模块实现下采样,并按通道维进行张量拼接,将不同层次的特征进行融合;所述Prediction预测网络,分为Detection目标检测头和Segmentation语义分割头两个并行部分,分别输出3个不同尺度的目标检测特征图和1个语义分割特征图。2.根据权利要求1所述的方法,其特征在于,下面详细描述DeSeNet每个模块的具体实施步骤:(1)Input输入端,输入的图片大小为640*640*3,接着使用Focus模块对图像进行无损二倍下采样操作,具体操作是在一张图片中每隔一个像素取一个值,类似于邻近下采样,这样就获取了4张图片,每张图片尺寸变为320*320*3,将这4张图片按通道维拼接,组成一个320*320*12的张量,这样就将空间信息集中到了通道维度,最后再通过32个3*3的卷积核进行卷积运算输出一