一种基于四类多模态数据融合的目标多维度检测方法-豆柴文库

一种基于四类多模态数据融合的目标多维度检测方法.pdf

2023-07-24

10金币

431KB

8页

书生****瑞梦

实名认证

内容提供者

1/8

2/8

3/8

4/8

5/8

6/8

7/8

8/8

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113971801A(43)申请公布日2022.01.25(21)申请号202111255921.9G06V10/762(2022.01)(22)申请日2021.10.27G06V10/774(2022.01)G06V10/80(2022.01)(71)申请人南京师范大学G06V10/82(2022.01)地址210024江苏省南京市鼓楼区宁海路G06K9/62(2022.01)122号G06N3/04(2006.01)申请人江苏省中以产业技术研究院G06N3/08(2006.01)(72)发明人吕昊方铭宇宋治儒钱伟行刘童亓霈孟佳杰汪澜泽马玉浩(74)专利代理机构南京经纬专利商标代理有限公司32200代理人朱小兵(51)Int.Cl.G06V20/64(2022.01)G06V10/40(2022.01)权利要求书1页说明书4页附图2页(54)发明名称一种基于四类多模态数据融合的目标多维度检测方法(57)摘要本发明公开了一种基于四类多模态数据融合的目标多维度检测方法，包括：采集待检测目标的雷达点云图像、红外图像、磁场图像以及RGB图像，搭建卷积神经网络对四种输入图像进行特征提取，将预定义三维锚框投影到四种特征图上，搭建引入注意力模块的RPN网络生成建议框，将建议框投影到四种特征图上，搭建全连接网络实现边界框回归、方向估计和类别分类。本发明针对采用通常的RGB图像目标检测方法的缺陷，利用雷达、红外以及磁场图像可以弥补信息的缺失，提高对目标的检测精度。CN113971801ACN113971801A权利要求书1/1页1.一种基于四类多模态数据融合的目标多维度检测方法，其特征在于，包括以下步骤：步骤1、采集待检测目标的雷达、红外、磁场以及彩色图像，将其划分为训练集、验证集和测试集，并且进行三维锚框标注，生成数据集；步骤2、搭建四个结构独立的卷积神经网络作为主干网络，用于提取四种输入图像的特征图；步骤3、在训练集上通过聚类预先设置三维锚框，投影到四种特征图上，裁剪并池化到相同大小进行融合，搭建RPN网络生成建议框，同时引入注意力模块；步骤4、将RPN网络生成的建议框投影到四种特征图上，裁剪并池化到相同大小进行融合，搭建全连接网络，生成最终的预测框，同时引入注意力模块。2.根据权利要求1所述的多维度检测方法，其特征在于，步骤1包括：步骤1.1、将雷达、红外传感器、磁传感器以及摄像头集成到一起，确保四种图像对齐，采集足够数量的四种类型的目标图像，去除其中不清晰的图像，其中雷达点云数据转换成BEV鸟瞰图；步骤1.2、将获得的数据集按一定比例划分为训练集、验证集和测试集，对训练集和验证集进行三维锚框标注，测试集用于评估目标检测网络训练的效果。3.根据权利要求1所述的多维度检测方法，其特征在于，步骤2中，是通过四个结构独立的卷积神经网络分别对四种输入图像进行特征提取，主干网络采用VGG16结构，在conv‑4处截断，每个卷积层滤波器数量变为原来的一半，最终提取四个256通道的特征图，同时采用GAU模块增强特征图的信息。4.根据权利要求1所述的多维度检测方法，其特征在于，步骤3包括：步骤3.1、在训练集上采用聚类算法为每个类别生成大量的预定义锚框，并将其投影到主干网络的四种输出特征图上，裁剪对应的部分并且通过池化操作调整为相同宽高的特征图；步骤3.2、对于每个锚框，通过元素平均操作将四种特征图进行融合，然后将其输入全连接网络，最终输出锚框的回归参数以及为前景的分数；步骤3.3、在RPN网络中引入了注意力模块，使用分类识别定位策略Grad‑CAM，获取最后一个卷积层的输出特征图，在进行反向传播时求得特征图的梯度，取平均和最大值的和作为每个特征图的权重，最后加权求和经过LeakyReLU激活函数得到类激活图；再使用反向注意力网络IAN生成生成空间方向的反向注意力图和通道方向的反向注意力图，然后组合生成反向注意力图，最后与卷积层输出特征图相乘。5.根据权利要求1所述的多维度检测方法，其特征在于，步骤4中，将步骤3生成的建议框投影到四种特征图上，裁剪并池化到相同大小，然后采用元素平均操作进行融合，输入全连接网络，最终输出每个建议框的回归参数、方向估计以及类别分类；同时也引入注意力模块，利用GradCAM和基于梯度的IAN计算反向注意力图，再与融合后的特征图进行元素相乘。2CN113971801A说明书1/4页一种基于四类多模态数据融合的目标多维度检测方法技术领域[0001]本发明涉及深度学习、图像识别、三维目标检测技术领域，特别涉及了一种基于四类多模态数据融合的目标多维度检测方法。背景技术[0002]在机器人、自动装载和自动驾驶等许多实际应用中，物体的三维位置信息越来越受到重视

相关资料

一种基于四类多模态数据融合的目标多维度检测方法.pdf

本发明公开了一种基于四类多模态数据融合的目标多维度检测方法，包括：采集待检测目标的雷达点云图像、红外图像、磁场图像以及RGB图像，搭建卷积神经网络对四种输入图像进行特征提取，将预定义三维锚框投影到四种特征图上，搭建引入注意力模块的RPN网络生成建议框，将建议框投影到四种特征图上，搭建全连接网络实现边界框回归、方向估计和类别分类。本发明针对采用通常的RGB图像目标检测方法的缺陷，利用雷达、红外以及磁场图像可以弥补信息的缺失，提高对目标的检测精度。

2023-07-24

431KB

一种基于多模态数据融合的目标检测方法以及基于目标检测模型的在体果实采摘方法.pdf

本发明公开了一种基于多模态数据融合的目标检测方法以及基于目标检测模型的在体果实采摘方法，属于智能检测技术领域。一方面目标检测模型的训练方法中，利用深度相机获取自然环境下在体果实的多模态视觉数据，引入坐标注意力机制增强特征提取网络对目标物的感知能力，结合深度可分离卷积模块减少模型参数量和推理时间；另一方面将目标检测模型应用到机械臂对果实的识别中，提出基于果实位置信息和遮挡状态分类的视觉伺服检测机制，该机制利用机械臂在果实采摘过程中具有运动特性的优势，通过机械臂运动带动相机视角变化，不断更新相机视野内所检测到

2023-06-28

1.2MB

一种基于图文交互的多模态数据融合方法.pdf

本发明公开了一种基于图文交互的多模态数据融合方法,包括如下步骤:S1、获取多模态数据,所述多模态数据包括巡检图像数据和设备状态数据;S2、通过卷积神经网络获取巡检图像的图像特征图;S3、通过文本抽取器对设备状态数据进行预处理得到文本特征图;S4、构建多头注意力模块获取文本注意力权重和图像注意力权重;S5、基于文本注意力权重和图像注意力权重获取图像文本混合特征;S6、通过多头交叉注意力模块获取训练数据和目标的双向交互式信息;S7、通过特征图混合模块得到混合特征图信息并输出预测结果。方案通过对多模态特征进行融

2023-04-20

438KB

一种基于图像融合的多模态图像目标检测方法.pdf

本发明涉及一种基于图像融合的多模态图像目标检测方法，包括：1)将预先采集好的红外图像及其可见光图像，制作多模态图像数据集；2)将预处理好的成对图像作为融合模型中生成模型G的输入；生成模型G基于U‑Net等全卷积网络，以残差网络为基础的卷积神经网络作为生成网络模型结构，包括收缩过程和扩张过程，收缩路径包括多个卷积加ReLU激活层再加最大池化(MaxPooling)结构，下采样的每一步特征通道数都增加一倍，输出生成的融合图像；融合图像输入融合模型中的判别网络模型；根据训练过程中损失函数的变化，按迭代次数调节

2023-11-15

982KB

基于多模态数据融合的商品推荐方法.pdf

本发明提供了一种基于多模态数据融合的商品推荐方法，属于深度学习技术领域。通过ALBERT‑TextCNN提升从客户基本属性数据集中提取出的词向量的表征能力和最大程度保留客户不同层次的语义信息，提升不同客户群体的分类效果；通过AlBert‑BiLSTM‑CRF有效解决对于文本中一词多义解析效果差、多义词的不同语境无法处理等传统语言处理模型无法解决的问题，将客户线上和线下交易数据集进行更加符合文本集上下文语义的关键词，更有针对性地构建客户标签；使用k维树方法获取两种标签类别的相似客户，再通过相似客户购买历史进

2023-11-06

626KB