一种基于Transformer的跨模态融合目标检测方法-豆柴文库

一种基于Transformer的跨模态融合目标检测方法.pdf

2023-07-22

10金币

600KB

9页

猫巷****忠娟

实名认证

内容提供者

1/9

2/9

3/9

4/9

5/9

6/9

7/9

8/9

9/9

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN114966696A(43)申请公布日2022.08.30(21)申请号202111588292.1G06K9/62(2022.01)(22)申请日2021.12.23(71)申请人昆明理工大学地址650093云南省昆明市五华区学府路253号(72)发明人沈韬向思佳曾凯马倩张小青(74)专利代理机构昆明明润知识产权代理事务所(普通合伙)53215专利代理师王鹏飞(51)Int.Cl.G01S13/931(2020.01)G06V10/44(2022.01)G06V10/764(2022.01)G06V10/77(2022.01)权利要求书1页说明书4页附图3页(54)发明名称一种基于Transformer的跨模态融合目标检测方法(57)摘要本发明涉及一种基于Transformer的跨模态融合目标检测方法，属于图像处理技术领域。本发明利用雷达传感器收集雷达数据同时摄像头收集图像数据。将毫米波雷达信息与图像信息进行对齐操作，包括时间对齐和空间坐标转换，同时将雷达特征映射到图像平面上。依据雷达物理特性对雷达信息进行预处理。构建特征提取网络，分别提取雷达特征和图像特征。设计雷达与视觉特征交互融合模块，充分考虑跨模态信息交互和上下文环境信息的补充学习。本发明与现有技术相比，将周围环境信息结合跨模态信息进行联合学习。解决了传统方法仅仅只能获取相同位置信息，缺乏对周围环境信息的感知的问题，同时降低了在恶劣天气和复杂场景下的误检率以及漏检率。CN114966696ACN114966696A权利要求书1/1页1.一种基于Transformer的跨模态融合目标检测方法，其特征在于：Step1：分别从毫米波雷达传感器及摄像头提取雷达数据信息以及视觉图像信息；Step2：将雷达信息以点云数据的形式呈现，并将两种模态的数据进行时间与空间的对齐；Step3：使用坐标转换将3D雷达点云信息映射到图像的2D平面上，映射后的雷达信息是一个含有18个通道的矩阵，其大小与图像矩阵保持一致；Step4：对单个雷达点进行扩充增强；Step5：将经过增强后的雷达信息与图像数据进行特征提取及融合；Step6：最后，对其进行分类和识别。2.根据权利要求1所述的基于Transformer的跨模态融合目标检测方法，其特征在于，所述Step4，对对单个雷达点进行扩充增强具体步骤为：Step4.1：明确雷达点映射在图像上的空间位置坐标；Step4.2：依据目标距离传感器的距离以及雷达传回的雷达截面积进行建模，获取目标显示在图像上的高度，将高度记为l；Step4.3：将原始雷达点依据获取的高度在图像上扩充成一条长度为l的线段；Step4.4：基于雷达截面积信息对增强的线段横向扩充，扩充宽度为，此时经过完整增强后的是一个矩形区域，该区域即为雷达重点关注区域，且该区域内的全部信息都与增强前的单个雷达点信息保持一致。3.根据权利要求1所述的基于Transformer的跨模态融合目标检测方法，其特征在于，所述Step5具体步骤为：Step5.1：使用VGG16作为特征提取网络，输入分别为雷达信息与图像信息，经过每一个block后进行特征融合；Step5.2：构建RC‑Attention，实现不同模态相似性的计算；Step5.3：基于RC‑Attention构建特征融合模块Multi‑Transformer，实现特征的跨模态融合及上下文信息的交互。2CN114966696A说明书1/4页一种基于Transformer的跨模态融合目标检测方法技术领域[0001]本发明涉及一种基于Transformer的跨模态融合目标检测方法，属于图像处理技术领域。背景技术[0002]辅助驾驶任务需要保证检测的实时性与准确性，单传感器难以适应复杂场景下的目标检测以及实时决策，从而增加驾驶风险。利用多传感器信息融合的方式能有效降低在复杂天气和场景下的漏检率和误检率，保证堵辅助驾驶的安全性。随着深度学习成为目标检测任务的主流方式，多传感器的融合形式也逐渐趋向于利用深度学习框架融合多模态特征。由于当前融合方法具有局限性，侧重于对局部信息进行建模，忽略了对周围环境的关注与感知。同时缺少分析不同传感器的特性导致采集数据的差异性，无法实现不同传感器信息的合理利用及交互补充。发明内容[0003]本发明要解决的技术问题是提供一种基于Transformer的跨模态融合目标检测方法，将周围环境信息结合跨模态信息进行联合学习，从而解决传统方法仅仅只能获取相同位置信息，缺乏对周围环境信息的感知的问题，同时降低了在恶劣天气和复杂场景下的误检率以及漏检率。[0004]本发明的技术方案是：一种基于Transformer的跨模态融合目标检测方法，其特征在于：[0005]Step1：

相关资料

一种基于Transformer的跨模态融合目标检测方法.pdf

本发明涉及一种基于Transformer的跨模态融合目标检测方法，属于图像处理技术领域。本发明利用雷达传感器收集雷达数据同时摄像头收集图像数据。将毫米波雷达信息与图像信息进行对齐操作，包括时间对齐和空间坐标转换，同时将雷达特征映射到图像平面上。依据雷达物理特性对雷达信息进行预处理。构建特征提取网络，分别提取雷达特征和图像特征。设计雷达与视觉特征交互融合模块，充分考虑跨模态信息交互和上下文环境信息的补充学习。本发明与现有技术相比，将周围环境信息结合跨模态信息进行联合学习。解决了传统方法仅仅只能获取相同位置信

2023-07-22

600KB

一种基于多尺度transformer的多模态医学图像融合方法.pdf

本发明公开了一种基于多尺度transformer的多模态医学图像融合方法，属于医学图像融合技术领域。本发明提出了一种新型高效的融合模型，设计多尺度transformer模型引入特征提取网络，使得特征提取网络可以有效地提取多尺度深度特征，并为融合任务保留更多有意义的信息；在网络训练的过程中自适应感受野和patch大小，并构建基于结构相似性优化目标函数来约束图像生成质量；利用卷积计算结合Transformer，为医学影像融合结果提供了更好的视觉效果和量化结果。

2023-06-01

1.3MB

一种基于图像融合的多模态图像目标检测方法.pdf

本发明涉及一种基于图像融合的多模态图像目标检测方法，包括：1)将预先采集好的红外图像及其可见光图像，制作多模态图像数据集；2)将预处理好的成对图像作为融合模型中生成模型G的输入；生成模型G基于U‑Net等全卷积网络，以残差网络为基础的卷积神经网络作为生成网络模型结构，包括收缩过程和扩张过程，收缩路径包括多个卷积加ReLU激活层再加最大池化(MaxPooling)结构，下采样的每一步特征通道数都增加一倍，输出生成的融合图像；融合图像输入融合模型中的判别网络模型；根据训练过程中损失函数的变化，按迭代次数调节

2023-11-15

982KB

一种基于多模态数据融合的目标检测方法以及基于目标检测模型的在体果实采摘方法.pdf

本发明公开了一种基于多模态数据融合的目标检测方法以及基于目标检测模型的在体果实采摘方法，属于智能检测技术领域。一方面目标检测模型的训练方法中，利用深度相机获取自然环境下在体果实的多模态视觉数据，引入坐标注意力机制增强特征提取网络对目标物的感知能力，结合深度可分离卷积模块减少模型参数量和推理时间；另一方面将目标检测模型应用到机械臂对果实的识别中，提出基于果实位置信息和遮挡状态分类的视觉伺服检测机制，该机制利用机械臂在果实采摘过程中具有运动特性的优势，通过机械臂运动带动相机视角变化，不断更新相机视野内所检测到

2023-06-28

1.2MB

一种基于双模态融合网络的目标检测方法及装置.pdf

本发明提供一种基于双模态融合网络的目标检测方法，包括获取图像对数据集，建立双模态图像数据集，构建模块分别对红外图像和可见光图像编码，构建双路门控融合网络，将融合特征输入至基准方法YOLOv5‑s网络第三层，得到最终检测网络，处理好的图像对数据集，输入至最终检测网络中，得到检测结果；还包括一种基于本发明方法的目标检测装置；本发明方法采用嵌入门控融合网络，使模型能够确定两种模态图像在不同场景中对检测的贡献；引入多任务学习的思想，自适应调节权重分配，实现跨模态特征融；面对黑夜等复杂环境本发明具有较好的鲁棒性。

2023-06-07

689KB