预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115082674A(43)申请公布日2022.09.20(21)申请号202210816612.2G06V10/80(2022.01)(22)申请日2022.07.12G06V10/82(2022.01)(71)申请人西安电子科技大学地址710071陕西省西安市太白南路2号(72)发明人朱虎明李佳昌杨贵鹏惠少雄王光磊王金成田小林侯彪(74)专利代理机构陕西电子工业专利中心61205专利代理师陈宏社王品华(51)Int.Cl.G06V10/25(2022.01)G06N3/04(2006.01)G06N3/08(2006.01)G06V10/44(2022.01)G06V10/774(2022.01)权利要求书3页说明书7页附图1页(54)发明名称基于注意力机制的多模态数据融合三维目标检测方法(57)摘要本发明提出了一种基于注意力机制的多模态数据融合三维目标检测方法,实现步骤为:建立训练和测试样本集并对数据进行预处理;构建基于注意力机制的多模态数据融合三维目标检测网络;定义基于注意力机制的多模态数据融合三维目标检测网络的损失函数;对网络模型进行迭代训练;获取三维目标的检测结果。本发明利用特征学习网络,初步提取出一些候选区域,然后将候选区域中的点云数据、点的位置特征以及对应的图像信息进行了融合,充分利用了点云的规则化空间位置信息、点特征的精细化空间结构信息和图像的语义信息,减小了误差累积,进而提高了局部空间出现多个目标时的检测精度。CN115082674ACN115082674A权利要求书1/3页1.一种基于注意力机制的多模态数据融合三维目标检测方法,其特征在于,包括如下步骤:(1)获取训练样本集E1和测试样本集E2:从公开数据集中获取T幅维度为W×H的已标注RGB图像、每幅RGB图像所对应场景中维度为N×K的已标注点云数据和两者的标定数据,并对每个点云数据进行预处理,然后将预处理后的T1个点云数据及其对应的RGB图像组成训练样本集E1,将剩余的T2个预处理后的点云数据及其对应的RGB图像组成测试样本集E2,其中,T≥5000,T1>T2,T1+T2=T;(2)基于注意力机制的多模态数据融合三维目标检测网络:(2a)构建基于注意力机制的多模态数据融合三维目标检测网络D的结构:构建包括顺次连接的点云特征学习模块、多模态数据融合模块、基于Transformer的特征提取模块的三维目标检测网络D,其中,点云特征学习模块,包括顺次连接的三维稀疏卷积网络和区域回归网络;基于Transformer的特征提取模块,包括顺次连接的编码器和解码器;(2b)定义三维目标检测网络D的损失函数L:定义包含置信度损失Lconf和三维目标损失Lrpn的三维目标检测网络D的损失函数L:L=Lconf+Lrpn;(3)对三维目标检测网络D进行迭代训练:(3a)初始化迭代次数为r,最大迭代次数为R,当前三维目标检测网络模型为Dr的权值参数为θr,并令r=1,Dr=D;(3b)从训练样本集E1中无放回的选取训练样本作为网络模型Dr的输入进行前向传播,实现步骤为:(3b1)将训练样本集E1作为三维目标检测网络Dr的输入,点云特征学习模块中的三维稀疏卷积网络对每个训练样本进行三维特征学习,点云特征学习模块中的区域回归网络对三维稀疏卷积网络输出的三维特征进行区域生成,得到共包含T1个点云数据的S个候选区域且每个候选区域至少包含一个点云数据,其中S≥1000,和分别表示每个候选区域的中心点坐标值,lrpn、wrpn和hrpn分别表示每个候选区域的长、宽和高,θrpn表示每个候选区域的旋转角度值;(3b2)多模态数据融合模块对每个候选区域RPN内所有点云数据中的点与其对应的RGBcj图像信息,进行多模态数据拼接,得到N个融合后的点云数据P={pi,Δpi,Δpi,fi},i=1,c2,…,n,其中pi表示候选区域中的i个点,Δpi表示候选区域中的每个点到候选区域中心点j的距离、Δpi表示候选区域中的每个点到八个角点的距离,fi表示候选区域内的每个点经过标定矩阵的转换所找到的对应图像像素中的RGB三通道值;(3b3)基于Transformer的特征提取模块中编码器对T1个融合后的点云数据P进行特征提取,得到P的点云特征;解码器对P的点云特征进行通道加权解码,得到T1个点云数据中的prepreprepreprepre预测三维目标框xpre={x,y,z,l,w,h}、以及三维目标框对应的角度值θpre、分类概率y、置信度概率c和方向概率dir;(3c)采用三维目标检测网络D的损失函数L,并根据置信度概率c计算置信度损失值Lconf,根据预测的三维目标值xpre、预测的角度值θpre、预测的分类概率y和预测的方向概率