预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113706572A(43)申请公布日2021.11.26(21)申请号202110980735.5(22)申请日2021.08.25(71)申请人北京大学地址100871北京市海淀区颐和园路5号(72)发明人童云海李祥泰(74)专利代理机构北京万象新悦知识产权代理有限公司11360代理人黄凤茹(51)Int.Cl.G06T7/194(2017.01)G06K9/62(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书7页附图3页(54)发明名称一种基于查询向量的端到端的全景图像分割方法(57)摘要本发明公布了一种基于查询向量的端到端的全景图像分割方法,使用查询向量表征全景图像分割的过程和输出的结果;查询向量(ObjectQuery)包括前景查询向量(ThingQuery)和背景查询向量(StuffQuery);建立全景图像分割模型,包括分别建立图像前景类分割模型和图像背景类分割模型;将前景查询向量和背景查询向量分别映射到图像前景类分割结果things和图像背景类分割结果stuff;基于前景查询向量和背景查询向量进行检测训练,缩短前景目标的检测训练时间,实现端到端地训练和输出前景分割结果背景的分割结果。本发明方法流程更为简单、计算复杂度较低、性能更好。CN113706572ACN113706572A权利要求书1/2页1.一种基于查询向量的端到端的全景图像分割方法,其特征是,使用查询向量表征全景图像分割的过程和输出的结果;查询向量(ObjectQuery)包括前景查询向量(ThingQuery)和背景查询向量(StuffQuery);建立全景图像分割模型,包括分别建立图像前景类分割模型和图像背景类分割模型;将前景查询向量和背景查询向量分别映射到图像前景类分割结果things和图像背景类分割结果stuff;基于前景查询向量和背景查询向量进行检测训练,缩短前景目标的检测训练时间,实现端到端地训练和输出前景分割结果背景的分割结果;包括如下步骤:1)使用基于稀疏目标框的检测器Sparse‑RCNN,进行图像的特征抽取和前景目标检测框的检测;包括:11)进行图像特征抽取,获得输入图像的特征:对输入的图像,使用卷积神经网络CNN和特征金字塔网络FPN获得图像的特征集合,记为{F1,F2,F3,F4};12)检测前景目标检测框,对输入图像的特征{F1,F2,F3,F4}回归得到图像中的前景的位置,即前景中的目标检测框的位置;利用Sparse‑RCNN检测器,使用一组查询向量和查询框QueryBox对特征{F1,F2,F3,F4}进行前景目标的检测;其中每个查询向量和每个查询框一一对应,即每个向量对应一个目标检测的结果;查询向量和查询框内的特征通过动态卷积进行交互,增强目标的前景特征;所述动态卷积是指使用查询框对应的特征动态地生成卷积核,再对每个查询向量进行加权;2)扩展Sparse‑RCNN检测器的检测头部,得到图像前景分割头部ThingHead,即得到前景分割结果输出;包括:首先,建模前景查询向量ThingQuery,使得检测器可输出前景分割的结果;然后,扩展Sparse‑RCNN检测器中的N个查询向量,通过查询向量编码分割的信息;具体是通过学习编码向量的形式MaskEncoding编码前景分割结果;其中,编码向量的形式MaskEncoding使用多层感知机MLP对查询向量进行特征映射,将映射后的特征作为前景分割结果;在网络模型训练之前,利用图像数据集的前景分割标注训练编码映射矩阵;编码映射矩阵包括编码器和解码器;在网络模型训练时,对查询向量进行特征的映射后的向量与预训练的编码器进行特征映射后的向量之前的距离进行优化,将该优化距离作为前景分割的损失函数;使用预训练的解码器,解码特征的映射后的向量,得到前景分割的输出,即模型的输出为N个前景的分割结果;3)使用背景查询向量StuffQuery表征图像背景的分割结果,在背景分割头部StuffHead中进行背景类图像分割,得到背景分割结果;包括:31)进行全局交互;具体是使用背景查询向量和特征集合{F1,F2,F3,F4}进行融合和交互:首先对特征集合进行特征的融合,将不同分辨率的特征插值到相同的分辨率上,得到融合后的特征;再使用自注意机制对背景查询向量和融合后的特征进行建模;自注意机制输出全局注意力关系图,该关系图对每个查询向量和每个特征点的映射关系建模,由此得2CN113706572A权利要求书2/2页到图像的全局信息表征;32)进行残差融合,将每个背景查询向量StuffQuery)映射到每个背景类别;具体是使用卷积神经网络将输出的全局注意力的关系图和特征集合{F