预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113837190A(43)申请公布日2021.12.24(21)申请号202111005862.X(22)申请日2021.08.30(71)申请人厦门大学地址361005福建省厦门市思明区思明南路422号(72)发明人曹刘娟胡杰陆瑶(74)专利代理机构厦门南强之路专利事务所(普通合伙)35200代理人马应森曾权(51)Int.Cl.G06K9/34(2006.01)G06K9/32(2006.01)G06K9/46(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书1页说明书7页附图3页(54)发明名称一种基于Transformer的端到端实例分割方法(57)摘要一种基于Transformer的端到端实例分割方法,涉及计算机视觉中的图像检测和分割领域。1)利用卷积网络和具有特征金字塔网络将图像生成特征金字塔;2)利用RoIAlign裁剪并对齐来自金字塔的特征图,提取RoI感兴趣特征区域;3)通过具有动态注意力的Transformers编码器将图像特征和RoI特征图融合到预测头中;4)由预测头输出实例的边界框,低维掩码特征,目标类别;5)反复迭代查询框,并更新预测头输出。在端到端实例分割中使用Transformers,可预测低维掩码特征而不是高维掩码,这不仅简化训练并激发掩码二分匹配代价的设计。可并行检测并分割实例,准确性和运行性能优。CN113837190ACN113837190A权利要求书1/1页1.一种基于Transformer的端到端实例分割方法,其特征在于其框架体系包括带有FPN的CNN骨干、具有动态注意力的Transformer编码器和一组预测头,所述带有FPN的CNN骨干,用于提取每个实例的特征;所述具有动态注意力的Transformer编码器,用于学习目标之间的关系;所述预测头用于进行检测和分割,然后进行N步递归更新,从而完善预测集;所述方法,包括以下步骤:1)将输入的图像通过特征金字塔网络和卷积神经网络生成金字塔特征图;2)通过带有RoIAlign的可查询查询框裁剪并对齐金字塔特征图,从而获取RoI感兴趣特征区域,通过对特征图求和并求平均值获得图像特征;3)通过具有动态注意力的Transformers编码器将图像特征和RoI特征图融合到预测头中;4)由预测头输出实例的边界框、低维掩码特征、目标类别;5)反复迭代查询框,在N个阶段中不断细化预测的框、类标签和掩码。2.如权利要求1所述一种基于Transformer的端到端实例分割方法,其特征在于所述预测集是由预测头计算获得,包括类标签头、预测框头、掩码头和固定的掩码解码器;预测框头第i步中用于更新查询框的归一化中心坐标,高度和宽度的残差值,类标签头使用softmax函数预测类标签;掩码头输出掩码特征,然后通过预学习的掩码解码器重建特征来预测掩码。2CN113837190A说明书1/7页一种基于Transformer的端到端实例分割方法技术领域[0001]本发明涉及计算机视觉中的图像检测和分割领域,尤其是涉及一种基于Transformer的端到端实例分割方法。背景技术[0002]实例分割是一项对图像中每个实例进行检测和分割的任务。近年来计算机视觉发展的一个明显趋势是删除手工制作的组件以实现端到端的训练和推理测试,这在多项任务上得到显着改善。但是,在实例分割上仍然缺乏这种端到端范式的应用。现有方法一般是需要手动设计的称为非最大抑制(NMS)的后处理步骤来删除重复的预测(KaimingHe,GeorgiaGkioxari,PiotrDollar,andRossGir‑′shick.Maskr‑cnn.InProceedingsoftheIEEEInternationalConferenceonComputerVision,2017;ShuLiu,LuQi,HaifangQin,JianpingShi,andJiayaJia.Pathaggregationnetworkforinstancesegmentation.InProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2018),或者是在小型数据集上进行早期试验但缺乏针对现代基准的评估(MengyeRenandRichardSZemel.End‑to‑endinstancesegmentationwithrecurrentattention.InProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,2017.;BernardinoRo