预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111161277A(43)申请公布日2020.05.15(21)申请号201911274458.5(22)申请日2019.12.12(71)申请人中山大学地址510275广东省广州市海珠区新港西路135号(72)发明人赖剑煌邓卓爽(74)专利代理机构广州市华学知识产权代理有限公司44245代理人刘巧霞(51)Int.Cl.G06T7/11(2017.01)G06T7/194(2017.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书7页附图2页(54)发明名称一种基于深度学习的自然图像抠图方法(57)摘要本发明公开了一种基于深度学习的自然图像抠图方法,其包括以下步骤:获取抠图数据集,并进行数据增强;搭建具有编码器-解码器结构的自然图像抠图模型,为保留细节信息,设计编码器使其下采样倍数为4,为弥补下采样倍数下降带来的感受野变小,引入空洞卷积扩大感受野,保存最大池化操作中最大像素位置,以便为上采样阶段提供位置信息;为解决多尺度问题,在编码器顶部连接一个空洞空间金字塔模块;在解码器中设计全局语境模块,用于融合所述编码器与解码器对应的高层特征;最后训练并测试。本发明在提取特征过程中保留更多细节信息,同时关联多尺度特征,使模型能捕抓到全局信息,有利于模型处理细节以及大面积透明物体,提升抠图质量。CN111161277ACN111161277A权利要求书1/2页1.一种基于深度学习的自然图像抠图方法,其特征在于,包括步骤:S1:获取抠图数据集,把所述抠图数据集中样本划分为训练集与测试集;S2:搭建具有编码器-解码器结构的自然图像抠图模型,该模型中所述编码器的下采样倍数为4,结合普通卷积和空洞卷积操作;编码器顶部连接一个空洞空间金字塔池化模块;所述解码器包含全局语境模块,用于融合所述编码器与解码器对应的高层特征;S3:初始化并训练模型,利用所述训练集中的alpha蒙版生成三元图,把原图与三元图作为模型输入,对模型进行训练,模型输出为预测的alpha蒙版,计算预测的alpha蒙版与真实alpha蒙版之间的误差,保存在所述测试集上表现最好的模型;S4:将需要测试的图片及对应的三元图输入到已训练好的自然图像抠图模型中,得到预测的alpha蒙版。2.根据权利要求1所述的基于深度学习的自然图像抠图方法,其特征在于,步骤S1中,对训练集和测试集分别进行数据增强,方法是:利用前景图和alpha蒙版把同一前景目标融合进不同的背景中,融合公式为:Ii=αi*Fi+(1-αi)*Bi式中,i表示某一个像素,Ii表示像素颜色,αi表示透明度,Fi表示前景,Bi表示背景。3.根据权利要求1所述的基于深度学习的自然图像抠图方法,其特征在于,步骤S2中,所述编码器由5个stage组成,在stage1和stage2中使用普通卷积和步长为2的最大池化操作,把stage3和stage4中最大池化操作的步长设为1,去除stage5的池化操作,以上结构使得所述编码器的下采样倍数为4;在stage4和stage5引入空洞卷积操作;把所有全连接层替换成一层卷积核大小为1的卷积层。4.根据权利要求3所述的基于深度学习的自然图像抠图方法,其特征在于,所述最大池化操作需返回最大值像素的坐标信息;所述空洞空间金字塔池化模块用于解决特征多尺度问题,具体方法为:在所述编码器顶部连接五路并行分支,前四路分支分别使用空洞率为1、5、9、16的空洞卷积操作对所述编码器输出的特征图作进一步特征提取,最后一路对所述编码器输出的特征图进行全局平均池化操作得到一维向量,利用双线性插值法对所述向量上采样至所述编码器输出的特征图大小,对所述五路并行分支的特征图在通道方向进行拼接。5.根据权利要求3所述的基于深度学习的自然图像抠图方法,其特征在于,步骤S2中所述解码器包括4个阶段:阶段D4:对输出自所述空洞空间金字塔池化模块的特征图进行卷积操作,利用所述全局语境模块对所得特征图和所述编码器stage5的输出进行融合,利用所述编码器stage4最大池化操作保留的最大值坐标信息,对全局语境模块输出的特征图进行反池化操作,步长设置为1,使特征图尺度保持不变;阶段D3:对输出自阶段D4的特征图进行卷积操作,利用所述全局语境模块对所得特征图和所述编码器stage4的输出进行融合,利用所述编码器stage3最大池化操作保留的最大值坐标信息,对全局语境模块输出的特征图进行反池化操作,步长设置为1,使特征图尺度保持不变;阶段D2:对输出自阶段D3的特征图进行卷积操作,利用所述编码器stage2最大池化操作保留的最大值坐标信息,对所得特征图进行反池化操作,步长设置为2,使特征图上采样22CN11116127