预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115082295A(43)申请公布日2022.09.20(21)申请号202210715523.9(22)申请日2022.06.23(71)申请人天津大学地址300072天津市南开区卫津路92号(72)发明人宋丹曾建豪童若锋(74)专利代理机构天津市北洋有限责任专利代理事务所12201专利代理师李林娟(51)Int.Cl.G06T3/00(2006.01)G06T15/20(2011.01)G06T9/00(2006.01)G06N3/04(2006.01)权利要求书2页说明书9页附图4页(54)发明名称一种基于自注意力机制的时尚图像编辑方法及装置(57)摘要本发明公开了一种基于自注意力机制的时尚图像编辑方法及装置,方法包括:利用循环卷积神经网络提取图像编辑信息的特征,对不同层级的粗糙的图像编辑结果进行渲染细化,生成不同层级的细化的图像编辑结果并预测目标图像对应的掩膜;通过编码器分别提取细化的图像编辑结果和图像编辑信息的特征,再分别从细化的图像编辑结果和图像编辑信息的特征中遍历选取通道图像块和空间图像块以计算当前层级的注意力权重矩阵;将注意力权重矩阵和上一层级得到的图像编辑信息的特征点乘生成当前层级的图像编辑信息的特征,再通过卷积神经网络对图像编辑信息的特征进行解码,直至生成最终的时尚编辑图像。装置包括:处理器和存储器。本发明提高了生成图像的质量和准确性。CN115082295ACN115082295A权利要求书1/2页1.一种基于自注意力机制的时尚图像编辑方法,其特征在于,所述方法包括:针对原始图像和图像编辑信息,利用卷积神经网络提取两者的特征信息并生成多层级的特征信息对;通过估计特征信息对之间的变换及映射关系生成多层级的外观流变换矩阵,并使用外观流变换矩阵对不同尺寸的原始图像进行转换或弯曲,生成一系列不同尺寸且粗糙的图像编辑结果;利用循环卷积神经网络提取图像编辑信息的特征,对不同层级的粗糙的图像编辑结果进行渲染细化,生成不同层级的细化的图像编辑结果并预测目标图像对应的掩膜;通过编码器分别提取细化的图像编辑结果和图像编辑信息的特征,再分别从细化的图像编辑结果和图像编辑信息的特征中遍历选取通道图像块和空间图像块以计算当前层级的注意力权重矩阵;将注意力权重矩阵和上一层级得到的图像编辑信息的特征点乘生成当前层级的图像编辑信息的特征,再通过卷积神经网络对图像编辑信息的特征进行解码,直至生成最终的时尚编辑图像。2.根据权利要求1所述的一种基于自注意力机制的时尚图像编辑方法,其特征在于,所述原始图像和图像编辑信息为:对于虚拟试衣任务,原始图像是一张人物图像,图像编辑信息是一张待换服装图片;对于姿势引导的人物图像编辑任务,原始图像是一张人物图像,图像编辑信息是目标人体姿势;对于人脸编辑任务,原始图像是一张人脸图像,图像编辑信息是经由用户编辑的语义分割图;对于时装编辑任务,原始图像是一张人物图像,图像编辑信息是经由用户编辑的草图。3.根据权利要求1所述的一种基于自注意力机制的时尚图像编辑方法,其特征在于,所述卷积神经网络为:使用基于ResNet架构,构建两个多尺度特征提取网络,每个特征提取网络分别从原始图像和图像编辑信息中提取特征,每个特征提取网络包含一次降采样操作和两个残差网络,每次降采样操作包含一层卷积、一次数据归一化处理和一个激活函数,每个残差网络包含两层卷积、两次数据归一化处理和两个激活函数;两个多尺度特征提取网络分别生成通道数为256的三个不同尺寸下的特征矩阵,组成H×W×C多层级的特征信息对为{{c1,p1},{c2,p2},{c3,p3}},ci,pi∈R,其中ci表示由原始图像中提取的第i层的特征信息,pi表示由图像编辑信息中提取的第i层的特征信息,H,W,C分别代表视图特征的高,宽,通道数,R为实数集。4.根据权利要求1所述的一种基于自注意力机制的时尚图像编辑方法,其特征在于,所述外观流变换矩阵包括:坐标变换矩阵及像素偏差矩阵,所述坐标变换矩阵对原始图像中的像素进行重新排列,用于弯曲和变换原始图像;所述像素偏差矩阵对坐标变换后的像素进行补偿,用于生成原始图像中没有的编辑信息。5.根据权利要求4所述的一种基于自注意力机制的时尚图像编辑方法,其特征在于,每层外观流变换估计矩阵均由一个FlowNetSimple网络和两个FlowNetCor网络堆叠而成,看作一编码器‑解码器的架构;FlowNetSimple网络的编码器部分将原始图像和图像编辑信息按通道维度堆叠到一2CN115082295A权利要求书2/2页起,使用一系列卷积层提取特征,包含九个卷积层,其中六个卷积层的步长为2,每一层后还设置有一非线性的ReLU激活函数;FlowNetCor网络的编码器部分先通过三