预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共22页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113963087A(43)申请公布日2022.01.21(21)申请号202111189380.4(22)申请日2021.10.12(71)申请人北京百度网讯科技有限公司地址100085北京市海淀区上地十街10号百度大厦2层(72)发明人郭汉奇洪智滨胡天舒(74)专利代理机构北京清亦华知识产权代理事务所(普通合伙)11201代理人罗岚(51)Int.Cl.G06T11/60(2006.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书4页说明书11页附图6页(54)发明名称图像处理方法、图像处理模型训练方法、装置及存储介质(57)摘要本申请公开了图像处理方法、图像处理模型训练方法、装置及存储介质,涉及人工智能领域的计算机视觉、深度学习等领域。具体实现方案为:将所述待编辑图像在生成对抗网络的S空间进行编码,获取第一隐编码;其中,所述生成对抗网络为基于样式的生成对抗网络;将所述文本描述信息进行编码,获取文本图像的文本编码,并将所述文本编码在所述S空间上进行映射,获取第二隐编码;将所述第一隐编码和第二隐编码进行距离优化,获取满足距离要求的目标隐编码;基于所述目标隐编码生成所述目标图像。能够在编辑图像的某一部分时对其它无需编辑的部分产生的影响更小;并能够有效提升优化速度。CN113963087ACN113963087A权利要求书1/4页1.一种图像处理方法,包括:响应于图像编辑请求,根据所述图像编辑请求确定待编辑图像和目标图像特性的文本描述信息;将所述待编辑图像在生成对抗网络的S空间进行编码,获取第一隐编码;其中,所述生成对抗网络为基于样式的生成对抗网络;将所述文本描述信息进行编码,获取基于文本图像对比预训练CLIP的文本编码,并将所述文本编码在所述S空间上进行映射,获取第二隐编码;将所述第一隐编码和第二隐编码进行距离优化,获取满足距离要求的目标隐编码;基于所述目标隐编码生成所述目标图像。2.根据权利要求1所述的方法,其中,所述将所述待编辑图像在生成对抗网络的S空间进行编码,获取第一隐编码,包括:将待编辑图像输入至逆变换编码器,通过所述逆变换编码器在所述S空间中生成与所述待编辑图像对应的第一隐编码;其中,所述逆变换编码器是基于图像重建误差进行监督训练的,其中,所述图像重建误差为原始图像与对应的重建图像之间的误差,所述重建图像为所述生成对抗网络的生成器基于所述变换编码器输出的隐编码进行图像重建而得到的。3.根据权利要求1所述的方法,其中,所述将所述文本描述信息进行编码,获取文本图像对比预训练的文本编码,并将所述文本编码在所述S空间上进行映射,获取第二隐编码,包括:将文本描述信息输入至所述CLIP模型的文本编辑器,对所述文本描述信息进行编码,获取文本编码;将所述文本编码输入至隐编码映射器,将所述文本编码在所述S空间上进行映射,获取第二隐编码。4.根据权利要求1所述的方法,其中,所述将所述第一隐编码和第二隐编码进行距离优化,获取满足距离要求的目标隐编码,包括:将所述第一隐编码和第二隐编码输入至图像重建编辑器,对所述第一隐编码和第二隐编码进行距离优化,获取满足距离要求的目标隐编码。5.根据权利要求4所述的方法,其中,所述图像重建编辑器包括卷积网络,所述图像重建编辑器的目标函数表示如下:L=(s–s_{image})2+\lambda(s–s_{text})2其中,s表示目标隐编码,s_{image}表示第一隐编码,s_{text})表示第二隐编码,\lambda表示距离权重的经验值。6.根据权利要求1所述的方法,其中,所述基于所述目标隐编码生成所述目标图像,包括:将所述目标隐编码输入至所述生成对抗网络的生成器,以生成所述目标图像。7.一种图像处理模型训练方法,其中,所述模型包括逆变换编码器、文本图像对比预训练CLIP模型、隐编码映射器、图像重建编辑器以及基于样式的生成对抗网络的生成器,所述方法,包括:通过原始图像在生成对抗网络的S空间训练逆变换编码器,得到训练好的逆变换编码2CN113963087A权利要求书2/4页器;其中,所述生成对抗网络为基于样式的生成对抗网络;通过所述训练好的逆变换编码器将所述原始图像在所述S空间进行编码,获取第三隐编码;并利用所述CLIP模型的图像编辑器将所述原始图像转换为第四隐编码;基于所述第三隐编码和所述第四隐编码训练所述隐编码映射器,得到训练好的隐编码映射器;获取所述原始图像和目标图像特性的文本描述信息,并将所述文本描述信息通过所述CLIP模型的文本编辑器进行编码,获取文本编码,以及通过所述训练好的隐编码映射器将所述文本编码在所述S空间上进行映射,获取第五隐编码;基于所述第三隐编码和所述第五隐编码训