预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共17页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115512368A(43)申请公布日2022.12.23(21)申请号202211007329.1G06N3/04(2006.01)(22)申请日2022.08.22G06N3/08(2006.01)(71)申请人华中农业大学地址430070湖北省武汉市洪山区狮子山街1号(72)发明人向金海蔡汶宏张子强朱焰新肖书尧章英(74)专利代理机构湖北武汉永嘉专利代理有限公司42102专利代理师樊凡(51)Int.Cl.G06V30/41(2022.01)G06V30/19(2022.01)G06F40/126(2020.01)G06F40/30(2020.01)权利要求书4页说明书7页附图5页(54)发明名称一种跨模态语义生成图像模型和方法(57)摘要本发明提供了一种跨模态语义生成图像模型和方法,采用了深度学习领域的生成对抗网络技术,结合自然语言处理领域的Bert模型提取文本描述的特征向量作为图像生成的条件,从而生成符合文本描述的图像,实现了由文本描述产生图像的功能。本发明提出了自适应语义特征融合模块,通过跨模态的方式调整生成图像,将语义特征更好地融合到图像生成的过程中,更加有效地构建文本与图像之间的映射关系,使得生成图像更加贴合语义描述。本发明将对比学习的方法应用到跨模态语义图像生成研究中,提出基于对比学习的损失函数,通过其约束文本特征与图像特征之间的相关性增强最终生成图像与语义的一致性,极大提升了模型性能。CN115512368ACN115512368A权利要求书1/4页1.一种跨模态语义生成图像模型,其特征在于:包括依次连接的文本编码器、生成网络模块和鉴别网络模块;文本编码器采用预训练的Bert网络模型,用于获取目标图像文本描述的句子向量esent和词向量eword;生成网络模块包括依次连接的全连接层、连续多个UpBlock块和伪图像生成模块Conv_img;每个UpBlock块包括残差块ResBlock和上采样层UpSample;残差块ResBlock包括主干结构和捷径Shortcut;残差块ResBlock的主干结构包括第一融合模块和第二融合模块;第一融合模块用于进行词级语义的融合;第二融合模块用于进行句子级语义的融合;第一融合模块和第二融合模块的结构相同,均包括自适应语义图像特征融合模块As‑ifModule、卷积核为3×3且步长为1的卷积层Conv和激活函数层LeakyRelu,表示为As‑ifmodule+Leakyrelu+Conv,用于加强自适应语义图像特征融合模块As‑ifModule对特征映射的效果;第一融合模块包括第一单隐层MLP用于从句子向量esent中预测语言条件的通道尺度参数γ和移动参数β:γ=MLPs(esent),β=MLPs(esent),第二融合模块包括第二单隐层MLP用于从词向量eword中得到参数:γ′=MLPs(eword),β′=MLPs(eword),设B、C、H、W分别代表特征向量的批次、通道数、高度、宽度,对前一层输入的特征向量hi∈RB×C×H×W先利用通道尺度参数γ进行特征通道尺度变化,然后利用移动参数β进行偏移操作,表示为:As(hi|e)=γi·hi+βi;鉴别网络模块包括依次连接的一个FC全连接层和连续多个DownBlock块构成的下采样模块,具有图像编码器的功能。2.根据权利要求1所述的一种跨模态语义生成图像模型,其特征在于:生成网络模块中:全连接层用于进行变形操作;捷径Shortcut包括自适应语义图像特征融合模块As‑ifModule、卷积核为3×3且步长为1的卷积层Conv和激活函数层LeakyRelu,表示为As‑ifmodule+Leakyrelu+Conv;伪图像生成模块Conv_img包括激活函数层LeakyRelu、卷积核为3×3的卷积层Conv和激活函数层Tanh。3.根据权利要求1所述的一种跨模态语义生成图像模型,其特征在于:鉴别网络模块中:每个DownBlock块包括卷积层Conv和激活函数层LeakyRelu,表示为Conv‑LeakyRelu‑Conv‑LeakyRelu,其中前一个卷积块采用尺寸为4×4、步长为2的卷积核用于进行卷积操作,后一个卷积块采用3×3、步长为1的卷积核用于进行卷积操作。4.根据权利要求1所述的一种跨模态语义生成图像模型,其特征在于:Bert网络模型用于通过语义编码将编码后的词向量和句子向量从全局到局部逐步加2CN115512368A权利要求书2/4页入到生成网络模块中,使得在生成图像的不同阶段有相应的语义信息监督模型;设Preal是真实图像的分布,Pfake是生成图像的分布,生成网络模块为G(z),鉴别网络模块为D(x);则鉴别网络模块的对抗损失函数为