预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115862039A(43)申请公布日2023.03.28(21)申请号202211559529.8G06N3/0464(2023.01)(22)申请日2022.12.06(71)申请人辽宁工程技术大学地址123000辽宁省阜新市细河区中华路47号(72)发明人廖涌卉姜文涛张海涛(74)专利代理机构北京华夏正合知识产权代理事务所(普通合伙)11017专利代理师韩登营(51)Int.Cl.G06V30/262(2022.01)G06V30/40(2022.01)G06V10/82(2022.01)G06N3/049(2023.01)G06N3/08(2023.01)权利要求书1页说明书4页附图1页(54)发明名称基于多尺度特征的文本生成图像算法(57)摘要本发明公开了一种基于多尺度特征的文本生成图像算法,该方法包括:采用双向长短期记忆网络学习给定文本的语义表示,产生两个输出:表示文本全局语义的句子特征、表示每个单词语义的词向量特征;网络的最后一个平均池化层实现的,在模型中添加一个感知器网络将图像特征转化为与文本特征相同维度的特征;采用注意力矩阵形成的多模态上下文向量和上阶段输出的隐向量作为输入;通过不同的扩张率进行空洞卷积实现并行采样,不同扩张率提取的特征在单独的分支中处理,融合生成最终结果。本发明通过在上采样结构之前引入空洞空间金字塔结构来融合多尺度信息,保留更多的图像特征,实现高级特征语义信息的挖掘,有利于提高生成图片的质量。CN115862039ACN115862039A权利要求书1/1页1.基于多尺度特征的文本生成图像算法,其特征在于,包括以下步骤:S1、采用双向长短期记忆网络学习给定文本的语义表示,产生两个输出:表示文本全局语义的句子特征、表示每个单词语义的词向量特征;S2、通过裁剪方式将图像分辨率进行缩放,提取局部图像特征的Inception‑v3网络中的“mixed_6e”层,全局特征的提取通过Inception‑v3网络的最后一个平均池化层实现,在模型中添加一个感知器网络将图像特征转化为与文本特征相同维度的特征;S3、采用注意力矩阵形成的多模态上下文向量和上阶段输出的隐向量作为输入;S4、通过不同的扩张率进行空洞卷积实现并行采样,不同扩张率提取的特征在单独的分支中处理,融合生成最终结果。2.如权利要求1所述的基于多尺度特征的文本生成图像算法,其特征在于,在所述步骤S1中,使用条件增强来增强训练数据得到低维度的文本条件向量随机选择一个服从正态分布的高斯噪声z拼接句子特征得到送入上采样模块得到第一个分支的隐特征h0:其中,z~N(0,1),F0是建立的神经网络模型,将其送入生成器生成低分辨率图像,此时的低分辨率图像包含对象的大致颜色和粗略结构。3.如权利要求1所述的基于多尺度特征的文本生成图像算法,其特征在于,在所述步骤S5中,ASPP结合不同尺寸的深度可分离卷积和全局池化获得多尺度的关联信息,在ASPP中会将特征分配给五个分支,第一分支采用1×1的标准卷积进行原始特征的特征映射,第二到第四分支通过设置不同尺寸的膨胀卷积使得在特征提取的过程中可以获得不同的感受野,第五分支通过全局池化的方式得到整体特征来结合多尺度特征,增强金字塔的覆盖能力;最后将五个分支的特征图在通道维度上进行堆叠,经过1×1标准卷积融合不同尺度的信息。2CN115862039A说明书1/4页基于多尺度特征的文本生成图像算法技术领域[0001]本发明属于图像处理的技术领域,尤其涉及一种基于多尺度特征的文本生成图像算法。背景技术[0002]近年来,随着深度模型的广泛兴起,图像生成任务已经取得了一定的进展。自生成对抗网络(generativeadversarialnetworks,GANs),大量的研究开始将GAN应用到文本到图像生成的任务中。Reed等人2016年提出了GAN‑INT‑CLS,该模型最后生成了分辨率为64X64的图像,这是第一次将GAN网络应用到文本到图像的生成任务中。同年,Reed等人在此基础上继续提出GAWWN,为了在确定的位置生成目标图像,模型标记目标的边界框和关键点,将生成图像的分辨率提升到了128X128。为了进一步生成高质量图像以及提高对细节的把控,Zhang等人提出的StackGAN和StackGAN++模型通过引入条件增强技术,使用多阶段堆叠式生成对抗网络逐级提高生成图像的分辨率,将生成图像的分辨率提升到256X256,有效降低了信息丢失的问题。Xu等人在三级生成对抗网络的基础上增加了注意力机制,通过在不同阶段重点关注不同区域,从而有针对性的对图像进行细化。文献在模型中加入空间注意力机制作用于单词和图像区域块,该方法实现了可控的图像生成。尹在AttnGAN的