基于文本对抗生成网络的无监督图像描述生成方法-豆柴文库

基于文本对抗生成网络的无监督图像描述生成方法.pdf

2023-06-02

10金币

670KB

15页

梦影****主a

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共15页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115953779A(43)申请公布日2023.04.11(21)申请号202310198396.4G06N3/048(2023.01)(22)申请日2023.03.03G06N3/0455(2023.01)G06N3/0475(2023.01)(71)申请人中国科学技术大学G06N3/094(2023.01)地址230026安徽省合肥市包河区金寨路G06N3/092(2023.01)96号G06N3/088(2023.01)(72)发明人郝艳宾于佳睿徐童何向南G06F18/10(2023.01)(74)专利代理机构安徽省合肥新安专利代理有G06F18/214(2023.01)限责任公司34101G06F16/583(2019.01)专利代理师陆丽莉何梅生G06F16/55(2019.01)(51)Int.Cl.G06V20/70(2022.01)G06V10/40(2022.01)G06V10/774(2022.01)G06V10/764(2022.01)G06V10/82(2022.01)权利要求书3页说明书10页附图1页(54)发明名称基于文本对抗生成网络的无监督图像描述生成方法(57)摘要本发明公开了一种基于文本对抗生成网络的无监督图像描述生成方法，其步骤包括：1、对图像数据库进行图像特征提取，对辅助文本库进行文本数据清洗；2、构建基于语言‑图像对比学习预训练模型的文本对抗生成网络；3、构造图像特征‑图像描述伪标签，并利用伪标签训练生成器进行预热；4、使用自批判的强化学习驱动的对抗学习方式训练构建的网络模型；5、使用训练好的生成网络进行推断，实现无监督的图像描述生成。本发明能充分利用语言‑图像对比学习预训练模型CLIP的能力实现图像信息的提取，并能在没有人工成对标注的情况下进行自主训练，从而能显著提升无监督图像描述生成质量。CN115953779ACN115953779A权利要求书1/3页1.一种基于文本对抗生成网络的无监督图像描述生成方法，其特征在于，是按如下步骤进行：步骤1、获取训练数据，包括：图像集和辅助文本库；利用语言‑图像对比学习预训练模型CLIP中的图像特征提取器CLIP‑ImageEncoder对II所述图像集中的N张图像进行特征提取，得到图像特征集合{ei|i∈[1,N]}，其中，ei表示第i张图像的特征；N表示图像总数；对所述辅助文本库中的M个句子进行文本数据清洗，得到清洗后的文本库{Sj|j∈[1,M]}，其中，Sj表示第j个句子；步骤2、构建图像描述生成器G，是由K个提示生成器和一个基于GPT‑2语言生成模型的解码器构成；其中，所述提示生成器由H个线性层构成，前H‑1个线性层后分别连接一个tanh激活函数；IK个提示生成器分别将第i张图像的特征ei转化K个提示向量后，输入所述基于GPT‑2语言生成模型的解码器中进行处理，并输出解码后的句子Ci；步骤3、利用语言‑图像对比学习预训练模型CLIP中的文本特征提取器CLIP‑STextEncoder对第j个句子Sj进行特征提取，得到文本特征ej；步骤4、构建文本‑图像特征转换器，包括Q层线性层，并利用最后一层的残差连接层将Q层线性层的输入和输出进行连接；SF所述文本‑图像特征转换器对文本特征ej进行处理，得到虚拟图像表征ej；S步骤5、由文本特征ej和第j个句子Sj构造一对特征‑图像描述伪标签，由虚拟图像表征Fej和第j个句子Sj构造另一对特征‑图像描述伪标签，从而利用两对伪标签训练图像描述生成器G进行预热，得到具备初步生成能力的训练图像描述生成器G；步骤6、构建文本判别器D，是由一个基于RoBERTa语言理解模型的文本特征提取器和一个真实度预测器构成；其中，所述真实度预测器由Y个线性层构成，在前Y‑1个线性层后均连接一个tanh激活函数；所述基于RoBERTa语言理解模型的文本特征提取器将第j个句子Sj转化为文本特征后，输入所述真实度预测器中进行处理，从而将文本特征转化为Sj的真实度预测值fD(Sj)；步骤7、使用自批判的强化学习方式训练预热后的图像描述生成器G，并使用二分类交叉熵损失训练文本判别器D，使得两者在对抗学习中交替优化，从而得到最优图像描述生成模型。2.根据权利要求1所述的基于文本对抗生成网络的无监督图像描述生成方法，其特征在于，所述步骤5包括：步骤5.1、领域适应学习策略：I从图像特征集合{ei|i∈[1,N]}中选取一批包含有A个图像特征的特征数据；从文本库{Sj|j∈[1,M]}中选取一批包含B个句子的文本数据，并利用文本特征提取器CLIP‑TextEncoder和文本‑图像特征转换器对一批文本数据进行处理，得到B个虚拟图像特征；从而利用式(1)构建领域适应的损失函数Lm

相关资料

基于文本对抗生成网络的无监督图像描述生成方法.pdf

本发明公开了一种基于文本对抗生成网络的无监督图像描述生成方法，其步骤包括：1、对图像数据库进行图像特征提取，对辅助文本库进行文本数据清洗；2、构建基于语言‑图像对比学习预训练模型的文本对抗生成网络；3、构造图像特征‑图像描述伪标签，并利用伪标签训练生成器进行预热；4、使用自批判的强化学习驱动的对抗学习方式训练构建的网络模型；5、使用训练好的生成网络进行推断，实现无监督的图像描述生成。本发明能充分利用语言‑图像对比学习预训练模型CLIP的能力实现图像信息的提取，并能在没有人工成对标注的情况下进行自主训练，从

2023-06-02

670KB

一种基于分布估计的条件生成对抗网络文本生成图像方法.pdf

本发明公开了一种基于分布估计的条件生成对抗网络文本生成图像方法用。本发明步骤如下:步骤(1)、数据预处理,提取文本数据的特征;步骤(2)、建立多阶段的无条件和有条件联合生成对抗神经网络和损失函数;步骤(3)、引入基于分布估计的损失函数;步骤(4)、模型训练;根据得到的新的损失函数,在训练过程中对判别器D<base:Sub>i</base:Sub>和生成器G<base:Sub>i</base:Sub>进行交替训练。本发明损失隐式地体现了单个文本生成无限次图像的影响,优化的目标为单个文本描述生成图像的特征分布

2023-05-25

837KB

基于文本生成网络生成用户描述文本的方法和装置.pdf

本说明书实施例提供一种基于文本生成网络生成用户描述文本的方法和装置，方法包括：将目标用户的各项特征输入第一编码器，通过第一编码器获取各项特征分别对应的各初始用户特征向量，基于自注意力机制进行编码，得到编码状态向量；将编码状态向量输入检索模型，通过检索模型从人工知识库中检索出K个语句，确定K个语句包含的各个字对应的字编码向量，根据解码器的输出反馈向量以及字编码向量确定各注意力系数，并根据各注意力系数对各字编码向量进行加权求和，得到语义表征向量；将编码状态向量、语义表征向量输入解码器，通过解码器生成目标用户的

2023-05-25

732KB

基于文本生成网络生成用户描述文本的方法和装置.pdf

2023-05-25

775KB

基于生成对抗网络图像、文本数据生成应用分类模型评估的测试方法.pdf

本发明公开了基于生成对抗网络图像、文本数据生成应用分类模型评估的测试方法，测试方法步骤如下：S1：使用训练被测模型数据用于训练生成对抗网络；S2：经过调参训练生成对抗网络完成后，提取其中的生成器，并根据生成器输入类别信息，生成该类别图像和文本数据；S3：根据测试方案设置原数据集以及生成数据集数据量权重，再根据类别所占比例重构测试数据集；S4：将测试集输入到被测模型得到分类结果，分类结果与真实分类信息构造出混淆矩阵，计算评估指标，准确率、精准率、召回率以及F1值。本发明可将所有的数据都可以当作训练集对模型进

2023-06-11

388KB