预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共15页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115953779A(43)申请公布日2023.04.11(21)申请号202310198396.4G06N3/048(2023.01)(22)申请日2023.03.03G06N3/0455(2023.01)G06N3/0475(2023.01)(71)申请人中国科学技术大学G06N3/094(2023.01)地址230026安徽省合肥市包河区金寨路G06N3/092(2023.01)96号G06N3/088(2023.01)(72)发明人郝艳宾于佳睿徐童何向南G06F18/10(2023.01)(74)专利代理机构安徽省合肥新安专利代理有G06F18/214(2023.01)限责任公司34101G06F16/583(2019.01)专利代理师陆丽莉何梅生G06F16/55(2019.01)(51)Int.Cl.G06V20/70(2022.01)G06V10/40(2022.01)G06V10/774(2022.01)G06V10/764(2022.01)G06V10/82(2022.01)权利要求书3页说明书10页附图1页(54)发明名称基于文本对抗生成网络的无监督图像描述生成方法(57)摘要本发明公开了一种基于文本对抗生成网络的无监督图像描述生成方法,其步骤包括:1、对图像数据库进行图像特征提取,对辅助文本库进行文本数据清洗;2、构建基于语言‑图像对比学习预训练模型的文本对抗生成网络;3、构造图像特征‑图像描述伪标签,并利用伪标签训练生成器进行预热;4、使用自批判的强化学习驱动的对抗学习方式训练构建的网络模型;5、使用训练好的生成网络进行推断,实现无监督的图像描述生成。本发明能充分利用语言‑图像对比学习预训练模型CLIP的能力实现图像信息的提取,并能在没有人工成对标注的情况下进行自主训练,从而能显著提升无监督图像描述生成质量。CN115953779ACN115953779A权利要求书1/3页1.一种基于文本对抗生成网络的无监督图像描述生成方法,其特征在于,是按如下步骤进行:步骤1、获取训练数据,包括:图像集和辅助文本库;利用语言‑图像对比学习预训练模型CLIP中的图像特征提取器CLIP‑ImageEncoder对II所述图像集中的N张图像进行特征提取,得到图像特征集合{ei|i∈[1,N]},其中,ei表示第i张图像的特征;N表示图像总数;对所述辅助文本库中的M个句子进行文本数据清洗,得到清洗后的文本库{Sj|j∈[1,M]},其中,Sj表示第j个句子;步骤2、构建图像描述生成器G,是由K个提示生成器和一个基于GPT‑2语言生成模型的解码器构成;其中,所述提示生成器由H个线性层构成,前H‑1个线性层后分别连接一个tanh激活函数;IK个提示生成器分别将第i张图像的特征ei转化K个提示向量后,输入所述基于GPT‑2语言生成模型的解码器中进行处理,并输出解码后的句子Ci;步骤3、利用语言‑图像对比学习预训练模型CLIP中的文本特征提取器CLIP‑STextEncoder对第j个句子Sj进行特征提取,得到文本特征ej;步骤4、构建文本‑图像特征转换器,包括Q层线性层,并利用最后一层的残差连接层将Q层线性层的输入和输出进行连接;SF所述文本‑图像特征转换器对文本特征ej进行处理,得到虚拟图像表征ej;S步骤5、由文本特征ej和第j个句子Sj构造一对特征‑图像描述伪标签,由虚拟图像表征Fej和第j个句子Sj构造另一对特征‑图像描述伪标签,从而利用两对伪标签训练图像描述生成器G进行预热,得到具备初步生成能力的训练图像描述生成器G;步骤6、构建文本判别器D,是由一个基于RoBERTa语言理解模型的文本特征提取器和一个真实度预测器构成;其中,所述真实度预测器由Y个线性层构成,在前Y‑1个线性层后均连接一个tanh激活函数;所述基于RoBERTa语言理解模型的文本特征提取器将第j个句子Sj转化为文本特征后,输入所述真实度预测器中进行处理,从而将文本特征转化为Sj的真实度预测值fD(Sj);步骤7、使用自批判的强化学习方式训练预热后的图像描述生成器G,并使用二分类交叉熵损失训练文本判别器D,使得两者在对抗学习中交替优化,从而得到最优图像描述生成模型。2.根据权利要求1所述的基于文本对抗生成网络的无监督图像描述生成方法,其特征在于,所述步骤5包括:步骤5.1、领域适应学习策略:I从图像特征集合{ei|i∈[1,N]}中选取一批包含有A个图像特征的特征数据;从文本库{Sj|j∈[1,M]}中选取一批包含B个句子的文本数据,并利用文本特征提取器CLIP‑TextEncoder和文本‑图像特征转换器对一批文本数据进行处理,得到B个虚拟图像特征;从而利用式(1)构建领域适应的损失函数Lm