预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115759062A(43)申请公布日2023.03.07(21)申请号202211231414.6(22)申请日2022.10.09(71)申请人阿里巴巴(中国)有限公司地址311121浙江省杭州市余杭区五常街道文一西路969号3幢5层554室(72)发明人汪诚愚刘婷婷黄俊(74)专利代理机构北京展翼知识产权代理事务所(特殊普通合伙)11452专利代理师张阳(51)Int.Cl.G06F40/279(2020.01)G06F16/36(2019.01)G06N5/022(2023.01)权利要求书2页说明书10页附图3页(54)发明名称基于知识注入的文图预训练模型处理方法和文图检索系统(57)摘要公开了一种基于知识注入的文图预训练模型处理方法和在线文图检索方法。所述处理方法包括:识别文本图像样本对中文本包含的实体;将实体在知识图谱中对应的嵌入向量与文本的嵌入向量相融合,得到知识增强的第一嵌入向量;基于所述第一嵌入向量生成伪图像标记序列;基于图像对应的第二嵌入向量查找图像词典的最接近向量表示以生成图像标记表示序列;以及根据表征伪图像标记序列与图像标记表示序列相似性的损失函数调整所述文图预训练模型的参数。由此,通过在模型预训练阶段引入关于实体的外部知识,增强预训练模型的先验信息,提升模型参数有效性,使得小规模模型便能实现良好的图像重构性能,由此实现模型的在线部署和实时应答。CN115759062ACN115759062A权利要求书1/2页1.一种基于知识注入的文图预训练模型处理方法,包括:识别文本图像样本对中文本包含的实体;将所述实体在知识图谱中对应的嵌入向量与所述文本的嵌入向量相融合,得到第一嵌入向量,所述第一嵌入向量对应于融合得到的知识增强的文本嵌入向量;基于所述第一嵌入向量生成伪图像标记序列,其中,伪图像标记是图像词典的索引;基于第二嵌入向量在所述图像词典中进行查找,并基于查找出的最接近的向量表示,得到图像标记表示序列,其中,所述第二嵌入向量对应于所述图像文本对中图像的嵌入向量;以及根据表征所述伪图像标记序列与所述图像标记表示序列相似性的损失函数,调整所述文图预训练模型的参数。2.如权利要求1所述的方法,其中,所述文本是中文文本,并且识别文本图像样本对中文本包含的实体包括:识别出所述文本中包含的多个实体,所述多个实体中包括对应于相同汉字的不同实体,并且将所述实体在知识图谱中对应的嵌入向量与所述文本的嵌入向量相融合,得到第一嵌入向量包括:将所述文本的嵌入向量与对应的多个实体嵌入向量相融合,得到所述第一嵌入向量。3.如权利要求2所述的方法,其中,将所述文本的嵌入向量与对应的多个实体嵌入向量相融合,得到所述第一嵌入向量包括:基于每个实体嵌入向量与所述文本的嵌入向量的交互程度为每个实体嵌入向量分配权重;以及将所述文本的嵌入向量与加权的多个实体嵌入向量相融合,得到所述第一嵌入向量。4.如权利要求1所述的方法,其中,所述文图预训练模型包括用于生成图像序列的第一子模型以及用于图像重构的第二子模型,其中,所述方法还包括:将所述文本图像样本对中的文本送入所述第一子模型的编码器,得到所述文本的嵌入向量,并且所述第一子模型从所述第二子模型获取所述图像词典,用于所述伪图像标记序列的生成,所述第二子模型的编码器基于所述图像词典生成所述图像标记表示序列,并且所述方法还包括:由所述第一子模型的解码器对基于伪图像标记序列生成对应图像标记表示序列进行学习。5.如权利要求4所述的方法,还包括:以图像为输入样本,图像重构为训练目标,训练所述第二子模型,并且训练所述第二子模型包括:训练所述图像词典,所述图像词典中保有每个输入样本图像标记的向量表示。6.如权利要求5所述的方法,其中,基于块掩码的对抗性训练训练所述第二子模型,使得所述第二子模型重构高清图像。7.如权利要求4所述的方法,其中,在所述第一子模型的参数调整期间,固定所述第二子模型的参数。2CN115759062A权利要求书2/2页8.一种在线文图检索方法,包括:经由网络传输获取用户输入的文本信息;将所述文本信息送入根据如权利要求1‑7中任一项所述的方法获取的知识增强的文图预训练模型;所述文图预训练模型基于所述文本信息推理出的图像信息;以及将所述图像信息经由网络传输实时返回给所述用户。9.如权利要求8所述的文图检索系统,其中,基于所述文本信息推理出图像信息对应于由所述知识增强的文图预训练模型执行的文本图像合成(TIS)任务,在所述TIS任务中,所述第一子模型的解码器基于输入文本预测对应的图像标记表示序列,并且所述第二子模型的编码器用于基于所述图像标记表示序列重构图像。10.一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执