预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共28页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN114298121A(43)申请公布日2022.04.08(21)申请号202111177650.XG06V10/82(2022.01)(22)申请日2021.10.09G06V10/774(2022.01)G06V20/70(2022.01)(71)申请人腾讯科技(深圳)有限公司地址518057广东省深圳市南山区高新区科技中一路腾讯大厦35层(72)发明人田植良闭玮史树明(74)专利代理机构广州三环专利商标代理有限公司44202代理人熊永强贾允(51)Int.Cl.G06K9/62(2022.01)G06F40/166(2020.01)G06N3/04(2006.01)G06N3/08(2006.01)G06V10/764(2022.01)权利要求书3页说明书15页附图9页(54)发明名称基于多模态的文本生成方法、模型训练方法和装置(57)摘要本申请提供了一种基于多模态的文本生成方法、模型训练方法和装置,涉及人工智能技术领域,方法包括:获取混合样本数据集;混合样本数据集包括携带物体标签的第一样本图像、携带文本描述的第二样本图像、携带情感分类标签的第三样本图像和上下文语料;分别基于携带物体标签的第一样本图像、携带文本描述的第二样本图像、携带情感分类标签的第三样本图像和上下文语料,对初始生成模型进行对应的目标物体识别、文本描述生成、情感识别和文本生成的预训练,得到目标预训练模型。基于上述技术方案能够有效提高预训练模型的模型效果,以及后续的模型正式训练效果,进而提高生成文本与输入信息的匹配性。CN114298121ACN114298121A权利要求书1/3页1.一种基于多模态的文本生成模型训练方法,其特征在于,所述方法包括:获取混合样本数据集;所述混合样本数据集包括携带物体标签的第一样本图像、携带文本描述的第二样本图像、携带情感分类标签的第三样本图像和上下文语料;分别基于所述携带物体标签的第一样本图像、所述携带文本描述的第二样本图像、所述携带情感分类标签的第三样本图像和所述上下文语料,对初始生成模型进行对应的目标物体识别、文本描述生成、情感识别和文本生成的预训练,得到目标预训练模型。2.根据权利要求1所述的方法,其特征在于,所述获取混合样本数据集包括:获取所述第三样本图像;利用预设情感分类模型的图像语义提取网络对所述第三样本图像进行语义特征提取,得到第一图像语义特征;利用所述预设情感分类模型的多层感知网络对所述第一图像语义特征进行情感分类处理,得到所述第三样本图像对应的情感分类标签。3.根据权利要求1所述的方法,其特征在于,所述初始生成模型包括初始图像表示网络、初始物体识别网络、初始文本嵌入网络和初始特征编码网络;所述分别基于所述携带物体标签的第一样本图像、所述携带文本描述的第二样本图像、所述携带情感分类标签的第三样本图像和所述上下文语料,对初始生成模型进行对应的目标物体识别、文本描述生成、情感识别和文本生成的预训练包括:利用所述携带物体标签的第一样本图像对所述初始物体识别网络和初始特征编码网络进行目标物体识别的预训练;利用所述携带文本描述的第二样本图像对所述初始物体识别网络、所述初始文本嵌入网络和所述初始特征编码网络进行文本描述生成的预训练;利用所述携带情感分类标签的第三样本图像对所述初始图像表示网络、所述初始物体识别网络和所述初始特征编码网络进行情感识别的预训练;利用所述上下文语料对所述初始文本嵌入网络和所述初始特征编码网络进行文本生成的预训练。4.根据权利要求3所述的方法,其特征在于,所述利用所述携带情感分类标签的第三样本图像对所述初始图像表示网络、所述初始物体识别网络和所述初始特征编码网络进行情感识别的预训练包括:调用所述初始图像表示网络对所述第三样本图像进行图像特征提取,得到所述第三样本图像的样本图像语义特征;调用所述初始物体识别网络对所述第三样本图像进行物体特征提取,得到所述第三样本图像的样本物体特征;调用所述初始特征编码网络基于注意力机制对所述样本图像语义特征和所述样本物体特征进行特征编码处理,得到样本情绪特征;基于所述样本情绪特征和所述情感分类标签对应的损失值对所述初始图像表示网络、所述初始物体识别网络和所述初始特征编码网络进行迭代训练,以进行所述情感识别的预训练。5.根据权利要求1‑4中任一项所述的方法,其特征在于,在所述得到目标预训练模型之后,所述方法还包括:2CN114298121A权利要求书2/3页获取多模态训练数据集;所述多模态训练数据集包括样本上文文本,以及与所述样本上文文本匹配的第四样本图像和样本下文文本;基于相匹配的所述样本上文文本、所述第四样本图像和所述样本下文文本,对所述目标预训练模型进行文本生成训练,得到目标文本生成