预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113836354A(43)申请公布日2021.12.24(21)申请号202111149947.5(22)申请日2021.09.29(66)本国优先权数据202110173042.52021.02.08CN(71)申请人宏龙科技(杭州)有限公司地址310000浙江省杭州市滨江区浦沿街道浦沿路88号1幢3楼31191室(72)发明人赵天成(74)专利代理机构杭州知见专利代理有限公司33295代理人卢金元(51)Int.Cl.G06F16/783(2019.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书3页附图1页(54)发明名称一种跨模态视觉与文本信息匹配方法和装置(57)摘要本发明公开了一种跨模态视觉与文本信息匹配方法和装置,其方法包括以下步骤:通过成熟的目标识别系统检测出图片中重要物体场景的区块,区块总数量为X;将这些区块的视觉向量信息输入到视觉编码器中,从而构建这些区块之间的关系和综合信息,获得包含上下文的视觉向量信息hx,x∈X;对于长度为Y文本信息,采用已经预训练的文本编码器模型进行编码,获得每个单词的上下文嵌入向量hy,y∈Y;对于所有的hx和hy对进行匹配计算,得到X×Y个分数;对于x轴和y轴分别取出每一列和每一行的最大分数,并对分数进行非线性变换;计算最终得分s即为匹配度,最终得分s为所有g’的平均数。CN113836354ACN113836354A权利要求书1/2页1.一种跨模态视觉与文本信息匹配方法,其特征在于,包括以下步骤:S1、通过目标识别系统检测出图片中重要物体场景的区块,区块总数量为X;S2、将这些区块的视觉向量信息输入到TRANSFOMER模型中,构建这些区块之间的关系和综合信息,获得包含上下文的视觉向量信息hx,x∈X;S3、对于长度为Y文本信息,采用文本TRANSFOMER编码器模型进行编码,获得每个单词的上下文嵌入向量hy,y∈Y;S4、用dotproduct对于所有的hx和hy进行匹配计算,得到X×Y个分数,这些分数构成X×Y的矩阵;S5、对于矩阵的x轴和y轴分别取出每一列和每一行的最大分数,一共获得X+Y个分数,这些分数表示为g,通过g′=logReLU(g)对被取出的分数进行非线性变换;S6、计算最终得分s即为匹配度,最终得分s为所有g′的平均数。2.根据权利要求1所述的一种跨模态视觉与文本信息匹配方法,其特征在于,还包括训练过程,训练过程如下:训练数据的采集:首先采集配对的图片和文字信息;损失函数和训练:在给定上述模型和数据后,使用mini‑batch的方式进行训练,训练损失函数为交叉熵损失函数,人工标注的文字作为正确答案,而同一个mini‑batch中其他的文字信息作为错误答案,交叉熵损失函数为:式中,A是一个mini‑batch中文本的数量,g是计算得到的分数,e是自然常数。3.一种跨模态视觉与文本信息匹配装置,其特征在于,包括:视觉TRANSFOMER编码器:此模块可以分为两大部分,第一步通过成熟的目标识别系统检测出图片中重要物体场景的区块,区块总数为X,将这些区块的视觉向量信息输入到TRANSFOMER模型中,从而构建这些区块之间的关系和综合信息,获得包含上下文的视觉向量信息hx,x∈X;文本TRANSFOMER编码器:对于长度为Y文本信息,采用已经预训练的文本TRANSFOMER编码器模型进行编码,获得每个单词的上下文嵌入向量hy,y∈Y;匹配算分模型:给定hx和hy之后,通过如下流程进行匹配度计算:首先,用dotproduct对于所有的hx和hy对进行匹配计算,得到X×Y个分数,然后对于x轴和y轴分别取出每一列和每一行的最大分数,这些分数为g,通过g’=logReLU(g)对其进行非线性变换,最终得分s为所有g’的平均数。4.根据权利要求3所述的一种跨模态视觉与文本信息匹配装置,其特征在于,整个装置的模型训练按如下方式进行:训练数据的采集:首先采集配对的图片和文字信息;损失函数和训练:在给定上述模型和数据后,使用mini‑batch的方式进行训练,训练损失函数为交叉熵损失函数,人工标注的文字作为正确答案,而同一个mini‑batch中其他的文字信息作为错误答案,交叉熵损失函数为:2CN113836354A权利要求书2/2页式中,A是一个mini‑batch中文本的数量,g是计算得到的分数,e是自然常数。3CN113836354A说明书1/3页一种跨模态视觉与文本信息匹配方法和装置技术领域[0001]本发明涉及人工智能领域,尤其是涉及一种跨模态视觉与文本信息匹配方法和装置。背景技术[0002]跨模态数据匹配在许多商业应用中扮演者核心角色。例如视频检索