一种跨模态视觉与文本信息匹配方法和装置-豆柴文库

一种跨模态视觉与文本信息匹配方法和装置.pdf

2023-07-25

10金币

302KB

7页

一条****发啊

实名认证

内容提供者

1/7

2/7

3/7

4/7

5/7

6/7

7/7

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113836354A(43)申请公布日2021.12.24(21)申请号202111149947.5(22)申请日2021.09.29(66)本国优先权数据202110173042.52021.02.08CN(71)申请人宏龙科技（杭州）有限公司地址310000浙江省杭州市滨江区浦沿街道浦沿路88号1幢3楼31191室(72)发明人赵天成(74)专利代理机构杭州知见专利代理有限公司33295代理人卢金元(51)Int.Cl.G06F16/783(2019.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书3页附图1页(54)发明名称一种跨模态视觉与文本信息匹配方法和装置(57)摘要本发明公开了一种跨模态视觉与文本信息匹配方法和装置，其方法包括以下步骤：通过成熟的目标识别系统检测出图片中重要物体场景的区块，区块总数量为X；将这些区块的视觉向量信息输入到视觉编码器中，从而构建这些区块之间的关系和综合信息，获得包含上下文的视觉向量信息hx，x∈X；对于长度为Y文本信息，采用已经预训练的文本编码器模型进行编码，获得每个单词的上下文嵌入向量hy，y∈Y；对于所有的hx和hy对进行匹配计算，得到X×Y个分数；对于x轴和y轴分别取出每一列和每一行的最大分数，并对分数进行非线性变换；计算最终得分s即为匹配度，最终得分s为所有g’的平均数。CN113836354ACN113836354A权利要求书1/2页1.一种跨模态视觉与文本信息匹配方法，其特征在于，包括以下步骤：S1、通过目标识别系统检测出图片中重要物体场景的区块，区块总数量为X；S2、将这些区块的视觉向量信息输入到TRANSFOMER模型中，构建这些区块之间的关系和综合信息，获得包含上下文的视觉向量信息hx，x∈X；S3、对于长度为Y文本信息，采用文本TRANSFOMER编码器模型进行编码，获得每个单词的上下文嵌入向量hy，y∈Y；S4、用dotproduct对于所有的hx和hy进行匹配计算，得到X×Y个分数，这些分数构成X×Y的矩阵；S5、对于矩阵的x轴和y轴分别取出每一列和每一行的最大分数，一共获得X+Y个分数，这些分数表示为g，通过g′＝logReLU(g)对被取出的分数进行非线性变换；S6、计算最终得分s即为匹配度，最终得分s为所有g′的平均数。2.根据权利要求1所述的一种跨模态视觉与文本信息匹配方法，其特征在于，还包括训练过程，训练过程如下：训练数据的采集：首先采集配对的图片和文字信息；损失函数和训练：在给定上述模型和数据后，使用mini‑batch的方式进行训练，训练损失函数为交叉熵损失函数，人工标注的文字作为正确答案，而同一个mini‑batch中其他的文字信息作为错误答案，交叉熵损失函数为：式中，A是一个mini‑batch中文本的数量，g是计算得到的分数，e是自然常数。3.一种跨模态视觉与文本信息匹配装置，其特征在于，包括：视觉TRANSFOMER编码器：此模块可以分为两大部分，第一步通过成熟的目标识别系统检测出图片中重要物体场景的区块，区块总数为X，将这些区块的视觉向量信息输入到TRANSFOMER模型中，从而构建这些区块之间的关系和综合信息，获得包含上下文的视觉向量信息hx，x∈X；文本TRANSFOMER编码器：对于长度为Y文本信息，采用已经预训练的文本TRANSFOMER编码器模型进行编码，获得每个单词的上下文嵌入向量hy，y∈Y；匹配算分模型：给定hx和hy之后，通过如下流程进行匹配度计算：首先，用dotproduct对于所有的hx和hy对进行匹配计算，得到X×Y个分数，然后对于x轴和y轴分别取出每一列和每一行的最大分数，这些分数为g，通过g’＝logReLU(g)对其进行非线性变换，最终得分s为所有g’的平均数。4.根据权利要求3所述的一种跨模态视觉与文本信息匹配装置，其特征在于，整个装置的模型训练按如下方式进行：训练数据的采集：首先采集配对的图片和文字信息；损失函数和训练：在给定上述模型和数据后，使用mini‑batch的方式进行训练，训练损失函数为交叉熵损失函数，人工标注的文字作为正确答案，而同一个mini‑batch中其他的文字信息作为错误答案，交叉熵损失函数为：2CN113836354A权利要求书2/2页式中，A是一个mini‑batch中文本的数量，g是计算得到的分数，e是自然常数。3CN113836354A说明书1/3页一种跨模态视觉与文本信息匹配方法和装置技术领域[0001]本发明涉及人工智能领域，尤其是涉及一种跨模态视觉与文本信息匹配方法和装置。背景技术[0002]跨模态数据匹配在许多商业应用中扮演者核心角色。例如视频检索

相关资料

一种跨模态视觉与文本信息匹配方法和装置.pdf

本发明公开了一种跨模态视觉与文本信息匹配方法和装置，其方法包括以下步骤：通过成熟的目标识别系统检测出图片中重要物体场景的区块，区块总数量为X；将这些区块的视觉向量信息输入到视觉编码器中，从而构建这些区块之间的关系和综合信息，获得包含上下文的视觉向量信息h

2023-07-25

302KB

视觉--语言跨模态匹配研究.docx

视觉--语言跨模态匹配研究Title:Cross-ModalMatchinginVisual-LanguageDomainAbstract:Cross-modalmatchingbetweenvisualandlinguisticmodalitieshasbecomeapopularresearchtopicduetoitspotentialapplicationsinvariousfields,suchasimagecaptioning,visualquestionanswering,andcross-

2024-10-18

11KB

模型训练方法、跨模态表征方法、无监督图像文本匹配方法及装置.pdf

本发明的目的是提供一种模型训练方法、跨模态表征方法、无监督图像文本匹配方法及装置，所述方法包括：计算训练文档中图片与句子的两两相似度值；基于所述相似度值，确定正样本对集和负样本对集；其中，所述正样本对集中有预设数量的正样本对；所述负样本对集中有预设数量的负样本对；所述正样本对集和所述负样本对集用于进一步训练所述模型，直至预设数量的所述正样本对的平均相似度值大于预设数量的所述负样本对的平均相似度值，且两者差值符合预设条件。上述实施方式可以减小采样的偏差，以更好的训练模型来对图片和句子进行匹配。

2023-07-25

1.1MB

基于跨模态置信度感知的图像文本匹配方法.pdf

本发明涉及跨模态检索领域，公开了一种基于跨模态置信度感知的图像文本匹配方法，以待匹配文本为桥梁，参考图像‑文本的全局语义，来衡量图像区域在待匹配文本中被描述的可信程度。并且，本发明在聚合区域‑单词匹配对的局部对齐信息以得到图文整体相关性时，根据匹配置信度来过滤掉与全局图像‑文本语义不一致的局部区域‑单词匹配对，更准确地度量的图文相关性，提升跨模态检索性能。

2023-08-12

789KB

从视觉到文本的跨模态序列生成方法研究的开题报告.docx

从视觉到文本的跨模态序列生成方法研究的开题报告一、研究背景与意义跨模态序列生成是视觉和文本信息之间的一种重要交互方式。它可以将多模态的信息进行融合，得到更加全面、丰富的数据。例如，图像和文本的结合可以帮助人们更好地理解图像信息，提升图像检索和分类的准确性。而在自然语言生成任务中，文本生成模型往往需要结合图像、视频等多模态信息，才能产生更加准确、自然的文本结果。当前，传统的跨模态序列生成方法主要基于对齐的模型。这些方法会首先对多模态数据进行对齐处理，然后在统一的特征空间中进行序列生成。然而，这些方法存在的问

2024-09-27

11KB