预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共12页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115908870A(43)申请公布日2023.04.04(21)申请号202211280916.8G06F40/284(2020.01)(22)申请日2022.10.19G06F40/242(2020.01)(71)申请人海南港航控股有限公司地址570311海南省海口市滨海大道157号(72)发明人张勇张恺玉李森(74)专利代理机构武汉华之喻知识产权代理有限公司42267专利代理师邓彦彦廖盈春(51)Int.Cl.G06V10/75(2022.01)G06V10/74(2022.01)G06V10/82(2022.01)G06N3/0442(2023.01)G06N3/0464(2023.01)G06N3/08(2023.01)权利要求书2页说明书8页附图1页(54)发明名称一种基于异构数据融合的图文匹配方法及系统(57)摘要本发明提供一种基于异构数据融合的图文匹配方法及系统,包括:确定待匹配的图像数据集和文本数据集;将所述图像数据集输入到im2txt模型,以为图像数据集中的每张图像生成对应的图像描述文本;将图像数据集中每张图像的描述文本与文本数据集中的每个文本进行相似度计算,将文本数据集中与每张图像描述文本相似度大于阈值的文本作为图像数据集中每张图像的匹配文本,完成对图像数据集和文本数据集两种异构数据的匹配。本发明使用im2txt模型实现图像模态数据到文本模态数据的转换,借由模态转换,能够将多模态数据匹配转为单模态数据匹配,单模态数据匹配只需对一种模态的语义信息进行提取,且可避免不同模态数据语义信息的差异性,直接进行匹配。CN115908870ACN115908870A权利要求书1/2页1.一种基于异构数据融合的图文匹配方法,其特征在于,包括如下步骤:确定待匹配的图像数据集和文本数据集;将所述图像数据集输入到im2txt模型,以为图像数据集中的每张图像生成对应的图像描述文本;将图像数据集中每张图像的描述文本与文本数据集中的每个文本进行相似度计算,将文本数据集中与每张图像描述文本相似度大于阈值的文本作为图像数据集中每张图像的匹配文本,完成对图像数据集和文本数据集两种异构数据的匹配。2.根据权利要求1所述的方法,其特征在于,所述im2txt模型包括:Encoder端和Decoder端;在Encoder端经由CNN提取出固定维度的图像特征向量,再输入到Decoder端;在Decoder端经由LSTM网络生成一句关于图像内容的描述,作为图像描述文本。3.根据权利要求1所述的方法,其特征在于,将所述图像数据集输入到im2txt模型,还包括如下步骤:对图像数据集中的每张图像进行预处理,所述预处理为:对图像解码得到图像的三维矩阵张量,并将三维矩阵张量转化为预设维度和预设数据类型的张量,随后对转化后张量的各个元素归一化处理,之后采用激活函数对归一化后的张量进行处理,得到图像的稀疏特征图,并将稀疏特征图降维成预设维度的向量;将所述图像数据集输入到im2txt模型具体为:将图像数据集中每张图像预处理后得到的向量输入到im2txt模型。4.根据权利要求3所述的方法,其特征在于,im2txt模型为图像数据集中的每张图像生成对应的图像描述文本,具体为:CNN基于每张图像预处理后的向量提取图像特征信息作为初始状态信息并实例化InitialCaption;将InitialCaption输入到partial_captions堆,将partial_captions排序提取后读取partial_captions堆中每个Caption对应的sentence和state,输入到LSTM网络;LSTM网络获取新的状态信息new_state以及下一个可能词汇和概率的列表,针对每一个的下一预测词,更新对应参数信息并实例化Caption,根据预测的下一个预测词是否为终止符放到不同的Caption堆中,直至所有预测文本结束,输出前几个最大可能性的预测文本作为图像描述文本。5.根据权利要求4所述的方法,其特征在于,所述输出前几个最大可能性的预测文本作为图像描述文本,具体为:式中,score为预测文本得分,len(sentence)表示预测文本长度,log(pi)表示预测文本第i个词汇Pi的对数似然估计;将得分值大于预设值的预测文本输出作为图像的描述文本。6.一种基于异构数据融合的图文匹配系统,其特征在于,包括:待匹配数据确定单元,用于确定待匹配的图像数据集和文本数据集;图像文本描述单元,用于将所述图像数据集输入到im2txt模型,以为图像数据集中的2CN115908870A权利要求书2/2页每张图像生成对应的图像描述文本;图文匹配单元,用于将图像数据集中每张图像的描述文本与文本数据集中的每个文本进行相似度计算,