预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115115883A(43)申请公布日2022.09.27(21)申请号202210757445.9(22)申请日2022.06.29(71)申请人上海交通大学地址200240上海市闵行区东川路800号(72)发明人金耀辉邱健王晴晴(74)专利代理机构上海恒慧知识产权代理事务所(特殊普通合伙)31317专利代理师张宁展(51)Int.Cl.G06V10/764(2022.01)G06V10/762(2022.01)G06V10/80(2022.01)G06N3/04(2006.01)G06N3/08(2006.01)权利要求书2页说明书6页附图2页(54)发明名称一种基于多模态特征融合的证照分类方法及系统(57)摘要本发明提供了一种基于多模态特征融合的证照分类方法及系统,该方法充分考虑证照图像含有视觉特征、文本语义特征、文本位置特征等多模态信息的特点,充分利用多模态信息,以及各个模态之间的相互关系,通过构建卷积神经网络提取视觉特征,转化成视觉特征向量;根据证照中独特的文本信息训练语言模型,将证照图像中的文本转化为文本信息向量,对得到的视觉特征向量和文本信息向量进行多模态融合,既能保留原始单模态视觉特征和文本信息,同时也能利用两种模态之间的相互作用,作为分类的依据。本发明不仅考虑证照图像的视觉特征,同时充分考虑文本信息,以及两者之间的相互关系,从而使得分类结果达到较高的分类准确度和更细粒度的类别划分。CN115115883ACN115115883A权利要求书1/2页1.一种基于多模态特征融合的证照分类方法,其特征在于,包括:多模态特征提取,提取证照图像整体版面视觉特征、文本内容信息和文本位置块信息,并输出版面视觉特征向量和文本内容信息,以及文本块位置坐标信息;文本重构,根据不同文本块位置坐标的距离关系,将文本块内容根据文本块位置信息进行重构,得到重构后的长本文;训练语音模型,根据所述的重构后的长文本作为数据集,训练得到适应证照图像中独有的文本语义的语言模型;长文本向量表征,根据所述训练得到的语言模型,将长文本转化为固定长度的特征表示;多模态特征融合,对版面视觉特征和长文本特征,做张量外积,显性表征单模态,双模态相互作用,得到新的多维特征向量;利用卷积神网络对所述的多维特征向量进行计算与分类,得到细粒度证照分类结果。2.根据权利要求1所述的基于多模态特征融合的证照分类方法,其特征在于,具体是:利用卷积神经网络提取整个证照图像版面视觉特征信息,得到版面视觉特征向量;利用光学字符识别模型提取图像中的证照文本信息,包括文本内容信息和文本块位置坐标信息;所述文本块位置坐标之间的距离关系如下:其中i,j分别表示不同文本块,若dij小于预先设定的阈值θ,则判断文本块内文本内容相关,然后将文字内容信息根据对应文本块坐标位置关系进行重构,公式如下:tij=ti+tj其中ti,tj为第i,j个文本块文本内容,从而将具有键值对关系的文本聚合为长文本信息;根据所获的重构后的证照长文本信息,作为训练数据集,结合文本语义表达,训练得到符合证照中语义表达的语言模型;利用训练好的语言模型,将所述重构长文本信息编码成固定长度的文本特征向量。3.根据权利要求1所述的基于多模态特征融合的证照分类方法,其特征在于,所述根据所述的版面视觉特征向量和长文本特征向量进行多模态特征融合,获取多模态融合的多维特征向量,具体是:对所述的视觉特征向量A和文本特征向量B,用1扩充一维后,进行张量外积,得到多模态融合的多维特征向量C,公式如下:4.根据权利要求1所述的基于多模态特征融合的证照分类方法,其特征在于,所述利用卷积神网络对所述的多维特征向量进行计算与分类,得到细粒度证照分类结果,具体是:将所述的多维特征向量输入卷积神经网络,构建分类网络;根据空间中的不同映射结果聚类,对应不同的证照类别,得到证照分类结果。5.一种基于多模态特征融合的证照分类系统,其特征在于,包括:多模态特征提取模块,用于获取证照图像整体版面视觉特征、文本内容信息和文本位2CN115115883A权利要求书2/2页置块信息,并输出视觉特征向量和文本内容信息,以及文本块位置坐标信息;文本重构模块,根据不同文本块位置坐标的距离关系,将文本块内容根据文本块位置信息进行重构,得到重构后的长本文;语言模型训练模块,利用获取的重构后长文本,用于训练证照图像中独有的文本语义的语言模型;长文本信息特征向量表示模块,利用训练得到的语言模型将重构后的长文本,转化成固定长度的特征表示;张量外积计算模块,将视觉特征向量和长文本特征向量做张量外积,显性表示单模态和双模态相互作用,得到特征融合后的多维特征向量;多模态特征信息融合判断模块,通过卷积神经网络,进一步得到更多特征表