一种基于多模态融合的文档版面分类方法-豆柴文库

一种基于多模态融合的文档版面分类方法.pdf

2023-07-25

10金币

349KB

6页

雅云****彩妍

实名认证

内容提供者

1/6

2/6

3/6

4/6

5/6

6/6

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113688872A(43)申请公布日2021.11.23(21)申请号202110854557.1(22)申请日2021.07.28(71)申请人达观数据（苏州）有限公司地址215133江苏省苏州市相城区相城大道1168号品上商业中心5幢908室(72)发明人陶提许诺高翔纪达麒陈运文(74)专利代理机构上海智力专利商标事务所(普通合伙)31105代理人张文玄周涛(51)Int.Cl.G06K9/62(2006.01)G06K9/00(2006.01)权利要求书1页说明书3页附图1页(54)发明名称一种基于多模态融合的文档版面分类方法(57)摘要本发明公开了一种基于多模态融合的文档版面分类方法，其特征在于，针对目标文档，包括：检测目标文档，获取待分类的检测框；获取检测框的文本信息、框坐标信息和图像特征；采用多模态融合模型，以所述文本信息、框坐标信息和图像特征作为输入，输出检测框的类型。本发明通过将文本、位置和图像信息的多模态融合，提升了文档版面分类的准确率。CN113688872ACN113688872A权利要求书1/1页1.一种基于多模态融合的文档版面分类方法，其特征在于，针对目标文档，所述分类方法包括：检测目标文档，获取待分类的检测框；获取检测框的文本信息、框坐标信息和图像特征；采用多模态融合模型，以所述文本信息、框坐标信息和图像特征作为输入，输出检测框的类型。2.根据权利要求1所述的基于多模态融合的文档版面分类方法，其特征在于，所述目标文档是图像类型的；获取检测框的文本信息、文本坐标信息需要通过光学字符识别技术获取目标文档的文本信息和文本坐标信息；根据文本信息、文本坐标信息和框坐标信息实现检测框和文本信息的匹配。3.根据权利要求2所述的基于多模态融合的文档版面分类方法，其特征在于，所述检测框仅采用框内的第一行文本作为其文本信息。4.根据权利要求1所述的基于多模态融合的文档版面分类方法，其特征在于，所述目标文档是可直接读取文本信息类型的；获取检测框前需要将所述目标文档转化为图像类型。5.根据权利要求1所述的基于多模态融合的文档版面分类方法，其特征在于，获取检测框的图像特征时采用RoIAlign将每个检测框转为特定大小的输出。6.根据权利要求1所述的基于多模态融合的文档版面分类方法，其特征在于，以所述文本信息、框坐标信息和图像特征作为输入还包括：将框坐标信息进行位置编码，将文本信息进行分词并进行文本编码，以位置编码信息、文本编码信息和图像特征作为输入。7.一种存储介质，其特征在于，存储有计算机程序，所述计算机程序被执行时实现权利要求1‑6中任一所述的分类方法。8.一种基于多模态融合的文档版面分类装置，其特征在于，针对目标文档，所述分类装置包括：目标检测模块，所述检测模块检测目标文档，获取待分类的检测框；信息获取模块，所述信息获取模块获取检测框的文本信息、框坐标信息和图像特征；多模态融合模型模块，所述多模态融合模型模块以所述文本信息、框坐标信息和图像特征作为输入，输出检测框的类型。2CN113688872A说明书1/3页一种基于多模态融合的文档版面分类方法技术领域[0001]本发明属于深度学习领域，具体涉及一种基于多模态融合的文档版面分类方法。背景技术[0002]分析抽取文档中的信息需要用到文档的版面信息，版面信息一般包括几类：页眉、页脚、标题、段落、目录、表格和图像。[0003]文档一般分为电子文档和图像文档，电子文档可以通过解析获取文档中字符信息，包括文本和位置信息，但无法直接获取文档的版面信息。图像文档中的文本和位置信息不能直接获取，需要通过OCR(OpticalCharacterRecognition)技术获取。[0004]电子文档的版面信息可根据解析获得的文本和位置信息来制定规则划分。但由于文档类型多变，特别对于双栏文档，规则比较复杂且不能完全覆盖所有情况。图像文档和电子文档转为图像的文档可以用目标检测的方法来定位及分类版面信息。目标检测对表格，图像和目录可以根据图像特征进行较好的分类，而对于其它类别不仅要考虑图像信息，还要涉及到文本和位置信息，用目标检测方法仅考虑图像信息会降低分类的准确率。[0005]对文档中的版面进行分类目前可以用目标检测的方法，但是会存在以下问题：[0006]1、对于页眉页脚目标检测方法不能很好的提取到位置特征，页眉页脚的图像特征与部分段落的图像特征相似，仅根据图像特征不易区分；[0007]2、段落和标题会存在图像特征相似的情况，需要依靠文本才能更好地区分。发明内容[0008]针对现有技术中存在的问题，本发明提供一种基于多模态融合的文档版面分类方法。[0009]为实现上述目的，本发明采用以下技术方案：[0010]一种

相关资料

一种基于多模态融合的文档版面分类方法.pdf

本发明公开了一种基于多模态融合的文档版面分类方法，其特征在于，针对目标文档，包括：检测目标文档，获取待分类的检测框；获取检测框的文本信息、框坐标信息和图像特征；采用多模态融合模型，以所述文本信息、框坐标信息和图像特征作为输入，输出检测框的类型。本发明通过将文本、位置和图像信息的多模态融合，提升了文档版面分类的准确率。

2023-07-25

349KB

一种基于决策融合的多模态情感分类方法.pdf

一种基于决策融合的多模态情感分类方法属于情感分类技术领域。本发明通过对不同模态数据的特征提取和基于统计分析的特征筛选方式来建立单模态数据的特征集,然后将其输入分类模型并获得最优子分类器,然后在决策级别进行多个子分类器的融合。本发明综合考虑了所有子分类器,并根据各个分类器的性能来进行权重更新,在权重更新方式上,本发明通过计算各个分类器的累计损失来考量子分类器性能,对性能优越的分类器给予奖励,并对错分的分类器给予惩罚,实现一种综合子分类器的历史表现和当前迭代的表现来进行权重更新的方式,对各个分类器的权重赋值更

2023-05-24

742KB

一种基于多模态融合的肿瘤分类方法及系统.pdf

本发明提出一种基于多模态融合的肿瘤分类方法和系统,包括:根据来自同一位用户的多模态影像构建多模态图,多模态图中顶点为该多模态影像中单帧影像,多模态图中边为模态相异的顶点间的匹配边;使用肿瘤分类模型对多模态图中所有匹配边进行特征的提取和融合,得到每条边的置信度;根据每条边的置信度,选择并构建出一个可信边集合,将可信边集的置信度和该用户的临床信息进行加权融合,得到该多模态影像建图的肿瘤识别结果。由此能够结合用户不同模态的影像数据,进行肿瘤高精度分类。

2023-05-25

526KB

一种基于多模态特征融合的证照分类方法及系统.pdf

本发明提供了一种基于多模态特征融合的证照分类方法及系统，该方法充分考虑证照图像含有视觉特征、文本语义特征、文本位置特征等多模态信息的特点，充分利用多模态信息，以及各个模态之间的相互关系，通过构建卷积神经网络提取视觉特征，转化成视觉特征向量；根据证照中独特的文本信息训练语言模型，将证照图像中的文本转化为文本信息向量，对得到的视觉特征向量和文本信息向量进行多模态融合，既能保留原始单模态视觉特征和文本信息，同时也能利用两种模态之间的相互作用，作为分类的依据。本发明不仅考虑证照图像的视觉特征，同时充分考虑文本信息

2023-11-05

454KB

一种基于多模态融合的情绪分类识别方法.pdf

本发明公开一种基于多模态融合的情绪分类识别方法，包括：输入单个数据的脑电信号，并对脑电信号预处理，脑电信号为多通道数字信号；选取M个电极作为脑网络节点，每个节点代表一个脑电信号，并计算各个节点之间的相位锁定值，进而得到脑网络节点对应的连接权重矩阵；根据连接权重计算加权K‑阶传播数，进而得到每个节点的重要性排名；将脑网络拓扑结构和节点的重要性进行融合；计算训练数据集中所有特征的F‑score值，对融合后的特征进行选择，对整个数据集进行情绪分类；本发明采用合理的特征选择策略从整个特征空间选择最好的子集，将网络

2023-08-07

637KB