预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113688872A(43)申请公布日2021.11.23(21)申请号202110854557.1(22)申请日2021.07.28(71)申请人达观数据(苏州)有限公司地址215133江苏省苏州市相城区相城大道1168号品上商业中心5幢908室(72)发明人陶提许诺高翔纪达麒陈运文(74)专利代理机构上海智力专利商标事务所(普通合伙)31105代理人张文玄周涛(51)Int.Cl.G06K9/62(2006.01)G06K9/00(2006.01)权利要求书1页说明书3页附图1页(54)发明名称一种基于多模态融合的文档版面分类方法(57)摘要本发明公开了一种基于多模态融合的文档版面分类方法,其特征在于,针对目标文档,包括:检测目标文档,获取待分类的检测框;获取检测框的文本信息、框坐标信息和图像特征;采用多模态融合模型,以所述文本信息、框坐标信息和图像特征作为输入,输出检测框的类型。本发明通过将文本、位置和图像信息的多模态融合,提升了文档版面分类的准确率。CN113688872ACN113688872A权利要求书1/1页1.一种基于多模态融合的文档版面分类方法,其特征在于,针对目标文档,所述分类方法包括:检测目标文档,获取待分类的检测框;获取检测框的文本信息、框坐标信息和图像特征;采用多模态融合模型,以所述文本信息、框坐标信息和图像特征作为输入,输出检测框的类型。2.根据权利要求1所述的基于多模态融合的文档版面分类方法,其特征在于,所述目标文档是图像类型的;获取检测框的文本信息、文本坐标信息需要通过光学字符识别技术获取目标文档的文本信息和文本坐标信息;根据文本信息、文本坐标信息和框坐标信息实现检测框和文本信息的匹配。3.根据权利要求2所述的基于多模态融合的文档版面分类方法,其特征在于,所述检测框仅采用框内的第一行文本作为其文本信息。4.根据权利要求1所述的基于多模态融合的文档版面分类方法,其特征在于,所述目标文档是可直接读取文本信息类型的;获取检测框前需要将所述目标文档转化为图像类型。5.根据权利要求1所述的基于多模态融合的文档版面分类方法,其特征在于,获取检测框的图像特征时采用RoIAlign将每个检测框转为特定大小的输出。6.根据权利要求1所述的基于多模态融合的文档版面分类方法,其特征在于,以所述文本信息、框坐标信息和图像特征作为输入还包括:将框坐标信息进行位置编码,将文本信息进行分词并进行文本编码,以位置编码信息、文本编码信息和图像特征作为输入。7.一种存储介质,其特征在于,存储有计算机程序,所述计算机程序被执行时实现权利要求1‑6中任一所述的分类方法。8.一种基于多模态融合的文档版面分类装置,其特征在于,针对目标文档,所述分类装置包括:目标检测模块,所述检测模块检测目标文档,获取待分类的检测框;信息获取模块,所述信息获取模块获取检测框的文本信息、框坐标信息和图像特征;多模态融合模型模块,所述多模态融合模型模块以所述文本信息、框坐标信息和图像特征作为输入,输出检测框的类型。2CN113688872A说明书1/3页一种基于多模态融合的文档版面分类方法技术领域[0001]本发明属于深度学习领域,具体涉及一种基于多模态融合的文档版面分类方法。背景技术[0002]分析抽取文档中的信息需要用到文档的版面信息,版面信息一般包括几类:页眉、页脚、标题、段落、目录、表格和图像。[0003]文档一般分为电子文档和图像文档,电子文档可以通过解析获取文档中字符信息,包括文本和位置信息,但无法直接获取文档的版面信息。图像文档中的文本和位置信息不能直接获取,需要通过OCR(OpticalCharacterRecognition)技术获取。[0004]电子文档的版面信息可根据解析获得的文本和位置信息来制定规则划分。但由于文档类型多变,特别对于双栏文档,规则比较复杂且不能完全覆盖所有情况。图像文档和电子文档转为图像的文档可以用目标检测的方法来定位及分类版面信息。目标检测对表格,图像和目录可以根据图像特征进行较好的分类,而对于其它类别不仅要考虑图像信息,还要涉及到文本和位置信息,用目标检测方法仅考虑图像信息会降低分类的准确率。[0005]对文档中的版面进行分类目前可以用目标检测的方法,但是会存在以下问题:[0006]1、对于页眉页脚目标检测方法不能很好的提取到位置特征,页眉页脚的图像特征与部分段落的图像特征相似,仅根据图像特征不易区分;[0007]2、段落和标题会存在图像特征相似的情况,需要依靠文本才能更好地区分。发明内容[0008]针对现有技术中存在的问题,本发明提供一种基于多模态融合的文档版面分类方法。[0009]为实现上述目的,本发明采用以下技术方案:[0010]一种