预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共13页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113962201A(43)申请公布日2022.01.21(21)申请号202110974974.X(22)申请日2021.08.24(71)申请人重庆超体科技有限公司地址401120重庆市渝北区仙桃数据谷中路99号1单元C07-2栋5层(72)发明人饶燕涂宇果鲜宸皓田成林陶士来郑勇(74)专利代理机构重庆启恒腾元专利代理事务所(普通合伙)50232代理人万建(51)Int.Cl.G06F40/174(2020.01)G06F40/279(2020.01)G06V30/413(2022.01)G06V30/414(2022.01)权利要求书3页说明书8页附图1页(54)发明名称一种单证的文本结构化与抽取方法(57)摘要本发明涉及单证识别技术领域,特别公开了一种单证的文本结构化与抽取方法,包括如下步骤:S1、获取文件并识别文件内容;S2、对识别的文件内容进行结构化处理:将识别的文件内容整理成统一格式;S3、对结构化后的文件内容进行目标内容抽取,得到需要的单证内容。本发明基于该方法将接单、制单、审单三个步骤的时间缩短至分秒级,提高了制单的作业效率,避免了人工录入差错。CN113962201ACN113962201A权利要求书1/3页1.一种单证的文本结构化与抽取方法,其特征在于,包括如下步骤:S1、获取文件并识别文件内容;S2、对识别的文件内容进行结构化处理:将识别的文件内容整理成统一格式;S3、对结构化后的文件内容进行目标内容抽取,得到需要的单证内容。2.根据权利要求1所述的一种单证的文本结构化与抽取方法,其特征在于,所述文件的格式包括Excel、pdf、word以及图片。3.根据权利要求2所述的一种单证的文本结构化与抽取方法,其特征在于,步骤S1中,通过OCR技术对图片进行识别,通过python的docx库读取word文件,通过python的pandas库读取Excel文件,通过python的pdfplumber库读取pdf文件。4.根据权利要求2所述的一种单证的文本结构化与抽取方法,其特征在于,步骤S2中,对Excel进行结构化处理包括:合并单元格的处理:当表头是合并单元格,且该表头对应的表体占据多列时,需要将多列表体合并到一列;同一条数据占据多行的处理:对于本是同一条数据却占据了excel的多行,基于文件内容的布局信息进行分析归类,将同一条数据合并成一行;多列的表头、表体数据在一个单元格的处理:基于分隔符将表头、表体的内容分割开,并分析计算将该表头、表体拆分成多列并对齐;表头、表体未对齐的处理:基于数据类型以及布局信息对表头表体进行对齐处理。5.根据权利要求2所述的一种单证的文本结构化与抽取方法,其特征在于,对pdf和图片识别结果的结构化处理包括:首先基于pdf和图片识别结果的预处理如下:分页合并处理:当pdf有多页时,若pdf含有图片,首先需要将pdf的非图片内容与图片的识别内容进行合并,其次将与图片合并后的具有多页的pdf集合并成一个结果集,然后再计算修改结果集中的坐标信息;跨行/列内容的合并处理:基于pdf和/或图片中的表格单元格信息,计算查找出在同一表格单元格的多条文本数据,进行行/列上的合并处理;将预处理后的格式为[文本,坐标信息]的输出结果转换为excel的结构模式;结构化处理:基于文本的坐标信息以及表格的坐标信息进行计算,将识别的pdf和图片的内容放到excel对应的行列中,并实现表头、表体的对齐处理;跨页表格合并处理:基于分页处表格的线条信息以及单元格是否封闭判断分页处的内容是否需要做合并处理。6.根据权利要求4所述的一种单证的文本结构化与抽取方法,其特征在于,在合并单元格的处理时,获取Excel中的文本、文本所在行/列信息以及合并单元格信息,文本包括表头和表体;通过合并单元格信息首先判断表头所在的列数,然后从表头的下一行开始按行遍历并获取对应的表体数据,判断每一行中该表头所在列对应的表体是否有超过一个非空单元格,如果有,就表示该表体多列,将该表头所在列对应的表体中位于非首列的表体合并至首列表体的单元格中;同一条数据占据多行的处理时,判断上一行表体与下一行表体之间的空单元格有几2CN113962201A权利要求书2/3页行,并将空单元格与上一行表体的单元格进行合并;多列的表头、表体数据在一个单元格的处理时,若原始资料存在本是多列的表头和表体的内容却合并在一个单元格时,此时每一行的非空单元格数量为1,分析计算将表头表体拆分成多列并对齐,步骤如下:首先根据关键词确定表格的开始位置和结束位置,并抽取出表格的内容;然后按行遍历获取每一行的非空单元格文本内容,该文本内容包含多个用空格隔开的词/句;用空格对该文本内容进行分割处理,得到每行分割