一种单证的文本结构化与抽取方法-豆柴文库

一种单证的文本结构化与抽取方法.pdf

2023-07-24

10金币

373KB

13页

努力****妙风

实名认证

内容提供者

1/10

2/10

3/10

4/10

5/10

6/10

7/10

8/10

9/10

10/10

亲，该文档总共13页，到这已经超出免费预览范围，如果喜欢就直接下载吧～

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113962201A(43)申请公布日2022.01.21(21)申请号202110974974.X(22)申请日2021.08.24(71)申请人重庆超体科技有限公司地址401120重庆市渝北区仙桃数据谷中路99号1单元C07-2栋5层(72)发明人饶燕涂宇果鲜宸皓田成林陶士来郑勇(74)专利代理机构重庆启恒腾元专利代理事务所(普通合伙)50232代理人万建(51)Int.Cl.G06F40/174(2020.01)G06F40/279(2020.01)G06V30/413(2022.01)G06V30/414(2022.01)权利要求书3页说明书8页附图1页(54)发明名称一种单证的文本结构化与抽取方法(57)摘要本发明涉及单证识别技术领域，特别公开了一种单证的文本结构化与抽取方法，包括如下步骤：S1、获取文件并识别文件内容；S2、对识别的文件内容进行结构化处理：将识别的文件内容整理成统一格式；S3、对结构化后的文件内容进行目标内容抽取，得到需要的单证内容。本发明基于该方法将接单、制单、审单三个步骤的时间缩短至分秒级，提高了制单的作业效率，避免了人工录入差错。CN113962201ACN113962201A权利要求书1/3页1.一种单证的文本结构化与抽取方法，其特征在于，包括如下步骤：S1、获取文件并识别文件内容；S2、对识别的文件内容进行结构化处理：将识别的文件内容整理成统一格式；S3、对结构化后的文件内容进行目标内容抽取，得到需要的单证内容。2.根据权利要求1所述的一种单证的文本结构化与抽取方法，其特征在于，所述文件的格式包括Excel、pdf、word以及图片。3.根据权利要求2所述的一种单证的文本结构化与抽取方法，其特征在于，步骤S1中，通过OCR技术对图片进行识别，通过python的docx库读取word文件，通过python的pandas库读取Excel文件，通过python的pdfplumber库读取pdf文件。4.根据权利要求2所述的一种单证的文本结构化与抽取方法，其特征在于，步骤S2中，对Excel进行结构化处理包括：合并单元格的处理：当表头是合并单元格，且该表头对应的表体占据多列时，需要将多列表体合并到一列；同一条数据占据多行的处理：对于本是同一条数据却占据了excel的多行，基于文件内容的布局信息进行分析归类，将同一条数据合并成一行；多列的表头、表体数据在一个单元格的处理：基于分隔符将表头、表体的内容分割开，并分析计算将该表头、表体拆分成多列并对齐；表头、表体未对齐的处理：基于数据类型以及布局信息对表头表体进行对齐处理。5.根据权利要求2所述的一种单证的文本结构化与抽取方法，其特征在于，对pdf和图片识别结果的结构化处理包括：首先基于pdf和图片识别结果的预处理如下：分页合并处理：当pdf有多页时，若pdf含有图片，首先需要将pdf的非图片内容与图片的识别内容进行合并，其次将与图片合并后的具有多页的pdf集合并成一个结果集，然后再计算修改结果集中的坐标信息；跨行/列内容的合并处理：基于pdf和/或图片中的表格单元格信息，计算查找出在同一表格单元格的多条文本数据，进行行/列上的合并处理；将预处理后的格式为[文本，坐标信息]的输出结果转换为excel的结构模式；结构化处理：基于文本的坐标信息以及表格的坐标信息进行计算，将识别的pdf和图片的内容放到excel对应的行列中，并实现表头、表体的对齐处理；跨页表格合并处理：基于分页处表格的线条信息以及单元格是否封闭判断分页处的内容是否需要做合并处理。6.根据权利要求4所述的一种单证的文本结构化与抽取方法，其特征在于，在合并单元格的处理时，获取Excel中的文本、文本所在行/列信息以及合并单元格信息，文本包括表头和表体；通过合并单元格信息首先判断表头所在的列数，然后从表头的下一行开始按行遍历并获取对应的表体数据，判断每一行中该表头所在列对应的表体是否有超过一个非空单元格，如果有，就表示该表体多列，将该表头所在列对应的表体中位于非首列的表体合并至首列表体的单元格中；同一条数据占据多行的处理时，判断上一行表体与下一行表体之间的空单元格有几2CN113962201A权利要求书2/3页行，并将空单元格与上一行表体的单元格进行合并；多列的表头、表体数据在一个单元格的处理时，若原始资料存在本是多列的表头和表体的内容却合并在一个单元格时，此时每一行的非空单元格数量为1，分析计算将表头表体拆分成多列并对齐，步骤如下：首先根据关键词确定表格的开始位置和结束位置，并抽取出表格的内容；然后按行遍历获取每一行的非空单元格文本内容，该文本内容包含多个用空格隔开的词/句；用空格对该文本内容进行分割处理，得到每行分割

相关资料

一种单证的文本结构化与抽取方法.pdf

本发明涉及单证识别技术领域，特别公开了一种单证的文本结构化与抽取方法，包括如下步骤：S1、获取文件并识别文件内容；S2、对识别的文件内容进行结构化处理：将识别的文件内容整理成统一格式；S3、对结构化后的文件内容进行目标内容抽取，得到需要的单证内容。本发明基于该方法将接单、制单、审单三个步骤的时间缩短至分秒级，提高了制单的作业效率，避免了人工录入差错。

2023-07-24

373KB

一种面向医学文本数据的结构化信息抽取方法.pptx

添加副标题目录PART01PART02医学文本数据的特点信息抽取的目标和意义结构化信息抽取的必要性PART03文本清洗和标准化命名实体识别句法分析语义理解PART04基于规则的方法基于模板的方法基于深度学习的方法跨模态信息抽取技术PART05数据集和实验环境评估指标和方法实验结果和分析结果比较和讨论PART06在医疗决策支持系统中的应用在临床研究中的应用在流行病预测中的应用与其他方法的优势比较PART07面临的挑战和问题未来发展方向和趋势对医学信息抽取领域的贡献感谢您的观看

2024-10-07

877KB

基于全局指针解码方法的文本结构化信息抽取方法.pdf

本发明涉及信息抽取方法技术领域，且公开了基于全局指针解码方法的文本结构化信息抽取方法，包括以下算法及模型：(1)面向文本事件信息抽取的向量化表示；(2)统一方式处理嵌套与非嵌套NER任务；(3)设计事件抽取算法并完成模型训练；(4)设计事件关系抽取算法并完成模型训练；(5)完成最优化模型参数的部署对知识进行融合加工。本发明通过全局化的关联文本内容，用归一处理的全局指针解码方法方法来应对命名实体识别任务，不对嵌套实体和非嵌套实体作明确区分，使得形成的模型统一高效的处理两类文本，并将归一化的模型利用到两个抽取

2023-06-07

369KB

一种细粒度各场景通用的医疗文本结构化信息抽取方法.pdf

本发明公开了一种细粒度各场景通用的医疗文本结构化信息抽取方法，涉及医疗信息结构化技术领域，用于解决现有医疗文本的类型及场景较为复杂，对结构化抽取造成障碍，并且结构化抽取的粒度比较粗的问题，本发明包括以下步骤：步骤一：获取待抽取的医疗文本数据，通过预处理模块对医疗文本数据进行预处理，剔除无效或脏数据；步骤二：对完成预处理后的医疗文本数据利用分类模块进行定义，本发明可针对不同场景的医疗文本数据进行结构化抽取，且不同场景所对应的不同类别分类较细，涵括范围广，可灵活适用于不同类型或场景的医疗文本数据进行抽取，也能

2023-05-25

1.1MB

一种文本要素抽取方法及系统.pdf

本发明提供一种文本要素抽取方法及系统，首先获取目标文本，按照预设业务规则对目标文本的文本内容进行段落分割，将目标文本拆分为多个段落文本；获取每个段落文本的文本内容；利用预训练模型对每个段落文本中的句子进行编码，得到对应的编码结果；通过卷积神经网络从编码结果中聚合每个句子的内部信息，获取每个句子的表征；通过条件随机场从每个句子的表征中获取对应句子的上下文信息，得到目标文本的要素信息。由此可知，本发明提出了基于长文本预训练模型段落级的要素抽取方案，不仅能够解决传统模型输入长度的限制和无法充分利用上下文信息，而

2023-07-24

479KB