预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共11页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)国家知识产权局(12)发明专利申请(10)申请公布号CN115827862A(43)申请公布日2023.03.21(21)申请号202211516281.7(51)Int.Cl.(22)申请日2022.11.30G06F16/35(2019.01)G06F16/33(2019.01)(71)申请人江苏杰瑞信息科技有限公司G06F16/38(2019.01)地址222061江苏省连云港市海州区圣湖路18号申请人中国船舶集团有限公司第七一六研究所中船重工信息科技有限公司(72)发明人田亚丽刘宝华陈端迎杜乃瀚王圣东邵长冬李欧阳姜厚禄张桂平赵子慧(74)专利代理机构南京理工大学专利中心32203专利代理师马鲁晋权利要求书3页说明书6页附图1页(54)发明名称一种多元费用凭证数据关联采集方法(57)摘要本发明公开了一种多元费用凭证数据关联采集方法。本发明针对大规模装备价格管理工作过程普遍遇到的海量多样化费用凭证数据采集与管理难题,建立费用凭证电子文档的智能化识别与分析处理流程,实现海量的财务报表、发票、合同、技术方案等多种类型费用凭证文件的自动化导入、识别、转换、解析、提取、标注、关联与集成,完成费用数据与费用凭证数据的关联性构建与数据集成管理,能大幅提升费用采集与管理工作效率,提高数据准确性和利用率。CN115827862ACN115827862A权利要求书1/3页1.一种多元费用凭证数据关联采集方法,其特征在于,所述方法包括以下步骤:步骤1,批量导入费用凭证文件,构建统一的文件存储空间和文件索引空间,生成费用凭证数据服务,提供文件查询检索、内容加载显示、文件版本控制功能;步骤2,执行批量电子文件内容识别处理,对影印与图片文件的内容进行文字识别,同时对电子文件中表格内容与格式进行识别;步骤3,对文字内容进行结构化处理,基于文本语义分析与处理,提取业务对象关键词,构建文本内容特征空间与特征关联度,生成数据标签并进行自动化标注,基于文件结构形式与内容特征,自动分类识别多种类型费用凭证文件;步骤4,加载费用数据采集表,解析费用数据项对象内容,基于电子文件文本内容特征与费用数据采集对象内容特征进行关联匹配,将多种类型的费用凭证数据挂接至所关联对应的费用数据表数据对象,完成费用凭证数据关联集成。2.根据权利要求1所述的多元费用凭证数据关联采集方法,其特征在于,步骤1的具体过程包括:步骤1‑1,批量加载费用凭证文件,从计算机磁盘的文件系统中读取费用凭证文件的存储根路径,加载根路径及所包含的子目录和文件,将文件名称、文件扩展名、文件路径以及上级目录信息存储在计算机内存对象中;步骤1‑2,创建文件存储空间,按照分布式系统结构关系,生成一组物理存储空间,每一个子节点均由管理节点进行调度管理,管理节点形成包含全部分布式节点的逻辑存储空间;步骤1‑3,批量导入费用凭证文件,根据文件的不同类型,分别记录文件的基本信息,包括文件名称、文件扩展名、文件路径、文件大小、修改时间、导入时间以及版本;步骤1‑4,创建文件索引空间,根据文件属性集合,生成包含单属性、组合属性的索引文件;所述文件属性集合包括文件名称、文件扩展名、文件路径、文件大小、修改时间、导入时间和版本;步骤1‑5,生成费用凭证数据服务,根据文件的属性集合抽象定义服务协议接口,自动化封装费用凭证查询检索费用,可使用文件属性集合为组合条件进行费用凭证数据的服务访问。3.根据权利要求2所述的多元费用凭证数据关联采集方法,其特征在于,步骤1中的费用凭证文件指多种类型的电子文件,包括财务报表、发票、合同和技术方案,采用的文件格式包括图片格式和文件格式。4.根据权利要求1所述的多元费用凭证数据关联采集方法,其特征在于,步骤2中电子文件中表格识别,包括:基于预训练模型对电子表格的边框、单元格内容进行识别处理,区分电子表头与表格体部分,将识别输出的单元格文字、表格结构与单元格定位内容以描述性数据结构进行记录与存储,并支持将表格与内容导出为excel文件格式。5.根据权利要求4所述的多元费用凭证数据关联采集方法,其特征在于,步骤2中对电子文件中表格内容与格式进行识别,具体过程包括:步骤2‑1,构建预训练模型,支持按照不同类型的电子文件内容,生成多组内容识别模型,包括章节目录识别、段落结构识别、表格样式识别、表格内容识别、文本内容识别模型;步骤2‑2,识别文件内容结构,首先对文件章节进行识别与区隔,将文件内容按章节进2CN115827862A权利要求书2/3页行分割,然后识别内容类型,包括文字段落、表格和图形图表;步骤2‑3,识别表格结构,判定表头及表头位置,识别行、列边框,判定行列数量,判定合并单元格;步骤2‑4,识别文本内容,基于OCR技术对文字块进行识别,包括标题、单元格、段落、表题注、图题注这些文字内容;