预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113869014A(43)申请公布日2021.12.31(21)申请号202110981524.3(22)申请日2021.08.25(71)申请人盐城金堤科技有限公司地址224000江苏省盐城市盐南高新区科城街道学海路大数据产业园B-17-1幢501-503室(72)发明人曲悠杨柳超程浩黄文瀚(74)专利代理机构北京工信联合知识产权代理有限公司11266代理人刘爱丽(51)Int.Cl.G06F40/18(2020.01)G06F40/151(2020.01)权利要求书2页说明书11页附图2页(54)发明名称表格数据的提取方法和装置、以及存储介质和电子设备(57)摘要本发明公开了一种表格数据的提取方法和装置、以及存储介质和电子设备,其中方法包括:确定目标文件中表格的结构体数据;将所述表格的结构体数据转换为字典形式数据;根据所述字典形式数据,确定所述表格对应的数据矩阵;根据所述表格对应的数据矩阵,获取目标表格数据。本发明的方法能够解决表格单元的数据修复和多表格的合并问题,实现表格数据的有效结构化,够有效的提取表格的结构化信息,产出标准化的目标表格数据,为后续的信息处理奠定基础。CN113869014ACN113869014A权利要求书1/2页1.一种表格数据的提取方法,其特征在于,所述方法包括:确定目标文件中表格的结构体数据;将所述表格的结构体数据转换为字典形式数据;根据所述字典形式数据,确定所述表格对应的数据矩阵;根据所述表格对应的数据矩阵,获取目标表格数据。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据获取的源文件的格式和预设规则确定转换策略,并利用所述转换策略对所述源文件进行格式转换,以获取所述目标文件。3.根据权利要求1所述的方法,其特征在于,所述确定目标文件中表格的结构体数据,包括:对所述目标文件进行解析,并对经过解析的目标文件中的表格的结构体数据进行定位,以确定所述表格的结构体数据。4.根据权利要求1所述的方法,其特征在于,所述将所述表格的结构体数据转换为字典形式数据,包括:根据任一表格的结构体数据和预设的关键标识,确定所述任一表格对应的行数和每一行对应的列数;根据所述任一表格对应的行数和每一行对应的列数建立所述任一表格对应的字典;将所述任一表格的每个单元格的单元格数据存储到所述字典的对应位置中,以将所述任一表格的结构体数据转换为字典形式数据。5.根据权利要求4所述的方法,其特征在于,所述根据所述任一表格对应的行数和每一行对应的列数建立所述任一表格对应的字典,包括:以所述任一表格对应的行数为一级索引,且以每一行对应的列数为二级索引,建立所述任一表格对应的字典。6.根据权利要求1所述的方法,其特征在于,所述根据所述字典形式数据,确定所述表格对应的数据矩阵,包括:根据所述字典形式数据确定所述表格在行和列两个维度上的第一预设长度和第二预设长度;根据所述表格对应的第一预设长度和第二预设长度,将所述字典形式数据转换为数据矩阵,确定所述表格对应的数据矩阵。7.根据权利要求6所述的方法,其特征在于,所述方法还包括:利用预设的填充项对所述表格对应的数据矩阵进行填充。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:遍历所述表格对应的数据矩阵中的每个元素,若满足:fulldict[i][j]=fulldict[i‑1][j],或fulldict[i][j]=fulldict[i][j‑1],则修改元素fulldict[i][j]的值为预设的填充项;其中,i和j分别为数据矩阵fulldict的第i行和第j列。9.根据权利要求1所述的方法,其特征在于,所述根据所述表格对应的数据矩阵,获取目标表格数据,包括:2CN113869014A权利要求书2/2页遍历每个表格对应的数据矩阵,若任意相邻的两个表格对应的数据矩阵的列数相同,且相对位置靠后的数据矩阵中的第一个元素的值不符合预设的表头格式,则将任意相邻的两个表格进行合并处理;根据合并处理后的数据矩阵,获取所述目标表格数据。10.一种表格数据的提取装置,其特征在于,所述装置包括:结构体数据确定模块,用于确定目标文件中表格的结构体数据;数据转换模块,用于将所述表格的结构体数据转换为字典形式数据;数据矩阵确定模块,用于根据所述字典形式数据,确定所述表格对应的数据矩阵;合并模块,用于根据所述表格对应的数据矩阵,获取目标表格数据。11.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1‑9中任一项所述的方法。12.一种电子设备,其特征在于,所述电子设备包括:处理器和存储器;其中,所述存储器,用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述