预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共19页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113987112A(43)申请公布日2022.01.28(21)申请号202111594001.X(22)申请日2021.12.24(71)申请人杭州恒生聚源信息技术有限公司地址310018浙江省杭州市经济技术开发区白杨街道科技园路2号2撞1701-1714室申请人上海恒生聚源数据服务有限公司(72)发明人孙勇丁雪纯于业达顾文斌罗丰(74)专利代理机构北京集佳知识产权代理有限公司11227代理人张丽娜(51)Int.Cl.G06F16/31(2019.01)G06F16/25(2019.01)权利要求书3页说明书11页附图4页(54)发明名称表格信息抽取方法、装置、存储介质及电子设备(57)摘要本发明公开了一种表格信息抽取方法、装置、存储介质及电子设备,对目标表格中的合并数据进行预处理,得到二维矩阵;将二维矩阵的行和/或列数据输入到表头检测模型,得到表头检测结果,并确定目标表格的表格样式;根据与表格样式对应的处理模式,生成单元格文本序列和表头文本矩阵;获得目标字段文本与表头文本序列中每一文本的匹配结果,并获得目标字段文本对应的单元格对象;基于每一目标字段文本对应的单元格对象的值序列,建立匹配结果对应的行或列的索引信息,以实现对目标单元进行信息抽取,得到抽取结果。本发明通过表头检测模型和表头文本序列的文本匹配处理更适用于复杂表格信息抽取,提升了复杂表格的信息抽取效率及准确性。CN113987112ACN113987112A权利要求书1/3页1.一种表格信息抽取方法,其特征在于,包括:对待抽取的目标表格中的合并数据进行预处理,得到与所述目标表格对应的二维矩阵;将所述二维矩阵的行和/或列数据输入到表头检测模型,得到所述目标表格对应的行和/或列的表头检测结果;基于所述表头检测结果,确定所述目标表格的表格样式;根据与所述表格样式对应的处理模式,生成所述目标表格的单元格文本序列和表头文本矩阵;对所述表头文本序列进行遍历,以获得目标字段文本与所述表头文本序列中每一文本的匹配结果;根据所述匹配结果和所述单元格文本序列,获得目标字段文本对应的单元格对象;基于每一目标字段文本对应的单元格对象的值序列,建立所述匹配结果对应的行或列的索引信息;基于所述索引信息对所述目标表格进行信息抽取,得到抽取结果。2.根据权利要求1所述的方法,其特征在于,所述待抽取的目标表格中的合并数据进行预处理,得到与所述目标表格对应的二维矩阵,包括:获取待抽取的目标表格中的具有数据合并的行,对被合并的行进行数据补充;获取待抽取的目标表格中的具有数据合并的列,对被合并的列进行数据补充;生成行和/或列进行数据补充后的表格对应的二维矩阵。3.根据权利要求1所述的方法,其特征在于,所述根据与所述表格样式对应的处理模式,生成所述目标表格的单元格文本序列和表头文本矩阵,包括:若所述表格样式为竖式,生成所述目标表格的单元格文本序列和表头文本矩阵;若所述表格样式为横式,将所述目标表格的表头列转换为行,生成转换后的目标表格的单元格文本序列和表头文本矩阵;若所述目标表格为目标样式,将所述目标表格的表头列转为表头行,并将两个表头列之间的列转换为表头行的内容行,生成转换后的目标表格对应的单元格文本序列和表头文本矩阵,其中,目标样式为间隔行为表头或间隔列为表头。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取第一训练样本,所述第一训练样本是目标领域的表格数据,且每一表格标注有对应的表头行或列;获取第二训练样本,并基于所述第二训练样本对初始神经网络模型进行训练,得到预训练模型,所述第二训练样本为目标领域对应的文本训练集;基于所述第一训练样本对所述预训练模型进行调整训练,获得表头检测模型。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定第一文本,所述第一文本为满足目标文本条件的文本;生成与所述第一文本满足相似条件的第二文本,以及与所述第一文本不满足所述相似条件的第三文本;根据所述第一文本、所述第二文本和所述第三文本通过预训练模型,得到与所述第一文本对应的第一向量,所述第二文本对应的第二向量以及所述第三文本对于应的第三向2CN113987112A权利要求书2/3页量;分别计算所述第一向量和所述第二向量之间的第一余弦值,以及所述第一向量与所述第三向量之间的第二余弦值,并基于所述第一余弦值和所述第二余弦值之间的差值调整所述预训练模型,得到语义匹配模型;其中,所述对所述表头文本序列进行遍历,以获得目标字段文本与所述表头文本序列中每一文本的匹配结果,包括:基于所述语义匹配模型对所述表头文本序列进行遍历,以获得目标字段文本与所述表头文本序列中每一文本的匹配结果。6.一种表格信息抽取装置,其特征在于,包括:预处理