预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113887401A(43)申请公布日2022.01.04(21)申请号202111155487.7(22)申请日2021.09.29(71)申请人北京搜狗科技发展有限公司地址100084北京市海淀区中关村东路1号院9号楼搜狐网络大厦9层01房间(72)发明人赵志勇苏雪峰李轩任辉黄恺曹润东(74)专利代理机构北京集佳知识产权代理有限公司11227代理人储倩(51)Int.Cl.G06K9/00(2006.01)G06N20/00(2019.01)G06T5/30(2006.01)权利要求书2页说明书10页附图3页(54)发明名称一种表格识别方法及装置(57)摘要本申请公开了一种表格识别方法,可以首先获取包括表格的第一图像,通过腐蚀和膨胀技术确定所述第一图像中表格线,腐蚀和膨胀技术可以避免将第一图像中的噪声识别成表格线。并且,将所述第一图像中包括的文本的平均高度和/或最大高度设置为腐蚀和膨胀技术的参数,可以避免将第一图像中文本中的横线笔画以及竖线笔画误识别为表格线。另外,由于利用腐蚀和膨胀技术得到的表格线可能存在曲线,因此,可以进一步对所述表格线进行直线拟合,得到拟合后的表格线,并根据所述拟合后的表格线绘制得到目标表格,并输出所述目标表格。由此可见,在本方案中,所述拟合后的表格线比较准确,从而利用所述拟合后的表格线绘制得到的目标表格也比较准确。CN113887401ACN113887401A权利要求书1/2页1.一种表格识别方法,其特征在于,所述方法包括:获取包括表格的第一图像;通过腐蚀和膨胀技术确定所述第一图像中表格线,所述腐蚀和膨胀技术的参数包括:所述第一图像中包括的文本的平均高度和/或最大高度;对所述表格线进行直线拟合,得到拟合后的表格线;根据所述拟合后的表格线绘制得到目标表格,并输出所述目标表格。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:利用光学字符识别OCR技术,确定所述第一图像中包括的文本;确定所述文本的平均高度和/或最大高度。3.根据权利要求1所述的方法,其特征在于,所述根据所述拟合后的表格线绘制得到目标表格,包括:根据所述拟合后的表格线和图像边缘轮廓处理技术,识别单元格;绘制识别得到的所述单元格,得到所述目标表格。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:利用OCR技术对所述第一图像进行处理,确定所述单元格缺失的边界线;将所述单元格缺失的边界线补充完整,得到处理后的单元格;所述绘制识别得到的所述单元格,包括:绘制所述处理后的单元格。5.根据权利要求1所述的方法,其特征在于,所述获取包括表格的第一图像,包括:获取包括表格的第二图像,并识别出所述第二图像中的斜线;计算所述斜线与横轴方向的夹角;根据所述夹角对所述第二图像进行旋转,得到所述第一图像。6.一种表格识别装置,其特征在于,所述装置包括:获取单元,用于获取包括表格的第一图像;第一确定单元,用于通过腐蚀和膨胀技术确定所述第一图像中表格线,所述腐蚀和膨胀技术的参数包括:所述第一图像中包括的文本的平均高度和/或最大高度;拟合单元,用于对所述表格线进行直线拟合,得到拟合后的表格线;绘制单元,用于根据所述拟合后的表格线绘制得到目标表格;输出单元,用于输出所述目标表格。7.根据权利要求6所述的装置,其特征在于,所述装置还包括:第二确定单元,用于利用光学字符识别OCR技术,确定所述第一图像中包括的文本;第三确定单元,用于确定所述文本的平均高度和/或最大高度。8.根据权利要求6所述的装置,其特征在于,所述绘制单元,用于:根据所述拟合后的表格线和图像边缘轮廓处理技术,识别单元格;绘制识别得到的所述单元格,得到所述目标表格。9.根据权利要求8所述的装置,其特征在于,所述装置还包括:第四确定单元,用于利用OCR技术对所述第一图像进行处理,确定所述单元格缺失的边界线;处理单元,用于将所述单元格缺失的边界线补充完整,得到处理后的单元格;所述绘制单元,用于:绘制所述处理后的单元格。2CN113887401A权利要求书2/2页10.根据权利要求6所述的装置,其特征在于,所述获取单元,用于:获取包括表格的第二图像,并识别出所述第二图像中的斜线;计算所述斜线与横轴方向的夹角;根据所述夹角对所述第二图像进行旋转,得到所述第一图像。11.一种表格识别装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行如权利要求1至5任意一项所述的表格识别方法。12.一种计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行权利要求1至5任意一项所述的表格识别方法。3CN