预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共25页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN113723347A(43)申请公布日2021.11.30(21)申请号202111056347.4(22)申请日2021.09.09(71)申请人京东科技控股股份有限公司地址100176北京市北京经济技术开发区科创十一街18号C座2层221室(72)发明人唐铭蔚周柏村(74)专利代理机构北京华夏泰和知识产权代理有限公司11662代理人李永叶(51)Int.Cl.G06K9/00(2006.01)G06K9/32(2006.01)G06K9/62(2006.01)权利要求书3页说明书14页附图7页(54)发明名称信息提取的方法、装置、电子设备及存储介质(57)摘要本公开涉及一种信息提取的方法、装置、电子设备及存储介质,上述方法包括:对待处理图像进行文本识别,得到上述待处理图像中的文本行的文本信息;根据上述文本信息,将上述待处理图像与模板图像进行匹配,得到映射关系矩阵;上述模板图像与上述待处理图像的版式相同;根据上述映射关系矩阵,在上述待处理图像中确定:与上述模板图像中预设的待识别区域相对应的目标识别区域;上述待识别区域涵盖选中属性字段且具有预留空间,上述目标识别区域涵盖与上述选中属性字段相对应的目标属性字段;以及对上述目标识别区域内的文本信息进行提取,得到用于与上述目标属性字段匹配的参数信息提取结果。CN113723347ACN113723347A权利要求书1/3页1.一种信息提取的方法,其特征在于,包括:对待处理图像进行文本识别,得到所述待处理图像中的文本行的文本信息;根据所述文本信息,将所述待处理图像与模板图像进行匹配,得到映射关系矩阵;所述模板图像与所述待处理图像的版式相同;根据所述映射关系矩阵,在所述待处理图像中确定:与所述模板图像中预设的待识别区域相对应的目标识别区域;所述待识别区域涵盖选中属性字段且具有预留空间,所述目标识别区域涵盖与所述选中属性字段相对应的目标属性字段;以及对所述目标识别区域内的文本信息进行提取,得到用于与所述目标属性字段匹配的参数信息提取结果。2.根据权利要求1所述的方法,其特征在于,所述文本信息包括:文本位置信息和文本内容信息;其中,所述根据所述文本信息,将所述待处理图像与模板图像进行匹配,得到映射关系矩阵,包括:获取模板图像中固定字段的内容信息和位置信息;根据所述固定字段的内容信息,从所述待处理图像的文本行中筛选出文本内容信息与所述内容信息一致的锚点文本行;计算所述固定字段的位置信息映射至所述锚点文本行的文本位置信息的坐标变换关系,得到映射关系矩阵。3.根据权利要求2所述的方法,其特征在于,所述获取模板图像中固定字段的内容信息和位置信息,包括:从预先设置好固定字段的模板图像中提取所述固定字段的内容信息和位置信息;或者;接收在所述模板图像中设置固定字段的第一设置信息;在接收到所述第一设置信息的情况下,根据所述第一设置信息来提取所述模板图像中固定字段的内容信息和位置信息。4.根据权利要求1所述的方法,其特征在于,其中,所述对所述目标识别区域内的文本信息进行提取,得到用于与所述目标属性字段匹配的参数信息提取结果,包括:获取与所述目标识别区域具有位置重叠关系的候选文本行的文本信息;所述文本信息包括:文本位置信息和文本内容信息;以及根据所述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取,得到用于与所述目标属性字段匹配的参数信息提取结果。5.根据权利要求4所述的方法,其特征在于,所述根据所述候选文本行的文本位置信息和文本内容信息中的至少一种信息进行提取,得到用于与所述目标属性字段匹配的参数信息提取结果,包括:根据所述候选文本行的文本位置信息,计算所述候选文本行与所述目标识别区域的交叠率;确定最高交叠率对应的候选文本行的文本内容信息为参数信息提取结果;或者,根据所述候选文本行的文本内容信息,与所述目标属性字段的语义进行格式或数值范围至少一种的正则匹配,得到参数信息提取结果;或者;根据所述候选文本行的文本位置信息,计算所述候选文本行与所述目标识别区域的交叠率;根据所述候选文本行的文本内容信息,确定所述候选文本行与所述目标属性字段的2CN113723347A权利要求书2/3页语义之间的匹配度;对所述交叠率和所述匹配度进行加权计算,得到候选分值;确定最高候选分值对应的候选文本行的文本内容信息为参数信息提取结果。6.根据权利要求1所述的方法,其特征在于,在对所述目标识别区域内的文本信息进行提取之前,还包括:确定与所述目标识别区域具有位置重叠关系的候选文本行的清晰度是否满足预设要求;在所述候选文本行的清晰度不满足预设要求的情况下,对所述候选文本行进行图像处理,得到清晰度符合预设要求的候选文本行,以对所述清晰度符合预设要求的