预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共20页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号CN111461132A(43)申请公布日2020.07.28(21)申请号202010304296.1(22)申请日2020.04.17(71)申请人支付宝(杭州)信息技术有限公司地址310000浙江省杭州市西湖区西溪路556号8层B段801-11(72)发明人蔡耀华(74)专利代理机构北京永新同创知识产权代理有限公司11376代理人林锦辉刘景峰(51)Int.Cl.G06K9/34(2006.01)权利要求书3页说明书10页附图6页(54)发明名称用于辅助OCR图像数据标注的方法及装置(57)摘要本说明书的实施例提供用于辅助OCR图像数据标注的方法及装置。在该方法中,在对OCR图像数据进行文本区域检测得到第一文本候选区域集后,基于文本候选区域的区域高度以及文本候选区域的重合关系,从第一文本候选区域集中提取出与其它文本候选区域之间不存在重合的第四文本候选区域。此外,从与其它文本候选区域之间存在部分重合的文本候选区域中确定出代表文本候选区域。此外,输出第四文本候选区域集和代表文本候选区域,作为文本标注框。CN111461132ACN111461132A权利要求书1/3页1.一种用于辅助OCR图像数据标注的方法,包括:对OCR图像数据进行文本区域检测,得到所述OCR图像数据中的第一文本候选区域集;基于文本候选区域的区域高度,将所述第一文本候选区域集划分为第二文本候选区域集和第三文本候选区域集,第二文本候选区域的区域高度不小于所述第一文本候选区域集的平均区域高度,第三文本候选区域的区域高度小于所述第一文本候选区域集的平均区域高度;基于文本候选区域的重合关系,将所述第二文本候选区域集划分为第四文本候选区域集和第五文本候选区域集,第四文本候选区域是与其它文本候选区域之间不存在重合的文本候选区域,第五文本候选区域是与其它文本候选区域之间存在部分重合的文本候选区域;从所述第五文本候选区域集中的每组重合文本候选区域中确定出代表文本候选区域,得到第六文本候选区域集;以及输出所述第四文本候选区域集和所述第六文本候选区域集中的文本候选区域,作为文本标注框。2.如权利要求1所述的方法,其中,从所述第五文本候选区域集中的每组重合文本候选区域中确定出代表文本候选区域,得到第六文本候选区域集包括:确定所述第四文本候选区域集的整体区域斜率,作为标准区域斜率;针对每组重合文本候选区域,分别计算该组文本候选区域中的各个文本候选区域与距离最近的第四文本候选区域之间的区域斜率,以及将所计算出的区域斜率与所述标准区域斜率差距最小的文本候选区域,确定为该组重合文本候选区域的代表文本候选区域。3.如权利要求1所述的方法,其中,在将所述第一文本候选区域集划分为第二文本候选区域集和第三文本候选区域集之前,所述方法还包括:对所述第一文本候选区域集中的第一文本候选区域进行重叠合并处理。4.如权利要求1所述的方法,其中,在将所述第二文本候选区域集划分为第四文本候选区域集和第五文本候选区域集之前,所述方法还包括:从所述第二文本候选区域集中去除区域斜率大于预定阈值的文本候选区域。5.如权利要求1所述的方法,其中,在将所述第二文本候选区域集划分为第四文本候选区域集和第五文本候选区域集之前,所述方法还包括:从所述第二文本候选区域集中搜索出所述第三文本候选区域集中的各个第三文本候选区域的邻居区域;以及将与所述邻居区域之间存在重合的第三文本候选区域,添加到所述第二文本候选区域集中。6.如权利要求1所述的方法,还包括:提取所述文本标注框中的各个文本候选区域的文本特征点;基于所提取的各个文本候选区域的文本特征点,确定所述文本标注框的倾斜度;以及根据所述文本标注框的倾斜度,对所述文本标注框进行旋转校正。7.如权利要求1所述的方法,还包括:2CN111461132A权利要求书2/3页对所述OCR图像数据进行二值化处理。8.一种用于辅助OCR图像数据标注的装置,包括:文本区域检测单元,对OCR图像数据进行文本区域检测,以得到所述OCR图像数据中的第一文本候选区域集;第一区域划分单元,基于文本候选区域的区域高度,将所述第一文本候选区域集划分为第二文本候选区域集和第三文本候选区域集,第二文本候选区域的区域高度不小于所述第一文本候选区域集的平均区域高度,第三文本候选区域的区域高度小于所述第一文本候选区域集的平均区域高度;第二区域划分单元,基于文本候选区域的重合关系,将所述第二文本候选区域集划分为第四文本候选区域集和第五文本候选区域集,第四文本候选区域是与其它文本候选区域之间不存在重合的文本候选区域,第五文本候选区域是与其它文本候选区域之间存在部分重合的文本候选区域;代表文本区域确定单元,从所述第五文本候选区域集中的每组重合文本候选区域