预览加载中,请您耐心等待几秒...
1/10
2/10
3/10
4/10
5/10
6/10
7/10
8/10
9/10
10/10

亲,该文档总共16页,到这已经超出免费预览范围,如果喜欢就直接下载吧~

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

(19)中华人民共和国国家知识产权局*CN102169542A*(12)发明专利申请(10)申请公布号CN102169542A(43)申请公布日2011.08.31(21)申请号201010114226.6(22)申请日2010.02.25(71)申请人汉王科技股份有限公司地址100193北京市海淀区东北旺西路8号5号楼三层(72)发明人王琛(51)Int.Cl.G06K9/34(2006.01)权利要求书2页说明书6页附图7页(54)发明名称文字识别中粘连字符的切分方法和装置(57)摘要本发明公开了文字识别中粘连字符的切分方法和装置,属于文字识别领域。方法包括:预处理后获得行图像的连通域、平均字宽和平均字高。进行连通域分析,标记粘连的连通域,对选定的粘连的连通域进行笔画提取,并对粘连的连通域进行切分点检测,获得预切分点,对于非粘连的连通域保存字块。根据预切分点对提取完毕的笔画进行合并,得到字块。保存字块,转到下一连通域进行粘连的判断,直至所有连通域遍历完毕后输出字块序列。根据参考信息对字块进行合并,输出识别结果。本发明依据预切分点对笔画进行合并得到字块,保证了更大范围的切分点被检测到;用轮廓信息预检测切分点的方式作为合并时的参数,避免了正确的切分点被合并而带来的合并错误。CN1026954ACCNN110216954202169547A权利要求书1/2页1.一种文字识别中粘连字符的切分方法,其特征在于,包括如下步骤:对输入的行图像进行预处理,获得行图像的连通域、平均字宽和平均字高;进行连通域分析,标记粘连的连通域,对选定的粘连的连通域进行笔画提取,并对粘连的连通域进行切分点检测,获得预切分点,对于非粘连的连通域直接保存字块;根据预切分点对提取完毕的笔画进行合并,得到字块;保存字块,转到下一连通域进行粘连的判断,直至所有连通域遍历完毕后输出字块序列;根据参考信息对字块进行合并,输出识别结果。2.根据权利要求1所述的方法,其特征在于,所述预处理包括对行图像进行去噪,获得行图像的连通域,分别对连通域的宽度直方图和高度直方图进行平滑,取峰值作为平均字宽和平均字高。3.根据权利要求1所述的方法,其特征在于,所述粘连的连通域为识别距离大于识别阈值或连通域的宽度大于平均字宽的1.5倍或连通域的宽度大于平均字高两倍的连通域。4.根据权利要求3所述的方法,其特征在于,所述对粘连的连通域进行切分点检测时,选取连通域的投影的波谷作为预切分点。5.根据权利要求3所述的方法,其特征在于,所述对粘连的连通域进行笔画提取时,在选定的连通域内逐行对黑游程进行扫描,取当前黑游程在下一行的对应位置处,且始终点位置各偏移一个像素的范围内的所有黑游程,选择这些黑游程中游程中心与笔画的预测中心最近的黑游程作为待选游程,如果待选黑游程的中心与预测中心点的距离误差小于阈值Thr,则将待选黑游程加入到的该笔画的游程列表中,否则当前笔画提取完毕,开始下一笔画的跟踪,直至该连通域内所有笔画提取完毕。6.根据权利要求5所述的方法,其特征在于,所述游程列表的属性中包括游程所在的行、游程的起始点和终止点。7.根据权利要求5所述的方法,其特征在于,所述笔画的预测中心根据当前笔画方向预测得出。8.根据权利要求7所述的方法,其特征在于,所述当前笔画方向根据笔画中的已有游程的中心拟合得出。9.根据权利要求5所述的方法,其特征在于,所述阈值Thr的值为Thr=0.5×a×tan(θ);其中,θ为笔画与竖直方向的夹角,a是笔画的竖直高度。10.根据权利要求1所述的方法,其特征在于,所述对提取完毕的笔画进行合并时,如果两个笔画的外接矩形框在水平方向上相互包含比例在既定阈值之上,且两笔画的中心在预切分点的同侧,则对两笔画以及笔画对应的游程列表进行合并,作为一个字块。11.根据权利要求10所述的方法,其特征在于,所述既定阈值为0.7。12.根据权利要求1所述的方法,其特征在于,所述参考信息为语义和识别信息。13.一种文字识别中粘连字符的切分装置,其特征在于,包括如下模块:预处理模块:对输入的行图像进行预处理,获得行图像的连通域、平均字宽和平均字高;分析模块:进行连通域分析,标记粘连的连通域,对选定的粘连的连通域进行笔画提取,并对粘连的连通域进行切分点检测,获得预切分点,对于非粘连的连通域直接保存字2CCNN110216954202169547A权利要求书2/2页块;合并模块:根据预切分点对提取完毕的笔画进行合并,得到字块;字块输出模块:保存字块,转到下一连通域进行粘连的判断,直至所有连通域遍历完毕后输出字块序列;结果输出模块:根据参考信息对字块进行合并,输出识别结果。3CCNN110216954202169547A说明书1/6页文字识别中粘连字符的切分方法和装置技术领域[0001]本发明属于文字识别