预览加载中,请您耐心等待几秒...
1/7
2/7
3/7
4/7
5/7
6/7
7/7

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

场景文本提取方法应用研究论文摘要场景图像中的文本提供了重要的语义信息它是图像内容的重要来源。针对当前的求解算法普遍存在提取文本精确度不高等缺点本文提出了一种有效的文本提取方法。首先对原始图片进行模糊化处理然后进行Laplacian边缘提取和二值化再形态学变化最后进行连通域分析实现了场景文本的提取。关键词文本提取;边缘检测;二值化;连通域分析0引言随着计算机、多媒体以及通讯技术的飞速发展相当数量的文字信息正越来越多地以图像形式出现[1]。图像中的文字是图像内容的一个重要来源如果这些文字能自动地被检测、分割、识别出来则对图像语义的自动理解、索引和检索是非常有价值的[4]。图像文本可以分为人工文本和场景文本。人工文本是指人工加在图像上的文本场景文本是图像上本身存在的文本如广告牌或运动员球衣上的号码等。由于场景文本图像具有较为复杂的背景同时受光线和文本的字体、颜色、位置等因素影响较大往往很难被检测、提取和识别因此自动从场景中提取文本是一项极具挑战性的工作。目前已有的文本区域提取方法大致可以分为三类:基于连通域的方法基于纹理的方法和基于边缘的方法[2]。基于连通域的方法速度快但是当背景复杂或文本与背景颜色相近时分割困难而基于纹理的方法非常费时而且处理复杂背景时误报比较多。本文根据场景中的文本区域与背景对比度强存在丰富的边缘信息因此选择基于边缘检测的文本提取方法对场景文本的提取进行研究。首先对原始图像进行模糊化处理然后用Laplacian边缘提取降噪再进行形态学变化最后连通域分析从而实现场景文本的提取。实验表明本文的文本提取方法具有较高的正确率边界定位较准确。1场景图像文本的提取过程1.1图像预处理由于光照等环境因素的影响在图像上会产生许多噪声又考虑到Laplacian算子去噪能力较差因此本文在预处理时先对原始图像进行模糊化滤除图像中的部分噪点。本文用的是3*3的卷积来进行连续模糊。1.2边缘检测与二值化边缘检测是所有基于边界分割方法的第一步。两个具有不同灰度值的相邻区域之间总存在着边缘。由于场景中文本和背景视觉反差较大且文本区域具有相当大的一个宽度与此同时场景文本笔画边缘明显所以利用边缘检测方法可以较好地提取出场景中的文本边缘。本文采用的是基于二阶微分算子的Laplacian边缘检测算子。该方法对图像中的阶跃型边缘点定位准确且具有旋转不变性的特点即各向同性的性质。而场景文本正好具有阶跃型边缘的特性所以说Laplacian算子较适合场景文本的提取。其表达式为:(1-1)使用的Laplacian算子模板如图所示:图1拉普拉斯算子从边缘检测结果来看在引入经过模糊处理后的Laplacian算子能够在不影响文本边缘提取的前提下能取得很好的去噪效果。缺点是对光线影响较强和质量较差的图片处理过程中损失较大。边缘图像的二值化是很重要的问题如果阈值过大可能会漏掉一些文字边缘而阈值过小则可能会使较多的非文字边缘被当作文字边缘处理导致误检较多。本文针对不同图像采用整体阈值二值化用最小误差方法求分割阈值。这主要是由于整体阈值算法简单时间开销小选择合适的阈值可以取得较好的效果。而且用最小误差方法求整体阈值的算法可以较好地分离背景和文字。1.3形态学运算形态学将图像信号与几何形状联系起来利用结构元素的探针收集图像的信息。形态学运算能够对图像上的物体做形状等方面的限制常用于目标检测等。本文用形态学中的开闭运算和腐蚀膨胀的方法来检测二值边缘密度图像上的文本矩形区域。形态学运算包括以下两步:(1)对二值化的边缘密度图像做7个象素宽度的水平闭运算连接字符笔画形成矩形区域;再做15个象素宽度的水平开运算去除孤立的背景;(2)形态学后处理(即在连通域分析后进行的二次形态学运算):对每个连通域做δ度的膨胀运算和度的腐蚀运算。ε其定义如下:δ=min(hw/8)(1-2)ε=w/4(1-3)其中hw分别对应连通域的高度和宽度。通过第一步形态学运算去除部分背景区域将相连的背景和文本分开;第二步形态学运算后图像上只剩下部分规则的矩形区域。实验表明通过以上两步形态学运算能比较准确的得到文本矩形区域。1.4连通域分析虽然以上方法可删除大量的非文本区域但结果中可能还存在不包含文本的矩形区域。因此有必要对二值图像做连通域分析。连通域算法是指从二值图像中标记出所有像素连通的区域。本文的连通域分析指的是8连通。该方法步骤如下:(1)将原始图像变换为行连通单元图像如图2(b)所示此时不考虑不同行之间的连