预览加载中,请您耐心等待几秒...
1/6
2/6
3/6
4/6
5/6
6/6

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于最大类间方差法的文本图像二值化处理刘剑飞石翔宇杜子俊孙源辰王敬烜摘要:针对低质量的退化文档存在文字污染、受自然侵蚀等情况提出一种基于背景估计和最大类间方差法的二值化算法。首先对原图用加权平均值与平均值混合法灰度化进行预处理;然后对灰度化处理后的图像进行两次形态学闭操作估计图像背景计算背景估计图与灰度图的绝对差值确定前景像素候选点取反再对图像进行对比度增强得到背景删减图;最后利用最大方差类间法进行二值化处理。实验结果表明本文算法的综合性能优于传统的最大类间方差二值化算法从视觉效果来看本文算法的二值分割较为精准提升了经典算法处理受污染文档图像的精确度。关键词:文本图像二值化;灰度化;背景估计;最大类间方差法一绪论1.1算法研究背景及意义文字是人类文明传承的媒介如今随着科学的飞速发展信息流通方式不再拘泥于纸张人们可以通过获取大量数字化的文本信息。古典书籍受外界物理条件或人为因素的影响使得珍贵文献难以保存研究机构将书籍电子化相比于传统文档具有更环保、传播范围更广以及耐储存的优势。二值化属于数字图像处理的基础技术已被应用于医学影像分析、工业缺陷检测、光学字符识别、遥感图像观测以及智能交通管理等领域。图像二值化将关键信息与背景分离从而达到排除干扰、减少分析量的目的。一种优秀的图像二值化解决方案在光学字符识别以及复杂背景图像分割领域中均起到关键作用诸多形态学图像分割算法需要将二值图像的轮廓作为输入以便分析前景信息因此二值化准确率对后续的解析与识别有较大关联性。受到外界或人为因素的影响文档图像存在多种退化因素如古籍文档在发掘时遭受到自然的侵蚀使得文字被模糊与浸染在拍摄、扫描文档时现场光照分布不均匀导致文字信息与背景区分度较小。虽然文档图像二值化已被研究多年但针对不同类型的退化情况建模难度较大因此历史文档图像阈值处理方法仍然需要不断地优化改进。考虑到现有图像二值化算法的局限性未能适用多种类型的退化情况因此要找到一种拥有语言通用性更强、鲁棒性更高的文档图像二值化算法具有重要的实际应用意义。1.2二值化国内外研究现状低质量历史文档图像二值化成为近年来国内外研究的关注热点目前文档图像二值化依据阈值计算方式不同大致分全局阈值分割法、局部阈值分割法和混合阈值分割法。由于低质量历史文档图像含有多种退化因素各种二值化方法都未能较好地解决二值分割问题因此历史文档图像二值化算法仍是研究的难点。1.3研究内容及创新点本文针对退化文本存在污染的问题提出了一种结合加权平均值与平均值混合法灰度化、背景估计和最大类间方差法的退化文本图像二值化的处理方法。二算法介绍2.1算法框架2.2加权平均值与平均值混合法灰度化数字图像通过颜色空间模型承载图像的信息分布如一幅彩色的扫描文档图像如图2.2所示。灰度化算法能够将高维数据映射至低维空间并通过单维度图像的梯度特征结构反映出原始图像的颜色信息避免依次处理图像各通道分量从而降低算法冗余度。目前灰度化算法有最大值法、平均值法、加权平均法等本文采用加权平均与平均值混合法对图像进行灰度化处理。相较传统的最大值法、平均值法、加权平均值法。图2.3的字符与背景的对比度更加明显同时经过加权平均值与平均值混合法灰度化处理的图像在二值化后字符前景基本保持完整仅有少量噪声。所以本文采用加权平均值与平均值混合法对文档图像做灰度化处理。2.3背景估计低质量文档图像由于含有墨迹浸润、字符褪色等复杂情况造成受污染区域字符与背景之间的灰度值较为接近在墨迹的边缘处产生较强的灰度突变从而导致算法将污渍像素点错判为前景如图2.4所示。本文通过形态学操作背景估计方法削弱污渍对文档图像的影响。2.4图像背景移除图像形态学操作是基于形状的一系列图像处理操作的集合主要是基于集合论基础上的形态学数学。本文采用两次形态学闭操作来对图像进行背景估计。笔画结构属于文档图像独有的特征字符的结构元半径依赖于笔画粗细因此第一次闭操作需要估计出图像的字符宽度本文采用笔画宽度变换方法(StrokeWidthTransformSWT)估计字符宽度。第二次闭操作比第一次闭操作的结构元增加△d。关于△d的选取本文将2008年至2018年国际文本图像二值化竞赛的数据作为训练集依次对进行取值。依据测试结果当△d取1