预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

第26卷计算机应用Vol_26 2006年6月ComputerApplicationsJune2006 文章编号:1001—9081(2006)06Z—o024一O3 大字符集脱机手写体汉字识别粗分类问题 童学锋,朱俊 (同济大学计算机科学与工程系,上海200092) (tong98k@online.sh.cn) 摘要:以HCL2000手写汉字库为基础,构建了一个实验系统,对一级汉字库3755个汉字,使用 不同的汉字特征和不同的分类距离,进行了一系列比较实验,探讨了大字符集脱机手写体汉字识别的 粗分类问题,得到了一些有用的结论。 关键词:大字符集;手写体;汉字识别;粗分类 中图分类号:TP391.41文献标识码:A 法,实践证明,该算法速度较快,效果较好(如图3所示)。 0引言 随着计算机应用的日益普及,信息的自动化输入已成为 必然趋势,因此,实现手写体汉字的自动识别无疑具有重要的 实用价值。目前汉字的印刷体识别和联机手写体识别问题都 得到了很好的解决,已有产品问世,并受到用户的欢迎。对脱图2HCL2000手写体汉字库示例 机手写体汉字识别来说,由于字形变化大、稳定的特征难以提,i 取、结构信息难以利用等特点,使得对它的识别难度非常大, 目前仅在小字符集方面取得了令人满意的成果,但对大字符 集来说,仍在进行研究。针对大字符集汉字数量多的问题,一 般采用多级分类的方法,即先粗分类,然后再细分类。本文以图3索引表细化算法示例 HCL2000手写汉字库为基础,构建了一个实验系统,对大字符1.3特征提取 集脱机手写体汉字识别粗分类中的一些问题进行了探讨。我们采用了常见的投影特征、网格点阵特征、方向线素特 1系统的设计与实现征和这几种特征构成的组合特征。经过预处理后,不同的汉 字库转换成了统一的位图结构,使得特征提取模块的重用成 1.1系统框架为可能。在程序设计上,不同的特征提取子类都继承自同一 个完整的脱机手写体汉字识别系统7个部分组成,其 一个父类。这样,可以在不改变程序结构的前提下改变系统提 总体框架如图1所示。取特征的种类。 为了将不同的特征组合起来形成新的特征,增加了一个 特殊的子类,该子类有一个特征类容器,可以存放各个子类的 指针,这样,容器中不同的子类指针组合就形成的不同的组合 图1大字符集脱机手写体汉字识别系统特征类。 实验系统采用VC++6.0设计,硬件平台为赛扬2.4G,在设计小字符集脱机手写体汉字识别系统的时候,可以 512M内存,80G硬盘,操作系统平台是Windows2000在每次训练和识别的时候提取特征。对于大字符集汉字识别 Professional。手写体汉字库HCL2000(HandwrittenCharacter系统来说,由于系统的数据量非常大,往往要提取上万甚至上 Library2000)是清华大学和北京邮电大学的研究人员历时2十万、百万的特征,因此,如果每次在内存中重新提取,将耗费 年多时间建立的手写体汉字库,一共3755个汉字,每个汉字不少时间,如果一次性的提取,然后将特征向量保存下来,形 有500个样本。汉字图像数据为64×64点阵,点阵按比特存成特征向量库,以后再直接读取,将在很大程度上能提高系统 储,压缩为512字节(64×8)。的总体性能。 1.2预处理1.4粗分类器 在HCL2000手写体汉字信息库中,汉字已经经过位置和粗分类有两种方法,一种是静态的,将一级字库的3755 大小的归一化处理,但是有些汉字,比如“一”字,在HCL2000个汉字粗分成若干个大类,每个大类包含若干个汉字,这时粗 汉字库中的图像非常不好,另外一些汉字的粗细各不相同(如分结果集是固定的;另一种是动态的,根据待识别汉字的特 图2所示),因此有必要采取细化处理。不同的细化算法效果征,将其与字典中的标准特征进行匹配,通过相似度度量,找 不一,速度也相差很多。本系统选取了基于索引表的细化算出与其最接近的Ⅳ个汉字作为粗分结果集,这时粗分结果集 收稿日期:2005—10—08 作者简介:童学锋(1963一),男,湖北人,教授,主要研究方向:模式识别、智能控制;朱俊(1980一),男,上海人,硕士研究生,主要研究方 向:模式识别、智能控制.