预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于笔画的脱机手写体汉字识别与研究 一、问题描述 中文汉字作为世界上最复杂的文字之一,其识别一直以来是计算机视觉领域的重点研究。针对手写体汉字的识别问题,现有的电子文字识别技术虽然已经具备较高的识别准确率,但其对计算资源和网络方面的要求较高,且需要在线连接进行文字识别,无法满足离线识别的需求。因此,结合笔画特征开展基于笔画的脱机手写体汉字识别研究已成为研究热点。 二、研究现状 目前,针对基于笔画的脱机手写体汉字识别,研究主要包括以下方面: 1.笔画分割 笔画分割是基于笔画的脱机手写体汉字识别的第一步。主要是将手写体汉字转换为笔画序列,分割出各个笔画。目前,笔画分割方法主要分为两类,即基于轮廓和基于特征点的方法。基于轮廓的方法需要预处理二值化图像,通过轮廓提取将汉字分为多个部分,并完成笔画分割。基于特征点的方法则将特征点作为分割时的标志,通过识别特征点的位置完成笔画分割。两种方法各有优缺点,目前正在针对其中存在的问题进行改进与优化。 2.特征提取 特征提取是脱机手写体汉字识别中最关键的步骤。目前,特征提取方法主要包括经典特征提取法、深度学习特征提取法和基于笔画的特征提取法等。经典特征提取法主要包括传统的形态学特征、灰度共生矩阵法、笔画压缩编码法等,这些方法已经成为手写体汉字识别的经典方法。深度学习特征提取法则利用深度学习算法将汉字图像转换为特征向量,使识别精度得到了很大提高。基于笔画的特征提取法主要针对汉字笔画的形态特征进行提取,包括笔画方向、长度、夹角等信息。这些方法在笔画识别领域中表现出较大的优势。 3.分类识别 基于特征的分类识别是脱机手写体汉字识别的最后一步,通过对提取的特征进行分类,从而实现识别汉字的目的。分类器常用的有SVM、随机森林、人工神经网络等。 三、研究方法 基于笔画的脱机手写体汉字识别,其主要流程包括图像预处理、笔画分割、特征提取、分类识别等步骤。 1.图像预处理 图像预处理主要包括去除噪声、二值化、尺寸归一化等步骤。手写体汉字的图像往往含有很多噪声,需要通过滤波等方法进行去除。二值化则将灰度图像转换为黑白图像,消除汉字笔画上下游移时可能出现的重叠现象。尺寸归一化则将不同大小的汉字图像进行统一的处理,有利于特征提取及分类识别。 2.笔画分割 笔画分割主要包括基于轮廓和基于特征点的方法。前者通过轮廓提取和分割来实现,后者则利用汉字笔画的拐点、端点等特征点完成笔画的分割。基于特征点分割法可以更好地保留汉字笔画的形态特征信息,因此在本文中使用基于特征点的分割方法。 3.特征提取 特征提取是本文中最核心的内容,主要包括基于笔画的特征提取和深度学习特征提取法。基于笔画的特征提取法通过获取汉字笔画的形态信息,分析其方向、长度、夹角等特征,来提取汉字的特征向量。深度学习特征提取法则采用卷积神经网络(CNN)等深度学习模型,通过学习汉字图像的特征向量来实现特征提取。 4.分类识别 分类识别主要利用SVM分类器等模型进行学习训练,对待识别的中文汉字进行分类,从而实现识别的过程。 四、实验分析 本文基于CASIA中文手写数据集,对基于笔画的脱机手写体汉字识别方法进行实验验证。具体实验步骤如下: 1.数据预处理:将CASIA中文手写数据集进行处理,实现图像预处理与汉字笔画分割。 2.特征提取:在处理好的汉字图像中提取汉字笔画的形态特征,包括笔画方向、长度、夹角等信息。 3.分类识别:利用SVM分类器对汉字进行分类识别。最后,实验结果分析和评估,以评估所提出方法的有效性和识别准确率。 实验结果显示,本文所提出的基于笔画的脱机手写体汉字识别方法,在准确率和实时性方面均具有一定优势,可以较好地实现手写体汉字的离线识别。 五、结论 本文提出了一种基于笔画的脱机手写体汉字识别方法,通过提取汉字笔画的形态信息,利用SVM分类器等模型进行分类识别,实现手写体汉字的离线识别。实验结果表明,本文所提出的基于笔画的脱机手写体汉字识别方法,具有较高的识别准确率和实时性,能够应用于汉字识别的实际应用场景中。但同时也存在一些问题需要进一步改进和优化,如笔画分割存在错误率较高的问题、特征提取部分缺乏纵向信息的利用等。针对这些问题,需要进一步深入研究和探讨。