预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

脱机手写中文识别中粘连文本行的切分与提取 【英文题名】SegmentationofTextLinesinOff-LineChineseHandwrittenCharacterRecognition 【作者中文名】周宇; 【导师】张田文; 【学位授予单位】哈尔滨工业大学; 【学科专业名称】计算机科学与技术 【学位年度】2007 【论文级别】硕士 【基金】黑龙江省自然科学基金; 【关键词】手写汉字识别;文本行切分;评价函数; 【英文关键词】handwrittenChineserecognition;segmentationoftextlines;evaluationfunction; 【中文摘要】汉字作为中华民族上千年文化的结晶,在社会发展中一直起着重大的作用,实现手写文档的电子化具有非常重要的意义。文字识别是指利用计算机自动辨别在纸或其他介质上的文字的过程。文字识别分为脱机文字识别和联机文字识别两种,主要研究脱机中文手写文字识别。中文文字识别与英文文字识别有很大的区别,并且中文文字识别的发展滞后于英文文字识别。从英文文字识别的发展历程来看,中文手写识别应该从现有的单字识别扩展到语句级识别,其中需要解决许多重要问题。现有文本库均为单字库,没有支持非单字识别的文本库,因此建立了中文文本库HIT-MW。此文本库是以文本页为基本单位的,识别之前需要将其切分为文本行,这正是本文完成的主要工作。首先通过直接水平全局投影、小角度纠斜、再次水平全局投影、局部投影四步以获得粘连文本块数据集。之后对粘连文本块数据集进行了全面详细的分析,并按照难易程度将其分为四类子数据集:两行文字易切分文本块、两行文字难切分文本块、两行文字粘连文本块和三行或更多行文字文本块,对各类数据集采取不同的策略。然后对文本块进行背景骨架化。对能够直接获得候选切分路径的数据集,研究了判别最优切分路径的评价函数;对不能获... 【英文摘要】ChinesecharacteristhecrystallizationofChinesenationforthousandsofyearsandhasbeenplayingaveryimportantroleinthedevelopmentofoursociety.Itisofgreatimportancetodigitalizethehandwrittendocuments.OpticalCharacterRecognition(OCR)isafastandautomaticinputforcharacter.Characterrecognitioncontainson-lineandoff-linecharacterrecognition,andwefocusontheoff-lineChinesecharacterrecognition.ChinesecharacterrecognitionisverydifferentfromEnglishcharacte... 摘要4-5 Abstract5 第1章绪论8-17 1.1研究计算机识别文字的目的及意义8-9 1.2汉字识别的问题与困难9-11 1.2.1汉字的特点与识别难点9-11 1.2.2手写体汉字的特点与识别难点11 1.3汉字识别研究的发展历程11-13 1.4汉字识别技术研究现状及发展趋势13-14 1.5论文背景及研究的主要内容及意义14-16 1.5.1论文背景15 1.5.2论文研究的主要内容15 1.5.3论文研究的主要意义15-16 1.6本章小结16-17 第2章粘连汉字切分方法的研究17-22 2.1引言17 2.2切分算法17-19 2.2.1基于结构特征的算法17-18 2.2.2滴水算法18 2.2.3基于细化的算法18 2.2.4储水池算法18-19 2.2.5基元合并算法19 2.3切分路径评价方法19-20 2.3.1决策树19-20 2.3.2混合高斯概率函数20 2.3.3贝叶斯置信网络20 2.4本章小结20-22 第3章文本行切分实验数据获得与分析22-32 3.1引言22-23 3.2文本库HIT-MW简介23-25 3.2.1HIT-MW的收集目的23-25 3.3实验数据的获得25-29 3.3.1原始数据处理步骤26-28 3.3.2数据统计28-29 3.4实验数据分析29-31 3.4.1两行文字易切分文本块集29-30 3.4.2两行文字难切分文本块集30 3.4.3两行文字粘连文本块集30-31 3.4.4三行或更多行文字文本块集31 3.5本章小结31-32 第4章粘连文本行切分与提取32-42 4.1引言32-33 4.2主要研究内容简介33 4.3文本块背景骨架化33-35 4.4寻找候选切分路径35-37 4.5最优路