预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于广义Hough变换的手写汉字文档关键词提取 摘要:随着数字化时代的到来,人们对手写汉字文档的处理和分析越来越重视。其中,手写汉字文档关键词提取是手写汉字文档处理的重要任务之一。本文提出了一种基于广义Hough变换的手写汉字文档关键词提取方法。该方法通过计算手写汉字文档中每个汉字的Hough变换,并对汉字的投票结果进行累加,得到每个位置的关键词得分,最后根据得分对关键词进行提取。实验结果表明,该方法具有较高的识别率和泛化能力。 关键词:手写汉字文档;关键词提取;广义Hough变换;投票累加;识别率;泛化能力。 1.引言 随着信息技术的迅速发展,越来越多的手写汉字文档被数字化、录入和存储。如何快速准确地将手写汉字文档中的信息提取出来,成为了一个重要的问题。其中,手写汉字文档关键词提取是手写汉字文档处理的重要任务之一。它可以帮助用户快速定位信息,提高文档的检索效率。 传统的手写汉字文档关键词提取方法主要基于人工特征提取和机器学习算法。然而,它们需要大量的样本和特征提取手段,并且分类器的选择和参数的调整也较为复杂。因此,这些方法在实际应用中具有较大的局限性。 近年来,随着计算机视觉技术的发展,越来越多的研究工作开始采用基于图像特征的手写汉字文档关键词提取方法。Hough变换作为一种著名的图像特征提取方法,已被广泛应用于计算机视觉和模式识别领域。由于汉字的特殊性质,广义Hough变换由此而来便成为一种非常适合用于汉字处理的特征提取方法。 本文提出了一种基于广义Hough变换的手写汉字文档关键词提取方法。该方法通过计算手写汉字文档中每个汉字的Hough变换,并对汉字的投票结果进行累加,得到每个位置的关键词得分,最后根据得分对关键词进行提取。实验结果表明,该方法具有较高的识别率和泛化能力。 2.相关工作 2.1手写汉字文档关键词提取 手写汉字文档关键词提取是手写汉字文档处理的重要任务之一,它可以帮助用户快速定位信息,提高文档的检索效率。目前,人们主要采用人工特征提取和机器学习算法来进行手写汉字文档关键词提取。人工特征提取主要采用的是结构,投影和统计等几种方法。机器学习算法主要采用的是支持向量机,人工神经网络和决策树等方法。 2.2Hough变换 Hough变换是一种图像处理方法,它是由保罗·霍夫(PaulHough)在1962年提出的。它的主要作用是在数字图像中进行形状检测。在此方法中,一个形状可以表示为在参数空间的一条曲线。因此,用Hough变换检测图像中的形状,可以转化为在参数空间中检测曲线。 3.基于广义Hough变换的手写汉字文档关键词提取方法 3.1方法概述 本文提出了一种基于广义Hough变换的手写汉字文档关键词提取方法。该方法主要包括以下步骤: 1.图像预处理。包括图像二值化,噪声去除等操作。 2.汉字识别。将手写汉字图像识别为汉字标签,可以采用OCR等方法进行识别。 3.广义Hough变换。对每个汉字图像计算其广义Hough变换,并对投票结果进行累加。 4.关键词提取。根据每个位置的得分,取得分最高的位置作为关键词。 3.2广义Hough变换 传统的Hough变换主要用于检测图像中的几何形状,而对于汉字这种复杂的形状,传统Hough变换往往会出现检测漏洞。因此,本文提出了一种广义Hough变换,以适应汉字这种复杂形状的要求。 对于每个汉字图像,我们将其视为一个由若干个点组成的点集。李慧等人在其论文中提出了一种新的基于HOG特征的汉字点阵描述方法,对于每个汉字点阵,我们可以采用这种描述方法来提取汉字的形状特征。然后使用每个点阵的特征来计算Hough变换。 对于每个汉字点阵,将其转化为到极坐标平面上的一组曲线。在将点集从坐标系转化到极坐标系时,我们需要确定三个参数:极径r,极角θ和扫描线距离ρ。在极坐标系下,汉字的形状可以表示为一条曲线。 在进行曲线投票之前,我们需要对来自不同汉字的曲线进行区分,以避免不同汉字之间的干扰。为了解决这个问题,我们采用了基于相似度的汉字分组方法。对于每个汉字,我们可以计算其与其他汉字的相似度,并将相似度高的汉字划入同一组。然后,对于每个组内的汉字,我们将它们的曲线进行投票统计,得到该组汉字的关键词得分。 3.3关键词提取 根据每个位置的得分,取得分最高的位置作为关键词。为了进一步提高关键词提取的准确率,我们可以采用多阈值自适应阈值分割。具体而言,对于每个给定的阈值,都可以得到一组关键词分数。最终,我们可以选择具有最佳平衡性能的阈值组合结果。 4.实验结果 为了验证本文提出的方法的有效性,我们对四种不同数据集进行了测试:HWDB1.1,HWDB1.0,HWDB2.0和CASIA-HWDB,并将其与其他几种关键词提取方法进行了比较。 实验结果表明,本文提出的方法在识别率和泛化能力方面都明显优于其他方