预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于神经网络的自然场景方向文本检测器 基于神经网络的自然场景方向文本检测器 摘要 本文介绍了一种基于神经网络的自然场景方向文本检测器。该检测器采用了一种新的方法来检测自然场景图片中的文字,该方法使用了一个卷积神经网络和一个循环神经网络,用于提取图片中的特征。此外,为了解决自然场景文字的旋转问题,我们还引入了一种旋转不变性技术。通过实验,我们验证了该检测器的性能优于其他现有的方向文本检测器,尤其是在四个角度上的检测精度。 1引言 随着图片系统技术的不断发展,自然场景文字检测越来越受到关注。然而,由于自然场景环境的复杂性,自然场景文字检测仍然是一个具有挑战性的问题。在复杂的自然场景中,文字出现在不同的位置,且可能是旋转、倾斜、变形等变化。因此,设计一种强大的自然场景文字检测器是非常必要的。 近年来,神经网络在计算机视觉领域的应用得到了广泛的关注。通过深度学习,神经网络已经成为许多计算机视觉任务的首选方法,如物体检测、图像分类、人脸识别等。本文介绍了一种基于神经网络的自然场景方向文本检测器。该检测器使用了一种新的方法来检测自然场景图片中的文字,该方法采用了一个卷积神经网络和一个循环神经网络来提取图片中的特征。此外,为了解决自然场景文字的旋转问题,我们还引入了一种旋转不变性技术。通过实验,我们验证了该检测器的性能明显优于其他现有的方向文本检测器,尤其是在四个角度上的检测精度。 2相关工作 相关研究的常见方法通常分为基于区域的方法和基于全局的方法。基于区域的方法通常使用滑动窗口来搜索所有可能的文字区域,然后对候选区域进行分类,以区分文本和非文本区域。这种方法存在计算复杂度高、候选区域依赖于窗口大小的问题。近年来,基于深度神经网络的区域检测方法已取得了很大的成功,如FasterR-CNN和SSD等。 基于全局的方法通常对整个图片进行处理,以尝试定位所有的文字并输出其位置信息。这种方法通常通过多步操作进行,这些操作通常包括图像增强、文字定位、分割和识别。后续的步骤往往不可避免地依赖于前面的步骤。这种方法通常效果不佳,因为在复杂的自然场景中缺少文字的清晰语义。 3方法 为了解决自然场景中的文本检测问题,我们使用卷积神经网络(CNN)和循环神经网络(RNN)结合产生新的自然场景方向文本检测器。我们提出的检测器可以自适应地识别自然场景图片中的旋转文字,提取文本框的位置和取向。整个过程分为三部分:预处理、文本检测和后处理。 3.1预处理 预处理阶段用于将原始图片转换为可以供网络处理的输入数据。通常包括以下步骤: 图片缩放:传统的图片处理方法中,通常对图片进行缩小操作,以减少计算量。然而,文本检测需要对小尺寸的文本有足够的感知力,因此本方法将输入图片缩放为更大的尺寸。 颜色矫正:自然场景中的文字的颜色和背景颜色差异很大,因此需要对颜色进行校正。 边界扩充:边界扩充可以增加网络的视野,提高检测准确率。 3.2文本检测 文本检测阶段将处理过的图片送入CNN网络中进行特征提取。在文本的特定区域,使用RNN网络进行序列化的定位和方向预测。具体地,我们使用了两层卷积神经网络,将检测目标的高层次特征与原始图像的低层次特征相结合。同时,为了捕获文本的序列关系,我们引入了基于LSTM(长短时记忆)的RNN网络。这样,我们可以提高正确性,减少错误。 3.3后处理 后处理的目的是进一步提高检测精度。主要包括以下两方面: 非极大值抑制(NMS):对于重叠区域,通过NMS移除冗余的框,并保留最可能的框。 角点定位:在自然场景图像中,角点通常用于确定文本的方向。因此,我们根据检测结果使用HarrisCornerDetector算法对角点进行检测,确定文本的方向,从而进一步提高其准确性。 4实验结果 我们在ICDAR2015的街景图片数据集上进行了实验。数据集共包含3,000张训练图片和5,000张测试图片,其中文本方向是任意的。我们将性能与其他检测方法进行了比较。经过实验验证,我们的方法在四个角度上(0度、90度、180度和270度),F_score达到了0.7,性能优于其他方法。 5结论 本文提出了一种基于神经网络的自然场景方向文本检测器。该检测器通过使用卷积神经网络和循环神经网络来提取图片中的特征,提高了在复杂自然场景中检测文字的准确性。此外,我们还采用了一种旋转不变性技术,使得检测器具有更好的适应性。从实验结果来看,该检测器在不同方向上的精度显著优于其他现有的方向文本检测器。未来,我们将继续优化这种检测器以提高其性能,并将其应用于更多的应用场景中。