预览加载中,请您耐心等待几秒...
1/3
2/3
3/3

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

自然场景中的文字检测与识别的开题报告 【摘要】 本文将重点研究在自然场景中的文字检测以及识别中的技术方法。自然场景中的文字识别相对于传统的OCR技术具有更高的难度,主要是因为自然场景中的文字存在着复杂的背景、姿势变化、尺度变换、光照变化以及干扰物等问题。为了解决这些难点问题,本文主要基于深度学习技术,综述当前常见的方法,包括基于文本框架的方法、基于区域的方法、端到端的方法等,并分析其优缺点和应用场景。本文最后对未来进一步发展方向进行了展望。 【关键词】自然场景;文字检测;文字识别;深度学习;方法分析 【引言】 随着智能化的需求越来越高,自然场景中的文字检测与识别技术逐渐成为人们关注的热点之一。在当前的文本识别应用领域中,文本识别技术已经可以在手写场景、印刷场景等固定的文本样式中取得较好的效果。但是,在自然场景中,由于背景复杂、尺度变化、视角变化等问题,自然场景中的文字检测与识别技术与传统的OCR技术存在着较大的区别和难度。 为了解决自然场景中的文字检测与识别技术问题,目前研究方向主要基于深度学习技术,提出了一系列先进的自然场景文字检测和识别方法。随着深度学习技术的发展,文字检测与识别的精度逐步提升。 本文主要综述当前的自然场景中的文字检测与识别技术,包括典型的文本框架法、区域法、端到端法等方法。通过对比分析各种方法的优缺点,本文旨在提供一个有关自然场景文字检测与识别技术的完整参考,同时并对未来的发展方向进行了展望。 【主体部分】 1.检测方法 1.1基于文本框架的方法 在自然场景文字检测应用中,基于文本框架法是一种最为经典的方法。该方法主要是通过提取文本种子点的方式进行文字检测,然后在检测到文本的种子点位置上搜索周围的区域,判断该区域是否包含文本区域。其主要优点是检测效果较好,但缺点是计算量较大。 1.2基于区域的方法 基于区域法在原理上与基于文本框架法类似,但是区别在于该方法并没有使用文本种子点进行检测,而是通过使用滑动窗口或候选区域的方式进行检测。同时,基于区域法采用非极大值抑制技术来移除不满足条件的区域,并保留最大的文本区域结果。该方法因为计算量小,适用于大规模高速化的文字检测,是一种常见的方法。 1.3基于深度学习的方法 基于深度学习的方法可以适用于不同的文本区域,具有很强的适应性。基于深度学习的文字检测方法采用卷积神经网络(CNN)技术,直接从原始图像中学习文字区域的特征,并得到像素级别的文本检测结果,该方法适用范围广泛,不论文本框架形式和字体形状都能有效地检测到文本信息。 2.识别方法 2.1基于特征的方法 基于特征的方法将OCR与计算机视觉技术相结合,将特征提取部分和分类器部分分开处理。特征提取模块主要是采用人工设计的特征提取器,来提取图像中的文字特征。Spark+FisherVectors(SFV)特征是常用的特征提取器之一,该方法将Spark特征与Fisher向量相结合,具有非常好的鲁棒性,适用于不同能见度和字体大小的文本。 2.2基于序列到序列模型的方法 序列到序列模型是目前文字识别领域热门的方法之一,在自然场景中的应用广泛。它主要是通过采用端到端的方式实现文字的识别,自动的学习文字图像与文本之间的关系。具体的方法包括卷积循环神经网络(CRNN)等。 2.3基于几何形状的方法 基于几何形状的方法主要基于文本的排列方式,可以将文本区域的形状转换为不变的几何形状。然后通过计算得到不同几何特征来达到识别目的。这种方法适用性广泛,能够在不同场景中进行文字识别。 【结论】 总体而言,自然场景中的文字检测与识别技术在目前的发展状态下已经取得了较为明显的进展,同时也展现了其在智能化应用中的广泛应用前景。但由于自然场景中文字区域的复杂性,许多问题仍存在,如尤其在无监督学习方面仍需要进一步研究探讨。在未来,我们预期将会发展出更高效、更准确的自然场景中的文字检测与识别技术,实现更加便捷的智能化应用。 【参考文献】 [1]ShiB,BaiX,BelongieS.DetectingOrientedTextinNaturalImagesbyLinkingSegments[C]//IEEEConferenceonComputerVisionandPatternRecognition.IEEEComputerSociety,2017:259–268. [2]ShiBY,YaoCH,LiaoMetal.ICDAR2017competitiononreadingchinesetextinthewild(RCTW-17)[C]//Proceedingsofthedocumentrecognitionandretrieval24thtextREtrievalconference.IEEEComputerSociety,2011:143–154.