预览加载中,请您耐心等待几秒...
1/4
2/4
3/4
4/4

在线预览结束,喜欢就下载吧,查找使用更方便

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

基于BLSTM网络的改进EAST文本检测算法 摘要 本论文提出了基于双向长短时记忆神经网络(BLSTM)的文本检测算法,对原有的EAST文本检测算法进行改进。在提取垂直文本边界和水平文本边界的过程中,使用了BLSTM网络来进一步提高文本检测的准确性。实验结果表明,本文提出的算法在文本检测准确性方面有显著的提升。 关键词:文本检测;EAST算法;BLSTM网络;准确性; 1.引言 随着计算机视觉技术的不断发展,人们对文本识别的需求也在不断增加。文本检测是文本识别的基础和前提,是文本识别的必经之路。目前,文本检测算法已经在许多领域得到了广泛的应用,如证件识别、车牌识别、自动化检测等。 EAST是一种基于卷积神经网络(CNN)的文本检测算法,该算法通过将图像划分成小型区域,再通过多步卷积来提取文本的边界框。然而,由于CNN无法捕捉文本字符之间的空间关系,因此EAST算法的准确性存在一定的局限性。 为此,本文提出了一种基于BLSTM网络的文本检测算法。BLSTM网络是一种具有记忆能力的递归神经网络,能够很好地捕获文本字符之间的空间关系。在本文的算法中,我们使用了BLSTM网络来进一步提高文本检测的准确性。 2.相关工作 2.1文本检测算法 早期的文本检测算法主要是基于滑动窗口和图像处理技术的。2005年,Viola和Jones提出了一种快速的人脸检测算法——Haar特征级联分类器[1]。该算法可以分出正常人脸和非人脸图片,并在受限情况下取得了较好的效果。2007年,Dalal和Triggs提出了一种基于HOG特征的物体检测算法[2]。该算法主要应用于人体检测,但同时也可以用于文本检测。基于滑动窗口的文本检测算法在召回率方面表现较为出色,但准确性相对地较低。 近年来,基于深度学习的文本检测算法逐渐普及。CNN是一种常用的深度学习算法,并已应用于许多领域,如人脸识别、物体检测等。在文本检测方面,CNN不仅能够提取文本的边界框,还可以深度学习文本的特征,从而提高文本检测算法的准确性。EAST算法[3]是一种基于CNN的文本检测算法,可以检测任意方向和大小的文本,并且具有较好的准确性。 2.2BLSTM网络 LSTM(LongShort-TermMemory)网络是一种常见的递归神经网络,可以捕捉输入序列中的长期依赖关系。LSTM网络主要由输入门、输出门和遗忘门组成,在每个时间步骤上都会更新门的状态。LSTM网络已广泛应用于自然语言处理领域,并展现了良好的性能和效果。 BLSTM网络是一种结合了前向和后向LSTM的网络结构,可以很好地区分输入序列中的正反顺序。BLSTM网络可应用于许多任务,如语音识别、视频描述、文本识别等。 3.基于BLSTM网络的改进EAST文本检测算法 我们提出了一种基于BLSTM网络的文本检测算法,主要包括三个步骤:图像预处理、提取垂直文本边界和水平文本边界以及使用BLSTM网络进行提高文本检测准确性。下面我们将分别对这三个步骤进行详细介绍。 3.1图像预处理 在进行文本检测前,需要对图像进行预处理,以确保提取的特征更加明显和准确。图像预处理主要包括四个步骤:图像灰度化、图像平滑、图像二值化以及图像尺度缩放。 图像灰度化是将图像从RGB颜色空间转换为灰度颜色空间的过程。灰度图像不仅可以减少图像噪声,还可以减少计算量。经过图像灰度化后,图像会变成单通道图片,其中的灰度值表示了图像中像素的强度。 图像平滑可以减少图像中的噪声,同时保留图像中的边缘信息。在本文中,我们采用高斯滤波器对图像进行平滑。 图像二值化是将灰度图像转换为黑白图像的过程。二值化的目的是将图像中的文本像素区分出来。一般情况下,文本像素的颜色是较暗的,而背景像素的颜色是较亮的。在本文中,我们采用基于Otsu的自适应二值化方法。 图像尺度缩放是将图像缩放至相同大小,以便进行后续的处理过程。在本文中,我们将图像缩放至512×512。 3.2提取垂直文本边界和水平文本边界 在提取垂直文本边界和水平文本边界的过程中,我们采用了EAST算法。EAST算法通过多步的卷积,逐步提取文本的边界框。边界框由四个坐标值组成:左上角坐标(x1,y1)、右上角坐标(x2,y2)、左下角坐标(x3,y3)和右下角坐标(x4,y4)。在本文中,我们只考虑垂直文本和水平文本的边界框。 3.3使用BLSTM网络进行提高文本检测的准确性 在提取垂直文本边界和水平文本边界之后,我们使用BLSTM网络对文本检测准确性进行进一步提高。BLSTM网络可以很好地捕捉文本字符之间的空间关系,从而提高算法的准确性。 在本文中,我们采用了基于Keras框架的BLSTM网络。BLSTM网络的输入是由图像的垂直文本边界和水平文本边界组成的边界框,输出是由BLSTM网络学习到的文本特征。学习过程中,我们采用了交叉