基于Tesseract-OCR技术的文字识别优化-豆柴文库

基于Tesseract-OCR技术的文字识别优化.docx

2024-04-30

9金币

17KB

6页

胜利****实阿

实名认证

内容提供者

1/6

2/6

3/6

4/6

5/6

6/6

在线预览结束，喜欢就下载吧，查找使用更方便

下载提示文本预览

如果您无法下载资料，请参考说明：

1、部分资料下载需要金币，请确保您的账户上有足够的金币

2、已购买过的文档，再次下载不重复扣费

3、资料包下载后请先用软件解压，在使用对应软件打开

基于TesseractOCR技术的文字识别优化曹重阳一、需求分析对天猫平台的企业信息采集下来进行结构化处理，提取出文字信息后汇总进Excel作为交付文件。主要的功能设计如下：1、程序能够自动读取企业工商信息图片所在的文件夹路径，并从文件夹路径中顺序取出图片进行识别，最终的识别结果以一份汇总的Excel交付。2、因为天猫平台公示的图片内容没有固定格式，所以需要程序能匹配不同格式的图片内容提取信息。3、能够提取出图片中的企业注册号、企业名称数据项，企业注册号、企业名称数据项要进行分析处理。4、识别准确率需要保证在95%以上。5、识别速度保持在60秒识别50张图片。二、本程序处理图片方面的关键模块1、对图片进行切割：要求识别的文字信息“企业名称”“企业注册号”位于整个图片的其中一部分，把剩余部分切除，只留下关键信息部分，不但可以提高识别速度，还可提升识别率。2、在进行图片的二值化时，有两种方式：（1）图片为彩色时，宜找到每个像素点合适的灰色度，因为每个像素点的灰色度不同程度上受到周边像素加权影响，从而影响整个图片的识别率。比如本像素点加上周围8个灰度值再除以9，算出其相对灰度值。（2）图片为黑白色时，宜采用max-min方法对图片进行二值化。针对本程序识别的图片的黑白色对比明显，故采用max-min方法进行二值化。privatestaticFilebinaryImage（FileorcFile）throwsIOException{//获取图片的BufferedImage对象BufferedImagebi=ImageIO.read（orcFile）；inth=bi.getHeight（）；//获取图片的高intw=bi.getWidth（）；//获取图片的宽BufferedImagenbi=newBufferedImage（w，h，BufferedImage.TYPE_BYTE_BINARY）；//设置合适的经验阈值，对二值化的识别效果起重要作用intthreshold=newColor（20，20，20）.getRGB（）；//阈值对应的颜色位于黑色文字和偏黑色背景颜色区间即可for（intx=0；x<w；x++）{for（inty=0；y<h；y++）{//二值化處理if（bi.getRGB（x，y）>threshold）{intmax=newColor（255，255，255）.getRGB（）；nbi.setRGB（x，y，max）；}else{intmin=newColor（0，0，0）.getRGB（）；nbi.setRGB（x，y，min）；}}}//将二值化处理后的图片放于D：＼＼orc_cut_binary下StringorcFileName=orcFile.getName（）；StringbinaryDir="D：＼＼orc_cut_binary"；Filedir=newFile（binaryDir）；//存储目录不存在，则创建目录if（！dir.exists（））{dir.mkdirs（）；}FilebinaryFile=newFile（binaryDir+"/"+orcFileName.substring（0，orcFileName.indexOf（"."））+"binary.png"）；ImageIO.write（nbi，"png"，binaryFile）；returnbinaryFile；}3、在选取二值化中的经验阈值，我们有以下思路：（1）二值化微分计算阈值（2）二值化类卷积的对梯度变化加强得到阈值对24位位图进行中值滤波会改变RGB各分量的值，所以图片的颜色会发生变化，但对于8位的位图，由于都是灰度的颜色，所以变化并不明显，而且滤波的窗口选的越大，对应的滤波效果的模糊度也会上升。4、增加图片的亮度：增加图片亮度可以使有些彩色图片的识别率大大增加，本程序别的图片为黑白照片，增加图片亮度提升的识别率并不乐观。5、对图片的边缘进行尖锐化处理：锐化可以快速调整图像边缘细节的对比度，并在边缘的两侧生成一条亮线一条暗线，使画面整体更加清晰。对于高分辨率的输出，通常锐化效果在屏幕上显示比印刷出来的更明显。在图片的Alpha值保持不变的情况下，本程序前期也进行了锐化处理，但效果并不明显，有时识别率甚至可能低于未锐化处理的图片。6、对图片进行平滑缩放：有时很多图片本身无法很好的被识别，但当放大适当倍数时，就可增强识别率，但这个“适当倍数”很难把控，它受诸多硬件因素影响，比如电脑配置、针式打印机打印连贯性差等问题。-全文完-

相关资料

基于Tesseract-OCR技术的文字识别优化.docx

2024-04-30

17KB

基于优化分割与提取的西夏古籍文字识别研究.docx

基于优化分割与提取的西夏古籍文字识别研究基于优化分割与提取的西夏古籍文字识别研究摘要：西夏古籍是中国古代文化的重要组成部分，其中包含着丰富的历史文化信息。然而，由于其特殊的文字形式和保存条件，西夏古籍的识别和研究一直面临着困难。本论文提出了一种基于优化分割与提取的西夏古籍文字识别方法，通过对西夏文字的特点进行研究，设计了一套完整的识别系统，并通过一系列实验对系统性能进行了评估。关键词：西夏古籍，文字识别，优化分割，特征提取一、引言西夏文是西夏民族使用的一种文字，主要用于书写西夏王历史、宗教、音乐等方面的文

2024-10-27

11KB

基于PDF文字流的表格识别技术的研究.docx

基于PDF文字流的表格识别技术的研究基于PDF文字流的表格识别技术的研究摘要：由于大量的数据和文档以PDF格式存储，在实际应用中需要对这些PDF文件中的表格内容进行识别和提取。基于PDF文字流的表格识别技术是一种有效的方法，它可以通过分析PDF文件的文本流来提取表格信息。本文对基于PDF文字流的表格识别技术进行了研究和探讨，主要包括表格检测、表格结构识别和表格内容提取等方面的内容。通过实验验证，该技术可在一定程度上提高表格识别的准确性和效率，为后续的数据挖掘和分析提供了有效的基础。关键词：PDF文字流；表

2024-10-17

11KB

基于FPGA的文字识别技术研究的开题报告.docx

基于FPGA的文字识别技术研究的开题报告一、研究背景随着数字化时代的到来，文字识别技术成为人们日常生活、工作中的必需品。文字识别技术，即将图片中的文字转化为可编辑的文本格式的技术，已经广泛应用于证件识别、电子商务、文档扫描、书籍数字化等领域。传统的文字识别算法主要基于计算机视觉和图像处理技术，然而，这些算法通常需要大量的计算资源和时间，难以满足实时性要求。FPGA（FieldProgrammableGateArray）是一种硬件可编程芯片，在数字信号处理、图像处理、计算机视觉等领域均有广泛的应用。FPGA

2024-09-16

11KB

基于Python的图片文字识别.docx

基于Python的图片文字识别【摘要】在有些工程中，有时候我们需要对图片文字识别。本文利用Python,调用OpenCV库，先对图片进行预处理，然后借助Google开源的pytesser对图片文字进行了识别。【关键词】：OpenCV,pytesser,文字识别一关于OCR光学字符识别（英语：OpticalCharacterRecognition,OCR）是指对文本HYPERLINK"https://zh.wikipedia.org/wiki/%E8%B3%87%E6%96%99"\o"数据"资料的

2024-08-22

118KB