印刷体英文OCR系统的研究与实现

时间:2022-10-25 11:37:16

印刷体英文OCR系统的研究与实现

摘要:OCR是一种文字自动识别技术,能够将图像中的文字输入到计算机中,属于非键盘输入范畴,使用到的图像输入设备主要是扫描仪。本文探讨了印刷体英文ocr的实现过程。通过对图像预处理,字符分割,字符识别三个主要模块的分析,使用了便于初学者理解的算法来实现各模块的功能。设计清晰,实现简单,而且具有较快的识别速度和可接受的准确率。

关键词:OCR技术; 字符分割; 字符识别

中图分类号:TP391 文献标识码:A文章编号:2095-2163(2014)04-0111-03

Abstract:OCR is an automatic text recognition technology, which could input the text in the image into the computer. OCR can be attributed to non-keyboard input areas, using the image input device is mainly scanner. This paper discusses the implementation process of the OCR printed in English. Through the image preprocessing, character segmentation, character recognition analysis of three main modules, the algorithm easy for beginners to understand is used to achieve the function of each module. The design is clear, simple, and has a faster recognition speed and acceptable accuracy.

Key words:OCR Technology; Character Segmentation; Character Recognition

0引言

OCR,即Optical Character Recognition的缩写,意指光学字符识别就是通过图像处理和模式识别技术对光学的字符进行识别,是自动识别技术研究和应用领域中的一个重要方面。本系统旨在识别文档类的英文图像,要求识别速度快,准确率较高。整个系统主要是由一个调度模块和若干功能模块构成,如图1所示。

2字符分割

目前,字符分割算法很多,主要分为4类:基于颜色特征的方法,基于连通成分分析的方法,基于边缘检测的方法以及基于纹理的方法。本系统选择的是简单易行的投影算法。

对于一幅高为H,宽为W的文档图像,字符行与行之间是有一定间隙的,由这个特性则可以先对图像实施行投影,将同一字符行的像素点个数存储到一个数组变量proj[H]中,再遍历这个数组变量,检视数组里元素值的变化。如果数组中的值大于一个阈值,记录下该行字符开头位置begin。直到数组中的值又开始小于这个阈值,并记录下此时的位置,记为end。这样就可以确定该行字符的上下界。用同样的方法,遍历整个数组proj[H],记录下若干组begin和end,这便是行切分的结果。然后根据一组begin和end,就可以重建一幅图片,像素值则利用原图中对应的像素值来填充。阈值的作用是剔除一些不为文字的小的干扰。

对于每一幅行切分得到的图片,再进行列切分,方法和行切分类似。同样,在对列进行切分的时候,也可以设定一个阈值来剔除一些干扰[5]。

最后,再将切分后得到的图片去除上下白边,方法和投影法类似。只要记录刚出现文字的行,记为begin,文字域结束的行end,利用begin和end重新建立字符图像,这样就可以完成对每个字符的分割。

3字符识别

字符识别方法大致可分为两类:基于结构特征的方法和基于统计特征的方法。这里采用基于特征量的模型匹配算法。

通过对英文字母的分析,可将字符均匀地分成九格,每一格所包含的黑像素点数占总像素点数的比例为一个特征量,一共可以获得九个特征量,称为网格特征。不同的字符,这九个特征量是不同的[6]。而有些字符的特征量比较相似,所以要想区分开就仍然需要提取其他的特征加以区别。在字符行上沿水平和垂直方向做三等分,在三等分处画水平线或垂直线穿过字符行,求出水平线和垂直线分别与字符边缘相交的次数,这样获得的变量为交叉特征量,共有4个。至此,对每个字符所提取的特征量总共增加到了13个。图像特征匹配通常使用最小距离判别函数或最近邻域判别函数,由于交叉特征变量彼此之间具有的较大的区别性,这里采用了加权方法进行识别[7],如公式(3)所示。

4结束语

本文系统地介绍了印刷体英文OCR的实现过程,按照上述模块设计编程实现该系统,实验证明,该系统所采用的算法是有效的,而且具有简单,易于理解,识别速度快,以及识别率高的特点。

参考文献:

[1]张康.舌图像自动分割算法的研究[D].南昌:南昌大学,2009:9-20.

[2]张顺利,李卫斌,吉军.基于投影的文档图像倾斜校正方法[J].计算机工程与应用,2010(3): 166-168.(下转第117页)

[3]黄炯生,黄敏琪.基于模型匹配法的字符识别[J].中国科技信息, 2008,14(8): 93-94.

[4]何希平,李云峰,朱庆生.彩色文档图像的倾斜自动校正算法[J].中国图象图形学报,2006,11(3): 367-370.

[5]ABU TABLEB A S. Automatic thresholding of graylevel pictures using two dimensional entropy[J].Computer Vision,Graphics, and Image Proeessing,1989,47:22-32.

[6]古辉,义.一种基于模板匹配的船铭牌字符分割方法[J].浙江工业大学学报,2010,38(1):33-35.

[7]程广涛,陈雪,张文治.基于垂直投影和模板匹配的车牌字符分割方法[J].北华航天工业学院学报,2013,23(1):19-21.

[8]罗辉武,唐远炎.基于结构特征和灰度特征的车牌字符识别方法[J].计算机科学,2011,38(11):267-270.

[9]李瑞萍.电器铭牌图像字符识别系统的研究[D].西安:西安理工大学, 2011,20-28.

上一篇:“自动控制系统”精品课程建设与教学改革实践 下一篇:MOOC平台发展过程中的关键影响因素简论