自然场景中文本检测技术研究综述

时间:2022-09-24 05:25:44

自然场景中文本检测技术研究综述

摘 要:图片中含有丰富的文字信息,这有利于正确理解图像内容,并对构建基于图片内容进行检索的系统具有重要意义。本文将基于自然场景中的文字特征的文本检测技术,进行了分类分析,并对国内外的研究现状进行了阐述。

关键词:自然场景;文字检测

中图分类号:TP391.41

1 图像中文字检测的相关知识

文字检测的目的是从场景中检测出文字区域。我们可以从以下角度对图像中的文字信息进行分析:

1.1 文字的颜色特征

典型的文档图像一般为二值化图像,即黑色为前景文字,背景为白色。这便于文字的检测识别。但是对于自然场景图片,则大多为彩色。使得单从像素上区分文字和背景变得困难,但是同一文字块当中往往具有相同的颜色。且在文字区域,会产生强烈的亮度变化。

1.2 文字的结构特征

典型文档图像的布局都是经过精心设计,相对固定以便于读者阅读。这就降低了文本区域的分割的难度。但是对于自然场景当中的文本,它可能出现在图像的任意位置,并且往往字符稀疏,字符对齐方式没有严格要求。但是对于同一文本块内,文字的字体和字号往往保持一致,汉字在同一字体和字号下,其高度和宽度以及粗细一致,线条平直。

1.3 文字的空间特征

自然场景图片中的文字通常以文字区域块的形式出现。在文字区域块内,字符的间距保持不变,并且一般成水平排列,汉字有时会呈现垂直排列,但一般位于文字区域块内。对自然场景中的文字进行识别,就是利用这写这些特征进行文字检测、定位和分割的过程。

2 图像中的文字检测

图像中的文字检测,是以文字块为对象,找出其在图像中的位置。主要的判断依据为文字的颜色特征、结构特征、空间特征等。对图像中文字的检测方法主要有:基于边缘,基于连通域,基于纹理特征。

2.1 基于边缘特征的文字检测

边缘指的局部不连续的局部特征。边缘是不同区域的分界线。在彩色图中,灰度值的变化,颜色分量的突变,纹理结构的突变都可以构成边缘信息。它存在于物体和物体,以及于背景之间。图像边缘具有两个特性:幅度和方向。沿着边缘方向,图像灰度和颜色幅度变化缓慢;垂直边缘方向,图像灰度和颜色幅度变化剧烈。常见的边缘类型有一下几种:阶跃型、房顶型、凸缘型。

2.2 基于连通域的检测方法

图像中连通域是指图像中具有相同性质的相邻像素所形成的区域块。这些相同的性质可以是颜色特征、纹理特征和边缘特征等。基于连通域的检测方法是基于某种规则,将图像划分为具有相同性质的不同区域。然后利用启发式规则对连通域进行筛选,去除非文字区域。常用的连通域方法有直方图的门限分割、区域生长法、区域分裂和合并法、标记法等方法。

2.3 基于纹理特征的检测方法

对于图像的纹理目前还没有明确的定义,但在不同的定义之间存在某种共性:重复性、随机性、规律性。重复性是指图像局部序列性,并在更大的区域内重复;随机性指图像整体随机,但是基本部分非随机组成;规律性指图像成均匀同一的形式。纹理特征主要分为结构特征和统计特征两方面。前者主要指纹理构成的结构规律,后者主要指的是纹理的统计属性。

3 国内外的发展现状

国内外基于这些文字特征进行了广泛的研究并取得了丰硕的成果,Hasan和Park则采用了形态学处理方法;Ephtein设计了基于内容的图像分割方法,即为笔画宽度转换。它通过来提取稳定的字符宽度提取字符。并且颜色特征也被当做提取字符的一个重要参考。但是由于图像中往往含有和字符相同的颜色信息,因此字符特征也是必须的。

在我国研究起步较晚,但是研究比较迅速。胡小峰、周勇、叶庆泰提出了一种结合了纹理和连通域的文字分割方法,该方法先采用简单的边缘纹理特征,粗略分割可能的文字区域,有效的避免了复杂纹理特征的计算。然后利用二类颜色聚类算法生成连通域,利用连通域特征对粗分割的文字区域进行校验,提高了文字区域分割的正确率和区域边框的精度;郑庆庆,桑农等提出了一种基于区域合并的纹理图像分割方法,首先选择符合人类视觉对颜色的感知区分能力的Lab颜色特征,然后提取图像的Gabor的能量作为纹理特征;接着有颜色相似度和纹理相似度概率加权平均获得2个相邻区域的相似度;最后利用基于最大相似度的区域合并算法交互地完成图像分割任务。

4 最新研究发展方向

针对国内外对图像中文字区域提取方法研究现状存在的问题,提出了一种基于最大稳定极值区域(MSER)的文字区域检测方法。实验证明,该方法对复杂背景图像也能较好地实现文字区域与背景区域的分离。大多数的图像中的文字信息存在一些能够重复检测到的、具有不变性的局部特征。这些局部特征实际上是一些具有一定数据相关性的特征区域,因此,又被称为显著区域。MSER即为最大稳定极值区域。极值区域是通过分析图像像素点灰度值关系,构造出来的四连通区域。该类区域仅取决于区域内部与边界像素点问的灰度值关系,使得区域内部的像素点灰度值都比区域边界像素点灰度值大(极大值区域),或区域内部的像素点灰度值都比区域边界像素点灰度值小(极小值区域)。通常一幅图像的极值区域是很多,Matas提出一个稳定性判定条件,以获取指定阈值范围Δ内的最大稳定极值区域。通过这种方法构造的区域不受图像连续性几何形变的影响,且对光照的线性变化也不敏感,因此能在不同图像上重复可靠提取到相同内容的图像区域。

5 结束语

自然场景中的文字信息往往包含很多不确定因素。所以没有单一的且鲁棒性很好的文本检测和定位算法可以检测和定位出任意图像中的文本信息。尽管存还有很多难题但这个领域的重要性和实用性依然持续吸引研究者。

参考文献:

[1]Huizhong Chen,Sam S.Tsai,Georg Schroth, David M.Chen,Radek Grzeszczuk Bernd Girod “Robust text detection in natural images with edge-enhanced Maximally Stable Extremal Regions” IEEE International Conference on image processing ,2011.

[2]晋瑾,平西建,张涛,陈明贵.图像中的文本定位技术研究综述[J].计算机应用研究,2007,24(6):8-11.

[3]廖佳,王红梅,牛晓东.图像与视频中的文本定位技术研究综述[J].电脑知识与技术.2010.

[4]Sushma J,Padmaja M.Text Detection in Scene Image using Stroke Width and Nearest-neighbor Constraints [C].2008 IEEE Region 10 Conference on TENCON,2008,

[5]Shi Ji, Jian Wang,Yu-Ting, Su.Text Detection in Video Frames using Hybird Features[c].Proceedings of the Eglish International Conference on Machine Learning and Cybernetics .Baoding,2009.

[6]朱成军,李超,熊璋.视频文本检测和识别技术研究[J].计算机工程.2007.

作者简介:戴津(1987-),男,山东省滨州市人,硕士,研究方向:数字图像处理。

作者单位:天津师范大学 计算机与信息工程学院,天津 300381

上一篇:试论“数字电路”实践教学改革 下一篇:桌面虚拟化技术(VDI)在高校实验室教学中应用研...