一种中文文档图像中检索方法研究

时间:2022-04-11 12:43:20

一种中文文档图像中检索方法研究

摘要:如何对急速增长的文档图像进行有效检索是文档图像管理系统的关键技术之一。提出了一种不需要识别文字的检索中文文档图像的方法,该方法在字符分割基础上采用基于粗特征粗匹配和基于改进Hausdorff距离相似度测量的两级匹配方法,以适应于时间、准确性的不同要求。同时用对200幅文档图像样本进行了实验,其结果表明,使用该方法对检索印刷体汉字的文档图像具有较高的检索效果,对于数字图书馆中文档图像检索系统的设计,有一定的参考价值。

关键词:中文文档图像;字符切分;粗特征;Hausdorff距离

中图分类号:TP391文献标识码:A文章编号:1009-3044(2009)26-7485-02

A Study on Chinese Document Images Retrieval

HAN Xiao-qin

(The College of Education Science, Luoyang Normal University, Luoyang 471022, China)

Abstract: How to search for desired information from increasing imaged documents effectively, is one of the key technologies of the imaged documents management system. An approach to searching for words in Chinese document images without character recognition is proposed in this paper. This method, on the basis of character segmentation, has two matching procedures, coarse periphery feature matching and character image similarity matching based on modified Hausdorff Distance. For 200 samples of imaged document,experimental results show that the present method have high retrieval results.

Key wors: chinese document images; character segmentation; coarse periphery feature; hausdorff distance

目前,大量的文档资料以数字图像的形式保存。这些文档图像数量巨大,并以惊人的速度增长,如何快速的从这些文档中检索信息是一个重要的研究课题。通过OCR(Optical Character Recognition)系统能够将文档图像中的文字部分转化为文本数据,但OCR在实际应用中,尤其是对中文的识别还有较大的限制[1]。基于内容的文档图像检索 (Content-based Document Image Retrieva1, DIR) [2],是一种不使用OCR(Optical Character Recognition)直接利用图像特征进行检索的技术。这种方法是通过对字符图像的检索,能够快速的从大量文档图像中检索到相应的内容,而不需要使用OCR系统对所有的文档进行转化,它可以作为OCR系统的有效补充。很多学者在中文文档图像检索方面做了一些研究[3-6]。本文提出了一个使用关键词对印刷体中文文档图像搜索的方法,该方法在字符分割基础上采用基于粗特征和基于改进Hasdorff距离的两级匹配方法,具有较高的检索效率。

1 中文字符切分

目前我国的出版物一般以横排版本为主。横排版的文字是从左向右按行编排,然后再从上往下逐行排列。本文主要针对这种版本的文档,使用投影分量方法进行字符切分。为了消除文档倾斜和噪音对字符切分的影响,在切分之前对文档图像进行倾斜校正和中值滤波。字符切分包含两个步骤:行切分,列切分。

1.1 行切分

行切分采用水平投影法分割行,设大小为N×M的字符的二值图像为f(i,j),则定义在i行上的投影公式为其中,j=1,2,…,N.H(i),反映了字符图像按行累计分布情况。分析H(i)的分布规律,图像的水平投影为零的区域对应了文字行间空白间隔,从而获得了文本的行数及其分布。应为文档图像行与行之间有明显的间隙,所以这个阶段效率比较高。

1.2 列切分

将行切分后得到的图像行采用垂直投影进行切分。垂直投影式为:

其中,i=1,2,…,N。和行切分一样,投影为零的区域对应了文字之间的空白间隔。

但是,汉字中有相当数量的左右两部分构成的二分字和由左中右三部分构成的三分字。这些字的图像垂直投影在一个单字内部也会出现空白间隙,而且较低的印刷质量可能会存在少量字符间的粘连[8],很容易造成误分。所以在切分后需要对分割区域进行二次切分和合并。

设第 段字符图像的宽度为W(i),该字符的平均高度为H。如果W(i)>?鄣H,则说明第 段字符图像为粘连搭接字符段,需要进行切分。分别从该字符图像的左边界到右边界和从右边界到左边界查找可能的切分结果,把置信度最好的结果确定为切分位置。将所有字符图像切分完毕后,根据字符的平均高度,切分后的字符图像宽度和空白间隙确定需要合并的区域。

2 字符图像匹配

切分后得到单个字符图像,首先要进行归一化处理。为了在切分后的字符图像中找到指定的字符,需要对每一个字符建立一个标准大小的模板图像,在查找过程中,将模板图像同分割后的字符图像逐一进行相似度比较。为了进一步提高识别速度,本文采用了两级匹配方法。第一阶段是基于粗特征[9]的粗匹配,该过程简单高效,但是不足以区分相似的文字。第二阶段选用改进的Hausdorff距离来匹配候选图像和模板图像。

2.1 粗匹配

在粗匹配阶段,首先提取字符图像的粗特征,然后计算两个图像间的相似度。粗特征的提取过程是:从字符图像的上下左右四个边缘,分别发射N条扫描射线,扫描射线遇到汉字像素为止(如图1所示)。设这4N条线段的长度分别为li(l≤i≤4/N)则粗特征向量可以表示为:fi=(li,l2i,…,l4Ni)。用特征向量间的距离来判别相似度,距离公式为:

为了简化计算这里选用Minkowsky距离,即q=1。

2.2 基于改进Hausdorff距离的字符图像匹配

Hausdorff距离是描述两组点集之间相似程度的一种量度,是匹配点特征的一种方法,它不需要建立点之间的一一对应关系,只是计算两个点集之间的相似程度,所以可以有效地处理很多特征点的情况。Hausdorff距离被广泛的应用于二维图像匹配,尤其是目标物体识别和运动物体的跟踪监测等。

设两组点集X和Y,则在这两个点集上的Hausdorff距离定义为:

H(X,Y)=max{h(X,Y),h(Y,X)} (4)

考虑到传统的Hausdorff距离容易受到噪声的干扰并且效率不高。为了提高鲁棒性, 研究人员提出了许多改进算法[5,10-12],如PHD(partial Hausdorff distance),MHD(Modified Hausdorff Distance),LTS-HD(Least Trimmed Square Hausdorff Distance)和WHD(Weighted Hausdorff Distance)等。本文根据汉字图像的特征,提出了一种改进的加权Hausdorff距离。经过粗匹配得到的候选汉字图像同模板图像轮廓相似,所以将汉字图像分为内外两个区域(如图2所示),并分别给这两个区域的设置不同的权值。改进的Hausdorff距离的单向距离公式为:

图2中不同区域权值设置为W(C)=3W(P)。

3 试验结果和结论

为了验证本文提出的检索算法的正确性,选取了200多幅文档图像,每幅图像包含大约800个印刷体汉字,并且包含不同字体和不同字号。根据文档的内容选取了50个长度为2-6的关键词对文档进行检索。实验表明该方法的平均准确率能够达到96.17%,检索一幅文档图像所花费的平均时间是0.0303秒。

本文提出的在中文图像文档中搜索指定关键词的方法,不需要对文档排版格式分析和识别整个文档图像,实验结果较好。但对于复杂排版的文档,如横竖混排并且带有艺术型字体的情况,效果较差,而且计算Hausdorff距离的计算量较大,这些都需要进一步的研究。

参考文献:

[1] Chang F,Retrieving Information from Document Images: Problem and Solutions[J].International Journal on Document Analysis and Recognition,2001,4(1):46-55.

[2] Tan C I,Huang W,Yu Z,et al.Imaged Document Text Retrieval without OCR[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(6): 838-844.

[3] Andreev,Andrey and Kirov,Nikolay.Text Search in Document Images Based on Hausdorff Distance Measures[C].Gabrovo,Bulgaria:Proceedings of the 9th International Conference on Computer Systems and Technologies and Workshop for PhD Students in Computing,2008(1):1-6.

[4] Wang C L,Cher T,ChanY K,et al.Chinese Document Image Retrieval System Based on Proportion of Black Pixel Area in a Character Image[C].Taipei,Taiwan:Proceedings of the 6th International Conference on Advanced Communication Technology,2004(1):25-29.

[5] Lu Y,Tan C L.Chinese Word Searching In Imaged Documents[J].International Journal of Pattern Recognition and Artificial Intelligence,2004,18(2): 229-246.

[6] 黄祥林,高芸,杨丽芳,等.一种基于关键词的中文文档图像检索方法[J].中文信息学报,2007,21(4):61-64.

[7] Congedo G,DimauroG,ImpedovoS,et al.Segmentation of Numeric Strings[C].Washington,DC:Proceedings of the Third International Conference on Document Analysis and Recognition,1995(2):1038-1041.

[8] 魏湘辉,马少平.粘连字符切分综述[J].计算机科学,2004,31(11):199-201.

[9] 马永成,肖诗斌,林春雨,等.基于内容的文档图像检索的特征抽取研究[J].江西师范大学学报:自然科学版,2008,32(2):138-141.

[10] Huttenlocher D P,Klanderman G A,Rucklidge W paring Images Using the Hausdorff Distance[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1993,15(9):850-863.

[11] Dubuisson M P,Jain A.A Modied Hausdorff Distance for Object Matching[A].In: Proceedings ofthe 12th International Conference Pattern Recognition[C].Jerusalem,Israel,1994(1):566-568.

[12] Sim D G,Kwon O K,Park R H.Object Matching Algorithms Using Robust Hausdorff Distance Measures[J].IEEE Transactions on Image Processing,1999,8(3):425-429.

上一篇:以社会需求为导向的软件工程专业课程体系初探 下一篇:浅谈图像处理(Photoshop)课程教学改革