档案资料数字化过程中的图像处理研究

时间:2022-09-17 08:15:13

档案资料数字化过程中的图像处理研究

摘要:由于档案资料绝大多数为文字内容、而且数量庞大,对档案资料数字化过程中的图像处理提出了解决方案。先对图像进行中值滤波的平滑处理,以降低噪声,并最大限度地保留文字边界信息,再对图像进行二值化处理,抛弃掉无用的颜色信息,最后选用最适合档案资料特点的存储格式进行存储。

关键词:数字化;图像平滑;中值滤波;二值化

中图分类号:TP391.41 文献标识码:A文章编号:1007-9599 (2011) 06-0000-01

Image Processing Research on the Process of Archives Materials Digitalization

Shen Jianglin1,2,Gao Hongwei1,Ren Wenli2

(1.Shenyang Ligong University,Shenyang110159,China;2.Xi'an SICONG GROUP,Xi'an710043,China)

Abstract:The vast majority of the text file data,and the large number of archives of digital image processing in the process of proposed solutions.First,the image smoothing median filter to reduce noise and maximize the retention of word boundary information,and then the binary image processing,color information is discarded useless,and finally choose the most suitable for the storage characteristics of archives format for storage.

Keywords:Digitalization;Image smoothing;Median filter;Binary

在信息化飞速发展的今天,人们对信息的需求也越来越高,在过去保存的各种纸质的文件和资料都要进行数字化处理和存档,以方便检索和使用。

档案资料数字化的过程关键是将资料制作成图像文件,然后对图像进行进一步的处理和保存。我们希望保存的图像文件越清晰越好,文件所占空间越小越好,但是越清晰的图像必然占用空间也越大,如何解决上述矛盾呢,本文将提出一种数字图像处理方法,可以很好解决上述矛盾,使保存的图像文件足够清晰,文件所占空间也足够小。

一、图像平滑处理

图像在获取、存储、处理和传输过程中都会受到电气系统和外界的干扰而存在着噪声。图像噪声使图像变得模糊,甚至淹没图像的特征,所以必要对图像进行平滑处理来消除噪声。

图像平滑处理有很多方法,可以在空间域也可以在频率域采用不同的措施。在空间域对图像平滑处理常用领域平均法、模板卷积法和中值滤波等方法。针对文件资料的特性,我们建议采用中值滤波的方法。

中值滤波是一种非线性滤波,它能在滤除噪声的同时很好地保持图像边缘。中值滤波的原理比较简单,它是把某像素为中心的小窗口内所有像素的灰度按从小到大排序,取排序结果的中间值作为该像素的灰度值。为了操作方便,中值滤波的小窗口的像素个数通常取奇数。

中值滤波的窗口形状和尺寸对滤波效果影响很大,因为我们处理的图像主要内容是文字,根据其特点选用十字形的小尺寸窗口,这样即能很好地消除噪声,还可以很好地保持边缘。

图2.1所示为三种平滑处理方式的比较,可以看出,中值滤波对于椒盐噪声有很好的平滑效果,且能很好地保持边缘。

(a) 原图像 (b)领域法处理(c)模板卷积 (d)中值滤波

图2.1各咱不同平滑处理方法的结果

二、二值化处理

从扫描仪或数码相机获取的原始图像文件占用空间很大,以一幅1600×900分辨率的24位彩mp格式图像为例,其占用空间已经达到4.12MB,如果用此分辨率的图像来存储一本300页左右的资料,就需要占用超过1G的空间,这对以数万计的档案资料来说,这是无法接受的,所以必须对原始图像进行一定的处理,使之文件大小达到一个可接受的合理范围内。

一般文件资料的主要内容都是文字的,对色彩没有特殊要求,颜色信息基本是无用信息,因此,我们可以采用阈值法去掉图像文件中的色彩和灰度信息,简单来说,就是设定一个合理的阈值,图像中像素的灰度大于此阈值,该像素就为1,否则为0。

假设输入图像为 ,输出图像为 ,灰度阈值为t,其数学定义可用公式表示为

(1)

还以1600×900分辨率bmp格式图像为例,经过二值化处理后,图像大小变为175kB,占用的空间减少了95%,而有用信息得到了很好地保留。

二值化处理的关键是阈值t的确定,如果被扫描文档的纸张颜色较深或者是老旧发黄,则阈值要取大一些,如果文档的字迹较浅时,则阈值应取小一些。

三、图像压缩和存储

图像由于数据量很大,所以必须采用压缩算法对图像进行压缩后保存,所以图像文件存储格式的选择对文件占用空间大小影响很大。

目前网络应用最多,支持最好的两种图像压缩算法JPEG和GIF可以很好地满足要求。JPEG格式的图像可以达到很高的压缩比,压缩的主要是高频信息,对色彩的信息保留较好,可以支持24bit真彩色,普遍应用于需要连续色调的图像。GIF格式的图像对色彩的支持不如JPEG格式,最高仅支持8bit颜色,但它是一种无损压缩,在不影响图像质量的前提下,可以生成很小的文件,而且对图像边缘比JPEG格式保持的好。由于我们需要保存的黑白图像,所以用GIF格式来保存图像,明显要优于JPEG格式。

仍以上述经二值化处理的1600*900分辨率图像为例,JPEG格式占用空间大小282kB,GIF格式占用空间大小为52kB。因此,推荐采用GIF格式来存储处理后的图像。

四、结束语

本文结合工程实际,经过多次实验研究和比较,提出了一种适合档案资料数字化的图像处理方法,可以使有用信息得到很好保留的前提下,使文件占用空间尽可能小,以满足海量信息存储的要求。

参考文献:

[1]何东健.数字图像处理.西安:西安电子科技大学出版社,2008

[2]霍宏涛.数字图像处理[M].北京:北京理工大学出版社,2002

[3][美]Castleman,K.R著,等译.数字图像处理[M].北京:电子工业出版社,2002

[4]阮秋琦.数字图像处理学[M].北京:电子工业出版社,1998

陕西省西安市长乐路35#西安北方光电股份有限公司023分箱710043 沈江林13359184287

上一篇:教学改革中的应用'> Proteus仿真实验在8086教... 下一篇:浅谈软交换技术及其应用