数字图书馆文本图像二值化方法研究

时间:2022-08-27 01:49:41

数字图书馆文本图像二值化方法研究

随着计算机技术和网络技术在图书馆领域的深入应用,数字图书馆得到了迅速的发展。图书馆大量馆藏文献的数字化工作成为目前亟待解决的问题,采用数字图像的方式加工保存图书文献资料是馆藏文献数字化工作的有效途径,其主要优点是加工速度快、适合大批量、规模化加工,并能全面保留纸质文献的原始信息。数字图像二值化是处理文献资料图像的关键技术,合适的二值化算法不但可以提高数字馆藏的处理效率,而且对于改善数字文献的阅读质量,提高OCR系统的识别率都具有重要意义。

数字图像二值化又称为数字图像的阈值变换,其核心问题是二值化阈值的选取算法。Ridler和Calvand提出了一种阈值选取的迭代法,但是计算比较耗时;Trussel对迭代法进行了改进,将任意直方图划分为两部分,并计算每一部分的平均灰度,然后用两个平均灰度级的平均值作为新的分割阈值。日本大津展之提出了最大类间方差法,该算法是根据最小二乘法将直方图在某一阈值处分割成两部分,当被分成的两部分的方差为最大时即取得最佳分割阈值。文献[1]提出了一种基于高低通滤波特征的文本图像快速二值化方法,该方法以图像灰度统计特征值为阈值,利用高低通滤波的特征对图像进行阈值分割。文献[2]提出了一种带灰度保留的文本图像二值化方法,解决了当文本图像中包含图片信息,在二值化处理中图片信息容易被破坏的问题。图像二值化方法还包括微分直方图法、中值滤波法和最大直方图熵阈值分割法等。

数字化馆藏文献图像的数据量巨大,图像之间的灰度直方图差别较大,这就要求图像二值化处理速度要快,质量要高,即每一图像的阈值选取计算速度要快,阈值准确度要高。以往的阈值选取算法有些计算速度快,但精度低,图像质量无法保证,有些算法阈值选取精度较高但是计算速度较慢,图像处理效率较低。该文基于对文献图像直方图统计特征的分析,综合了高低通滤波法处理速度快和最大类间方差法阈值计算精度高的优点,研究文献图像二值化处理技术,通过实验分析比较,取得了较好的图像处理效果。

本文所提出的数字图像二值化方法综合了高低通滤波法处理速度快和最大类间方差法阈值计算精度高的优点,对于解决文本图像的二值化问题有较大的帮助。该算法的优点在于:算法简单、时间复杂度较低,比较适合图像的数据量巨大,图像之间的灰度直方图差别较大的文献的数字化加工处理。

通过多次对比实验发现,该文所提出的算法效果较好,图像处理的精度较高,图像质量有保证,取得了较好的图像处理效果。

上一篇:浅析利用信息技术优化高校课堂教学 下一篇:Budget感知机研究综述