结合图像处理完成文件碎片复原

时间:2022-10-14 07:09:15

【前言】结合图像处理完成文件碎片复原由文秘帮小编整理而成,但愿对你的学习工作带来帮助。对碎片进行预处理扫描:对于单面印刷的文件碎片,保证碎纸片被扫描的一面在原始位置中属于同一面。对于双面印刷的文件碎片,要扫描碎片两面的信息,并且信息对应于哪面要标记清楚。为处理方便,同一次扫描使用相同的背景颜色。 1、针对纵切的规则的单面印刷文件碎片 ...

结合图像处理完成文件碎片复原

【摘要】 在诸多领域中,经常需要把大量文件碎片拼接成一个或几个完整文件。若通过手工进行拼接,费时费力,并且也不能保证得到较好的复原物体。因此,结合图像处理技术完成文件碎片复原,既具有极大的理论意义,又有广泛的应用背景。

【关键字】 图像处理 文件碎片复原 拼接 边界匹配 像素提取

一、引言

随着研究深入,对于文件碎片拼接也涌现出了许多研究方法,一些文献也进行了描述。本文主要讨论的是结合图像处理技术完成文件碎片复原,主要涉及图像分割、轮廓特征提取、轮廓表示方法等相关领域,并且将计算机视觉、多维信号处理和图像处理技术等紧密结合在一起。阐述了对于不同类型文件碎片复原的处理方法,并在一些方法中加入文字特征的分类算法和像素匹配算法,结合最优化思想,使复原程度尽可能高,人工干预尽可能少。

二、基于文字的文件碎片处理方法

对碎片进行预处理扫描:对于单面印刷的文件碎片,保证碎纸片被扫描的一面在原始位置中属于同一面。对于双面印刷的文件碎片,要扫描碎片两面的信息,并且信息对应于哪面要标记清楚。为处理方便,同一次扫描使用相同的背景颜色。

1、针对纵切的规则的单面印刷文件碎片

①法一:

将图片格式的碎纸片图以灰度值矩阵A(k)的形式存储,

目标函数为minf(π),这样一来哈密尔顿路径求得的是全局最优解,即最佳匹配。

2、针对既横切又纵切的单面印刷文件碎片

①法一:由于横切纵切切割了两次,所以采用二层筛选的方法,并加入了k-means聚类算法(即接受输入量 k ,将n个数据对象划分为 k个聚类,使所获得的聚类满足同一聚类中对象相似度较高,不同聚类相似度较小)

第一层做行位置筛选,读取图片的像素行,存入碎片的特征列向量中,并将此列向量作为行特征的唯一标识,将列向量元素差异最小的图片聚类,分别将中文和英文的归类。然后通过人为干预实现类的合并,将中英文都聚成同样数目的类,每一类包含相同张数的碎片。构建行内碎片的左右边界匹配模型,最终确定出每类内部碎片的排序。第二层做列位置筛选,建立上下边界匹配模型(与左右边界匹配法类似)得出各行的上下位置序列,经过两层筛选,得出原碎片序列。

除前方法外,需要构建中文特征灰度条向量

当特征值属于合适小的置信区间时,即Wk,s∈[a,b]时,认为两碎片在同一行。

②法二:法二则需加入基于文本行特征的碎片行分组,行分组方法类似于法一中对英文的分组方法,对行分组碎片进行横向拼接得到复原的碎片行,再对碎片行进行纵向拼接,得到复原结果。

3、针对既横切又纵切的双面印刷文件碎片

①法(一):由于双面我们需要进行两次特征匹配,一次是碎片k与s的a面,另一次是碎片k的b面与碎片s的a面。得到a面和b面的特征列向量。综合两次特征匹配结果,以及左右和上下边界匹配模型,加入人工干预,根据文件碎片内容以及文字边缘是否契合,得到正确碎片匹配序列。

②法(二):因为两面,故匹配距离需替换为两面的匹配距离之和。在对碎片行做纵向拼接minfk(π) k=1,2,...,nr时,将基于旅行商问题的拼接策略扩展为多旅行商(两个旅行商)问题的拼接策略,即一条旅行商路径代表纸张一面,另一条代表另一面,目标函数变为

二、对于文字的不规则的文件碎片拼接方法

1、斜切情况。我们设想找到平行于碎片中文字的直线斜率,找到图片1-x列,每一列最上面像素值为0的点,从x个点中选出最上面的点。同理得到个(m-x)-m(m为碎片图的宽度)列中处于最上面像素值为0的点。由这两个点得到平行于碎片中文字方向直线,再根据找到直线的斜率对碎片进行角度调整,最后用同规则碎片的方法进行匹配。

2、无规则情况。利用形状匹配法,提取碎纸片轮廓线,通过边界和面积准则判断两轮廓是否匹配。在这里我们参考了贾海燕[1]女士研究的一种碎纸自动拼接中的形状匹配方法。设想给定两个碎片,确定两碎片轮廓形状之间是否存在匹配部分,选择任意一个碎片,把它放在参考坐标系中,称为固定碎片,并选定一个比较长度。

Step1:固定碎片从最高点象素开始取一组长度的象素作为固定链,在另一个将要进行比较的碎片上最高点开始取相同定长叫做旋转链,将旋转链剩余象素进行旋转和平移,固定链所取定长上最后几个象素的垂线和旋转链相交。重复步骤,直到每个象素都进行过匹配。

Step2:再进行碎片旋转。一个碎片在任意旋转一定角度之后,这个碎片的轮廓保持和它的方位相对应。假如选择一度一旋转,那么这个碎片必须在参考坐标系里旋转360个位置,每个轮廓都是有可能匹配的位置。

Step3:运用最优匹配算法,即先取定一个碎片确定固定链,长度m,再取另一碎片确定旋转链,长度仍为m。经过旋转和平移,使这两个碎片满足边界和面积匹配准则。

Step4:进行文件碎片拼接优化,将这两个已经匹配好的碎片作为一个新的固定碎片,用第三个碎片进行匹配,方法同上,并微调第二个碎片,使其位置更合理。

Step5:依次进行直到复原完整。

三、对于图片的不规则文件碎片拼接[3]

我们主要研究运用特征点匹配的快速图像拼接算法。首先对图像进行预处理。然后,采用Harris特征点提取的方法,对待拼接图像进行特征点的提取,利用基于灰度互相关的方法对图像进行初匹配。其次,用基于欧氏距离的聚类预筛选算法,主要依据匹配点对之间的欧氏距离相同或相近这一特点,通过简单聚类的方法筛选出包含欧氏距离值点最多的邻域,则可认为该邻域内的距离值是匹配点对;反之,则认为是不匹配点对从候选匹配点对集中剔除,并运用RANSAC算法对匹配点集进行精确匹配。最后运用基于LM加权融合与拉普拉斯金字塔相结合的图像融合算法,有效消除拼接缝及亮度突变现象,以实现图像的无缝平滑拼接。

四、对于含表格线的不规则文件碎片拼接方法

我们希望利用文字行特征[2]和表格线的方向来拼接形状相似的文件碎片。先对文件碎片进行二值化处理,获取文字边界,进而获取文字行方向、间距、高度等文字行特征。如果有英文汉字,应将英文单词图像拆分成类汉字图像,即将英文单词图像分割成宽度与高度近似的类汉字图像。

以碎片某点作为坐标原点,水平方向作为X轴方向,垂直方向作为Y轴方向,在[-90°,90°]范围内等角取60个方向,再将每个选定方向作为新坐标系的X轴方向,求原像素点。坐标变换后新坐标如果不是整数,则按4舍5入法取值。像素点在新坐标系下只改变坐标值,其颜色属性不变。再求新坐标系下碎纸片边缘的最高点和最低点坐标,从最低点开始给每行(具有相同Y坐标)从1开始编号,计算每行的白点个数、红点个数、宽度(像素个数)。根据每行的红点、白点个数及碎片宽度计算该方向的文字图像个数总数以及文字行行高总和,并按从大到小排列,选文字图像个数最多、文字行行高和最小的方向作为碎片的文字行方向。

一般碎片内表格线的方向与文字行方向平行,且只沿一个方向分布,可采用类似于文字行方向的扫描方法获取表格线方向。再将碎片按此方向重新放置,此后文字方向可能朝上或朝下,故加入人工干预进行图片翻转。将两碎片按文字行方向线位置对齐,然后计算文字行方向线或表格线与碎片边界的交点与处于同一水平位置的另一个碎片交点的距离。若两碎片在拼接位置对齐,则点与对应点距离相等,拼接后与对应点变为同一点。若未对齐,则其距离相等的连续点的个数比对齐位置的要少。

参 考 文 献

[1] 贾海燕,朱良家,周宗潭,胡德文,一种碎纸自动拼接中的形状匹配方法 ,(国防科学技术大学机电工程与自动化学院自动控制系,长沙湖南410073)

[2]罗智中,基于文字特征的文档碎纸片半自动拼接,计算机工程与应用,2012,48(5),207

[3]韩松卫,于明,运用特征点匹配的图像快速拼接算法研究,河北工业大学,控制科学与工程

上一篇:电子政务中的网络安全体系研究 下一篇:基于DCO-OFDM的无线光通信系统性能分析