基于相似度比较的文档碎片拼接到图像拼接

时间：2022-04-13 12:48:44

基于相似度比较的文档碎片拼接到图像拼接

摘要：随着计算机技术的发展，人们试图开发碎纸片的自动拼接技术，以提高拼接复原效率。本文基于相似度比较的原理在解决来自同一页印刷文字文件的碎纸机仅纵切的破碎纸片自动拼接修复技术的前提下，对来自同一页印刷图像文件的碎纸机仅纵切的破碎纸片进行了自动拼接，得到了较好的效果。

关键词：相似度比较文档碎片拼接图像碎片拼接

中图分类号：TP391.41 文献标识码：A 文章编号：1672-3791（2014）02（a）-0063-02

破碎文件的拼接在司法物证复原、历史文献修复以及军事情报获取等领域都有着重要的应用。本文在解决了来自同一页印刷文字文件的碎纸机仅纵切的破碎纸片自动拼接修复技术的前提下，对来自同一页印刷图像文件的碎纸机仅纵切的破碎纸片进行了自动拼接。

1 基于相似度比较的碎片拼接算法

图像在计算机中是以矩阵形式存储的，图片上不同的颜色是以像素值来区别的，比如黑色是“0”，白色是“255”，其他颜色介于“0：255”之间，选择像素值作为特征匹配[1]的元素，通过相似度函数：

可以衡量序列和序列的相似度，值越大两个序列越相似。将图像某行后某列的像素值作为序列，就可以实现像素值的相似度比较。

读取图片的像素值，提取每个图片的左右边界值，形成左右边界矩阵和，然后用右边界矩阵中的每一个列向量分别与左边界矩阵中的列向量进行比较，得到每个值，取这些数中最大值所对应的列向量就是应该和中列向量相匹配的向量，也就是说，如果与中第个向量匹配得到值最大的是中第个向量，那么第个向量应该放在第个向量之后。

该问题的求解通过MATLAB编程实现，软件实现算法流程图如图1。

2 实验与结果分析

2.1 文档拼接实验与结果分析

文档拼接以2013年数学建模B题中附件1和附件2中给出的中、英文各一页文件的碎片数据进行拼接复原。

2.1.1 数据预处理

首先读取19个大小为的文档碎片的像素值，形成一个的三维矩阵，然后提取每个碎片的左右边界值，形成左右边界矩阵和，然后用这两个矩阵中的数据进行相似度比较。

2.1.2 边缘检测与相似度比较

比较和中的各个列向量如果中的第个列向量的像素值和中的第个列向量的像素值完全相同，则第个向量所对应的文档碎片应该处于文档的最左边，第个向量所对应的文档碎片应该处于文档的最右边。如此即可确定出文档的边缘。

然后用右边界矩阵中的每一个列向量分别与左边界矩阵中的列向量进行比较，得到19个值，取这19个数中最大值所对应的列向量就是应该和中列向量相匹配的向量，也就是说，如果与中第个向量匹配得到值最大的是中第个向量，那么第个向量应该放在第个向量之后。

2.1.3 实验结果

在Matlab7.0环境下进行编程，在整个过程中不需要人工干预该程序可以实现自动拼接得到完整的拼接结果，正确率100%，得到文档复原拼接顺序见表1。

2.2 图像拼接实验

由于文档碎片和一般的图片一样，在软件中以矩阵形式存储，因此，文档的拼接方法可以运用到一般图片的拼接上去。然而在文档拼接过程中因为白纸黑字，特征较明显，因此，边缘文档的确定较为简单，而图片拼接过程中，由于图像本身颜色变化较多，边缘特征不明显而使得边缘图像的确定比较复杂。

本文中在对边缘提取进行多种尝试之后确定了，利用缺省值提取的方法进行确定。以的Lena图像的碎片拼接为例。

首先，将Lena图像进行分割，分成16个的小图像，然后按照相似度比较的方法得到与每一幅小图相似度最高的图像，结果如表2。

从表2可以看出没有一幅图像后面该接10号图，因此，10号图应该是最左边的图片，确定了最左边的图像，依次相连就可以得到正确的拼接顺序，如表3。

此外13号图和16号图后面都接14号图，因此，13号图和16号图中有一幅图应该是最后一幅图，此结论也可以对拼接的正确性进行一定的判别。

为了验证算法的正确性，又对Baboon，Bridge等经典图像进行了拼接，均能实现自动正确拼接。

3 结语

本文提出的是一种简单的基于相似度比较的图像拼接算法，该算法中运用的模型简单易懂，使用方便，特征匹配效果良好，是一种很简易的拼接方式。

参考文献

[1] 龚冷方.基于SIFT特征匹配的图像拼接技术研究[D].云南大学.

[2] 刘立.基于多尺度特征的图像匹配与目标定位研究[D].华中科技大学.