图像分类与聚类分析

时间:2022-07-29 11:43:45

图像分类与聚类分析

摘要:图像分类是一个划分的过程,用聚类分析的方法进行图像分类是一个很好的选择。本文将课题组设计实现的基于密度和自适应密度可达聚类分析算法(CADD)与传统聚类算法K-means和层次聚类在真彩MP位图的分类中作了对比分析,结果证明CADD在图像分类中的应用具有良好的效果。

关键词:图像分类 聚类算法 CADD

中图分类号:TP301.6 文献标识码:A 文章编号:1007-9416(2011)12-0220-02

1、引言

图像分类是根据图像信息中所反映的不同特征将不同类别的目标区分开来的一种图像处理方法。目前提出的图像分类方法各自基于不同的图像模型,它们利用不同的图像特性进行分类,有各自的适用范围和优缺点。常见的图像分类方法可以分为监督分类和非监督分类。

监督分类和非监督分类的根本区别在于是否利用训练数据来获取先验的类别知识。监督分类根据训练数据集提供的样本选择特征参数,建立判别函数,对待分类点进行分类。因此,监督分类依赖于选定的训练数据。相比之下,非监督分类不需要更多的先验知识,它根据图像色彩的数据特性进行分类。因此,非监督分类方法简单且具有较高的精度。本文主要对三种非监督分类方法进行对比分析和有效性验证。

2、非监督聚类分析方法

2.1 K-means方法

K-means以K为参数,把n个对象分为K个簇,使得同簇内的对象具有较高的相似度,簇间对象的相似度较低。当结果簇是密集的,簇与簇间区别明显时,算法效果较好。但由于K-means要求用户必须事先给出K值,而K值的选定又很难,这就使得算法的使用受到限制;同时,K-means不适合发现非凸面形状的簇和大小差别很大的簇,并且对于“噪声”和孤立点数据很敏感,少量的该类数据能够对平均值产生极大的影响,导致聚类结果不好。

2.2 层次聚类方法

层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止。分为凝聚的和分裂两种方法。层次聚类与K-means有两点不同:层次聚类采用逐个样本修正法或者成批样本修正法计算样本均值;层次聚类通过调整样本所属类别完成样本的聚类,也可以自动地进行类别的“合并”和“分裂”,从而得到比较合理的聚类结果。

2.3 基于密度和自适应密度可达聚类方法

算法描述:

输入:数据对象,coefR、σ

输出:簇的数目,每个簇的对象和簇中心点,孤立点或噪声

方法:

(1)计算对象集的相异度矩阵、对象密度,构造候选数据对象链表;

(2)i=1;

(3)repeat;

(4)在候选数据对象链表中寻找密度吸引点(密度最大点)ODensityMaxi,作为簇Ci的中心点;

(5)将自适应密度可达范围内的数据对象划分到簇Ci中,即存放到Ci的数据链表中,同时从候选数据对象链表中删除已划分的对象);

(6)i=i+1;

(7)until候选数据对象链表为空;

(8)将簇所包含数据对象数目小于给定阈值的簇划分到孤立点数据链表中;

(9)输出最终聚类结果。

3、实验结果分析

实验利用MATLAB 7.0得到真彩MP图像的R、G、B像素栅格矩阵,然后利用聚类方法将图像按照R、G、B值的相似性聚类,进而将图像内容分类成不同的色彩区域。本文从大量实验数据中选取了一幅典型的图像进行分析。

对图1(a)所示原始图像分别利用CADD、K-means和层次聚类进行聚类,图像下方C1、C2、C3和C4表示簇和对应颜色。从图1(b)中看出CADD的聚类结果良好,结果簇C1、C2、C3和C4很好的反映出原始图像不同的色彩区域,并且聚类结果的噪声点集反映出了原始图像色彩内容变化过渡像素的存在。从图1(c)中看出K-means的聚类结果不好,C3和C4的分类效果还可以,但C1和C2没能分辨出来。从图1(d)中看出层次聚类的聚类结果也不好,C3和C4、C1和C2都没有很好的分辨出来。

实验结果说明,图像内容色差变化较大且聚类簇的数目选择正确,K-means和层次聚类才能取得较好效果。但现实中的图像色彩变化是比较复杂的,图像内容分类数目的确定很困难。

综上所述,CADD与K-means和层次聚类相比具有较高聚类精度和分辨率;CADD克服了传统单纯划分或层次算法需要人为指定最终聚类数目、不能很好的聚类复杂形状簇的缺点和基于密度的算法不能处理变密度簇的不足;CADD能够划分出变密度的簇和噪声点(孤立点);CADD利用像素点的平均抽样提高了算法的效率。

4、结语

图像的分类是图像处理领域重要的研究课题之一,在许多领域中都有广泛的应用,对它的理论研究有很重要的意义,而且聚类分析方法已成为数字图像分类的重要方法。研究结果表明,通过对聚类算法的改进研究能够提高算法对图像分类的有效性。

参考文献

[1]孟海东,郝永宽,王淑琳[J].计算机与现代化,2009,10.

[2]宋宇辰,宋飞燕,孟海东.基于密度复杂簇聚类算法研究与实现[J].计算机工程与应用,2007,43(35):1622165.

作者简介

郝永宽(1981-),男,硕士,讲师,主要研究方向:数据挖掘技术、电子商务、网络技术;

王威(1973-),男,硕士,副教授,研究方向:数据挖掘技术;

聂维同(1968-),男,硕士,讲师,研究方向:数据挖掘技术;

王德强(1977-),男,中教一级,研究方向:信息技术。

基金项目

内蒙古科技大学创新基金(2009NC091)。

上一篇:交交变频和SIMADYN D系统分析与改造 下一篇:浅析网络测试的理论及实际应用