半监督局部保持高光谱影像降维算法研究

时间:2022-09-10 07:57:39

半监督局部保持高光谱影像降维算法研究

摘要:由于高维特征空间通常会导致不适定问题,针对高光谱影像的统计模式识别是非常艰巨的任务。随着波段数目的增加,高光谱影像分析则面临Hughes现象等障碍,因此促进了降维方法的发展,它能够有效处理有限训练样本下的高维数据集情形。降维算法的目标是在保持原始数据主要本征信息的同时获取高维数据样本的低维表示。为了能够有效解决高光谱影像分析中的“维数灾难”问题,从而改进后续计算复杂度,我们引入一种半监督局部保持的降维算法。

关键词:降维;主成分分析;局部费舍尔判别分析;半监督局部判别分析

中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2015)02-0169-02

Abstract:Statistical pattern-classification of hyperspectral imagery (HSI) is a difficult endeavor, due to the high-dimensional feature spaces often tend to result in ill-conditioned problem. Obstacles, such as the hughes phenomenon, arise as the data dimensionality increases, thus fostering the development of dimension reduction methods, which are able to deal with high-dimensional data sets and limited training samples. The goal of dimension reduction is to obtain a low-dimensional representation of high-dimensional data samples while preserving most of the 'intrinsic information' contained in the original data. In order to effectively solve the problem of 'dimension disaster', thereby improving the computational complexity, we introduce a new semi-supervised local discriminant analysis algorithm.

Keywords:Dimension reduction ;Principal component analysis;Local Fisher Discriminant Analysis ;Semi-supervised local discriminant analysis

由于具备数百个可用波段,高光谱影像能够为影像分类潜在地能提供更加精确和详细的信息。在模式识别中分类通常假定有足够数量的训练样本以获取高分类精度。众所周知,高光谱数据所表示地物的真实类别过程通常是非常困难且成本高。因此,在高光谱影像分类中,拥有足够数量的训练样本以定量估计地物是无法满足的,此问题通常称作“小样本问题”[1]。为了解决此问题,一种方法是应用特征抽取或选择的方法减少原始数据的维度;另一种方法是修改分类器以适应小样本高维度问题。通常高光谱子降维算法主要通过两种方式实现,即特征选择和特征抽取。特征选择是从原始波谱特征中选取部分波谱特征以使特定分类器达到最优的分类精度,如克隆选择法。特征抽取即寻求高维空间到低维子空间之间的最佳投影变换使得关键地物信息得到保存的同时最大限度降低原始数据维度,如PCA[2]、LDA[3]等算法。

传统降维算法如PCA和LDA以及其相应变种存在如下限制,即类条件分布必须是高斯分布。然而高光谱影像数据通常是非高斯的,极端情况下甚至是强多通道的。另外降维算法通常包括监督和无监督两类[4]。在高光谱影像处理领域,标注样本获取难度大且代价昂贵,我们只有少量的标注样本可以利用,由于过拟合问题,监督方法通常表现不好,因此,我们需要利用未标注样本以改进传统降维算法的表现,我们将引入一种半监督局部保持判别分析(SELF)降维算法。

1 半监督局部判别分析

2.2 结果与分析

为了验证SELF算法的有效性,本文将验证该算法在SVM下的分类表现。SVM仅考虑邻近类边界的训练样本,在处理小样本和高维空间数据时表现非常高效。作为一种经典降维算法,PCA寻求最小二乘准则下原始高维数据空间像素点到其嵌入子空间的最佳线性投影变换,通常视为验证其它降维算法优劣的重要标准。因此本文选用PCA算法作为对比算法,验证SELF的优劣。

由于部分地物可用样本数量比较少,我们从已知16类地物中选取最多的9类用于试验,并从每类地物中选取100像素作为训练样本,余下的作为测试样本。所有的算法均在相同的实验配置下进行,目标维度设置为13,验证SELF和PCA算法在SVM下的分类表现。图1为两种算法在SVM下的分类表现,PCA分类精度仅为67.18%,SELF分类精度为89.56%,不难发现SELF明显优越于PCA。这主要是由于SELF充分融合LFDA和PCA特征,有效地保持未标注样本包含的全局信息同时充分利用标注样本的判别信息。

3 结束语

本文论述了PCA和SELF两种不同降维算法,在支持向量机分类器下的分类表现,由试验结果可知,SELF明显优越于PCA算法,这主要是由于其能利用未标注样本的全局信息同时能够有效利用少量标注样本包含的标注信息。本文只是简单的验证SELF算法在AVIRIS场景下的分类表现,并未验证该算法在不同场景下的分类表现,下一步的工作重点是验证该降维算法在不同高光谱场景和基于不同分类器的分类表现。

参考文献:

[1] Chang C-I. Hyperspectral Data Processing: Algorithm Design and Analysis [M]. John Wiley & Sons, 2013.

[2] Jolliffe I. Principal component analysis [M]. Wiley Online Library, 2005.IGARSS '01 IEEE 2001 International, 2001: 2893-5 vol.6.

[3] Sugiyama M. Dimensionality Reduction of Multimodal Labeled Data by Local Fisher

Discriminant Analysis [J]. J Mach Learn Res, 2007, 8(1027-61.

[4] Qiao L, Chen S, Tan X. Sparsity preserving projections with applications to face recognition [J].

Pattern Recognition, 2010, 43(1): 331-41.

[5] Sugiyama M. Local Fisher discriminant analysis for supervised dimensionality reduction [M].

Proceedings of the 23rd international conference on Machine learning. Pittsburgh, Pennsylvania;

ACM. 2006: 905-12.

上一篇:云环境下新课堂现代教育技术应用研究 下一篇:高等职业院校物联网专业建设的探索