基于离散余弦变换和稀疏表示的人脸识别

时间:2022-10-19 01:18:45

基于离散余弦变换和稀疏表示的人脸识别

摘 要: 传统的基于稀疏表示的人脸识别方法是基于人脸的整体特征的,这类方法要求每位测试者的人脸图像要有足够多幅,而且特征维度高,计算复杂,针对这一问题,提出一种基于离散余弦变换和稀疏表示的人脸识别方法,对人脸图像进行分块采样,对采样样本使用离散余弦变换和稀疏分解,然后使用一种类似于词袋的方法得到整幅图像的特征向量,最后使用相似度比较的方法进行分类识别。实验表明,在此提出的方法比传统的基于稀疏表示的人脸识别方法在训练样本较少时效果更好。

关键词: 人脸识别; 离散余弦变换; 稀疏表示; 词袋; 局部特征

中图分类号: TN919?34; TP391.41 文献标识码: A 文章编号: 1004?373X(2015)06?0115?04

Face recognition based on DCT and sparse representation

WANG Guang?liang, GUO He?fei

(School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China)

Abstract: Traditional face recognition methods based on sparse representation are based on holistic feature of face image. The methods requires enough face images for each test person and the high dimensional feature, and has computational complexity. Aiming at these shortcomings, a face recognition method based on discrete cosine transform (DCT) and sparse representation is proposed, which divides an image into regions, samples in each region, decomposes the samples by DCT and sparse representation, gets feature vector of the whole image with a method like bag?of?word, and then classifies and identifies them by similarity comparing method. The experiment results indicate that the method outperform the traditional face recognition methods based on sparse representation when there are few training samples.

Keywords: face recognition; discrete cosine transform; sparse representation; bag?of?word; local feature

0 引 言

人脸识别一直是计算机视觉领域非常热门的研究课题之一,有效的人脸识别技术可以应用于社会生活的方方面面,比如公共安全、考勤门禁、人机交互等。近年来,学者们提出了很多人脸识别的方法,但是要建立起一个能够在现实环境中进行自动人脸识别的系统还是面临着诸多颇具挑战性的问题[1],比如光照变化、表情变化、镜头角度变化、物体遮挡[2]等。近年来,人脸识别的方法层出不穷,其中一类是将信号处理领域常用的稀疏表示的方法应用到人脸识别:Wright等人在文献[3]中提出了一种基于稀疏表示的分类方法(Sparse Representation based Classification, SRC),并将此方法应用于人脸识别。SRC方法的主要思想是将测试图片用字典原子的稀疏线性组合进行表示,然后对于各个类别,分别只用该类的字典原子对原图像进行重构,将重构残差最小的那一类作为测试图片的类别。后来有一些学者对这种分类方法进行了改进,Yang和Zhang提出了基于Gabor特征的SRC(GSRC)[4],GSRC比原始的SRC对光照变化和较小的角度变化更加鲁棒;Yang等人还提出了一种鲁棒稀疏编码(Robust Sparse Coding, RSC)[5]的方法,这种方法识别效果更好,但是计算开销更大;后来Yang等人研究了在构造字典时将各个类别的字典原子分开进行学习[6],使得字典原子的类间差别更大,类内差别更小,进而获得了更好的识别结果。这类方法都体现出了稀疏表示具有良好的判别性,但是由于它们是基于图像的整体特征的,所以要求在训练集中每个人的人脸图像要有足够多幅,而这个要求在许多现实环境中是很难满足的,而且这种整体特征一般维度会很高,计算较复杂,经常要结合PCA来进行降维。

另一方面,人脸还可以用局部特征来表示,相关的方法有局部二值模式(Local Binary Pattern,LBP)方法[7]、基于Gabor特征的方法[8]等等,另一种基于局部特征的方法是近期由Sanderson等人在文献[9]中提出的一种用于人脸识别的扩展的词袋(Bag?of?Words, BoW)方法,叫做多区域直方图方法(Multi?Region Histogram, MRH),该方法将一幅图像中各个区域中采样得到的局部特征使用一种类似于词袋的方法组合起来作为图像的特征向量来进行分类识别,获得了良好的实验结果。文献[10]中指出,局部特征相对与整体特征对于表情变化和角度变化等更加鲁棒。基于以上原因,结合稀疏表示和区域直方图方法的优点,本文提出一种基于离散余弦变换和稀疏表示的人脸识别方法,对图像进行分区域采样,然后对采样样本使用离散余弦变换和稀疏表示获得特征向量,最终使用基于相似度比较的方法进行分类识别。

1 算法描述

本节首先对稀疏表示方法进行简单介绍,然后描述提出的特征提取方法的具体流程以及最终的分类识别方法。

1.1 稀疏表示介绍

给定一个包含[K]个字典原子的过完备字典[D=d1,d2,…,dk∈Rn×K,K>n],一个待表示的数据向量[y∈Rn]可以表示为这些字典原子的稀疏线性组合

[y=Dα] (1)

式中[α]是对应于[y]的稀疏系数,稀疏的含义是[α]中非零元素的个数少于一个较小的阈值。同样对于一个待表示的数据矩阵[Y=y1,y2,…,yn]可以得到其对应的稀疏系数矩阵[A=α1,α2,…,αn],对原始数据进行稀疏表示所要做的工作就是先获得一个合适的过完备字典[D]然后计算得出原始数据所对应的稀疏系数[α],其中获得字典的过程叫做字典学习,计算[α]的过程叫做稀疏分解。

1.1.1 字典学习方法

字典学习的目的是从原始数据中学习出一个大小合适且可以很好地重构原始数据的过完备字典,目前广泛使用的字典学习方法是由Aharon等人提出的K?SVD算法[11],K?SVD是一种迭代算法,对于给定的训练数据矩阵[Y],K?SVD算法的目标优化函数是:

[minD,AY-DA2Fs.t. ?i, αi0≤T0] (2)

式中[・F]表示求弗罗贝尼乌斯范数(Frobenius norm),其定义如下:

[XF=ijxi,j2] (3)

K?SVD算法每次迭代包括两个阶段:第一阶段固定字典[D],使用下文描述的任意一种稀疏分解方法解得稀疏系数矩阵;第二阶段对字典原子和与其对应的稀疏系数矩阵中的行依次更新,对于要更新的字典原子[dk],式(2)中的开销函数(cost function)可以改写为:

[Y-DA2F=Y-i≠kdiαiR-dkαkR2F=Ek-dkαkR2F] (4)

对[Ek]进行奇异值分解(Singular Value Decomposition, SVD)得到[Ek=UΔVT],将[dk]更新为[U]的第一列,相对应的稀疏矩阵中的行[xkR]更新为[V]乘以[Δ1,1],这样迭代至算法收敛,即满足式(2)。除了K?SVD算法之外,字典学习算法还有Mairal等人提出的一种在线的字典学习算法[12]。

1.1.2 稀疏分解方法

稀疏分解是指在已知过完备字典[D]和原始数据[y]的情况下,求解对应的稀疏系数[α],求解过程就是解决如下的[?0]最小化问题:

[minα0 s.t. Dα-y22≤ε] (5)

这是一个NP?Hard问题,文献[13]证明在一定条件下将式(5)改为[?1]最小化问题:

[minα1 s.t. Dα-y22≤ε] (6)

这两个优化问题是等效的,而式(6)是凸优化问题,可以使用线性规划方法来解决。目前较常用的解决式(6)的方法有[?1]?magic算法和[?1]LS算法。

1.2 特征提取方法

对于一幅人脸图像,首先将其分为[R]个相同大小的区域。对于区域[r],使用有重叠的采样方法从中取出小图像块的集合[Pr=pr,1,pr,2,…,pr,n],根据文献[9]的实验经验表明,每个小图像块的大小为[8×8],重叠为75%,即相邻的两个小图像块会重叠[6×8]或者[8×6]的像素,这样得到的样本效果最好。

对这些小图像块进行正规化得到[Pr′=pr,1′,pr,2′,…,pr,n′],然后对与每个正规化后的图像块[pr,i′]使用离散余弦变换。离散余弦变换具有能量集性,可以将图像的能量都集中在变换矩阵的低频部分,即变换矩阵的左上角部分,利用这一特性,取变换矩阵最左上角[4×4]的数据,并把第一个数据舍去,因为在正规化后,这一维度的数据将不包含任何信息。这样可以从每个小图像块得到一个[15×1]的低维度的特征向量[xr,i]。然后对这些特征向量进行稀疏分解得到稀疏系数[αr,i],这里使用的过完备字典[D]的获得方法如下:

(1) 对所有训练样本进行如上文所述的处理,即分区域、有重叠采样、离散余弦变换;

(2) 对获得的所有这些低维特征向量使用K?SVD算法进行字典学习,获得过完备字典[D];

对每个区域,使用下面的式子来获得该区域的特征向量:

[hr=1nri=1nrαr,i] (7)

式中[nr]为第[r]个区域的取样小图像块总数。

由于在稀疏表示时[αr,i]中可能含有负数,而如果直接用这种带负数的稀疏系数代入到式(7)中会损失很多信息,对此问题找到了3种解决方法:

(1) 使用非负的稀疏分解[14];

(2) 将负数系数与正数系数分为两个向量,这样我们要处理的数据维度将增加一倍,但实际数据量的增加不大;

(3) 简单的对每个低维特征向量求绝对值。

最终通过实验发现简单易行的第3种方法就可以得到良好的结果。经过以上步骤各个区域的特征向量就组成了整幅图像的特征,图1为本文特征提取流程的图1所示。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\25T1.tif>

图1 本文特征提取方法流程

1.3 识别方法

本文的识别方法为相似度比较方法,两张人脸图像间的距离可以用下式进行计算:

[drawA,B=1nr=1nhAr-hBr1] (8)

式(8)中的距离计算方法受图像间的光照变化,角度变化等影响太大,所以我们使用文献[9]中提出的同群归一化(Cohort Normalization)方法来计算图像A和B之间的归一化距离:[dnormA,B=drawA,B121mi=1mdrawA,Ci+1mi=1mdrawB,Ci] (9)

式中:[Ci]是第[i]个同群人脸图像;[m]为总的同群图像数。在式(9)中,所有同群人脸图像是不同于A和B的随机选取的人脸图像,这样式(9)中的分母部分可以度量A和B与不同于他们的图像间的平均距离,[dnormA,B]越接近1则表示A和B属于不同的人,[dnormA,B]越小(在小于1的情况下)越表示A和B属于同一个人,即[dnormA,B]越小,A和B的相似度越高。而且由于引入了同群人脸图像,式(9)对测试人脸图像中的光照变化、角度变化等都是不敏感的。

这样对于一个测试样本,将它的特征向量分别与各个类别的基准人脸图像计算归一化距离,测试样本的类别就是与其归一化距离最小的基准人脸图像的类别,如下式:

[identityFtest=minidnormFtest,Fi,i=1,2,…,c] (10)

式中:[Ftest]为测试人脸图像;[Fi]为各类别的基准人脸图像;[c]为人脸类别数。

2 实验与结果分析

2.1 实验数据库

在extended Yale B[15?16]以及FERET[17]人脸数据库中做了实验,其中extended Yale B使用的是已裁剪出人脸部分的数据,FERET中使用的是pose子集。extended Yale B中的数据人脸变化较小,图像间的差别主要是光照变化,如图2所示。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\25T2.tif>

图2 extended Yale B中一人的人脸图像

FERET数据库中则包含了更多的镜头角度变化,如图3所示。

<E:\王芳\现代电子技术201506\现代电子技术15年38卷第6期\Image\25T3.tif>

图3 FERET中一人的人脸图像

2.2 实验方法

每次实验中把数据库分为3部分:基准人脸数据,训练数据,测试数据。基准人脸数据为每次实验时从每个人的人脸图像中随机取出1张组成;训练数据用于字典学习,并且每次实验中我们要从训练数据中随机取出32幅作为式9中的同群人脸图像。

实验中每幅人脸图像分成[3×3]的区域来进行特征提取,各区域中采样的每个小图像块大小为[8×8],采样时重叠率为75%,过完备字典[D]中的字典原子个数设置为1 024。用这样的参数设置进行了多次实验,最终实验结果为这些实验的总计结果。

2.3 实验结果

表1为本文方法和相关方法在extended Yale B上的实验结果对比,其中训练样本每个类别的人脸图像数目分别为16,24,32三种,表1中的数据表明,基于整体特征的传统的SRC方法在训练数据较少时,识别结果明显低于本文方法。而且在训练数据足够多时,虽然本文方法结果低于GSRC和RSC,但是也达到了很好的识别结果。

表1 本文方法和相关方法在extended Yale B上的实验结果 %

表2为本文方法和相关方法在FERET上的实验结果对比,由于FERET上各个类别的人脸数目都较少,可以看出本文的方法明显优于其他方法。

表2 本文方法和相关方法在FERET上的实验结果 %

3 结 语

本文提出了一种基于离散余弦变换和稀疏表示的人脸识别方法,这种方法结合了稀疏表示和多区域直方图方法的优点,在训练样本较少时,本文方法的实验结果明显优于传统的基于人脸整体特征的方法,在训练样本足够多时,本文方法也达到了良好的识别效果。本文下一步的工作是进一步优化算法性能,使其满足实时的人脸识别系统的要求。

参考文献

[1] JAFRI R, ARABNIA H R. A Survey of face recognition techniques [J]. Journal of Information Processing Systems, 2009, 5(2): 41?68.

[2] 李武军,王崇骏,张炜,等.人脸识别研究综述[J].模式识别与人工智能,2006,19(1):58?66.

[3] WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(2): 210?227.

[4] YANG M, ZHANG L. Gabor feature based sparse representation for face recognition with gabor occlusion dictionary [C]// European Conference on Computer Vision. Berlin Heidelberg: [s.n.], 2010: 448?461.

[5] YANG M, ZHANG L, YANG J, et al. Robust sparse coding for face recognition [C]// IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2011: 625?632.

[6] YANG M, ZHANG L, FENG X, et al. Fisher discrimination dictionary learning for sparse representation [C]// IEEE International Conference on Computer Vision. [S.l.]: IEEE, 2011: 543?550.

[7] AHONEN T, HADID A, PIETIKAINEN M. Face description with local binary patterns: Application to face recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(12): 2037?2041.

[8] LIU C, WECHSLER H. Gabor feature based classification using the enhanced fisher linear discriminant model for face recognition [J]. IEEE Transactions on Image processing, 2002, 11(4): 467?476.

[9] SANDERSON C, LOVELL B C. Multi?region probabilistic histograms for robust and scalable identity inference [C]// Advances in Biometrics. Berlin Heidelberg: Springer, 2009: 199?208.

[10] CUI Z, SHAN S, CHEN X, et al. Sparsely encoded local descriptor for face recognition [C]// IEEE International Conference on Automatic Face & Gesture Recognition and Workshops. [S.l.]: IEEE, 2011: 149?154.

[11] AHARON M, ELAD M, BRUCKSTEIN A. K?SVD: An algorithm for designing overcomplete dictionaries for sparse representation [J]. IEEE Transactions on Signal Processing, 2006, 54(11): 4311?4322.

[12] MAIRAL J, BACH F, PONCE J, et al. Online learning for matrix factorization and sparse coding [J]. The Journal of Machine Learning Research, 2010, 11: 19?60.

[13] TROPP J A, WRIGHT S J. Computational methods for sparse solution of linear inverse problems [J]. Proceedings of IEEE, 2010, 98(6): 948?958.

[14] BRUCKSTEIN A M, ELAD M, ZIBULEVSKY M. On the uniqueness of nonnegative sparse solutions to underdetermined systems of equations [J]. IEEE Transactions on Information Theory, 2008, 54(11): 4813?4820.

[15] GEORGHIADES A S, BELHUMEUR P N, KRIEGMAN D J. From few to many: Illumination cone models for face recognition under variable lighting and pose [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(6): 643?660.

[16] LEE K C, Ho J, KRIEGMAN D J. Acquiring linear subspaces for face recognition under variable lighting [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(5): 684?698.

[17] PHILLIPS P J, WECHSLER H, HUANG J, et al. The FERET database and evaluation procedure for face?recognition algorithms [J]. Image and Vision Computing, 1998, 16(5): 295?306.

上一篇:那些热播电视节目的冠名车型靠谱吗? 下一篇:从水上灯形象看女性精神成长