基于DPM的人体检测

时间:2022-03-06 02:08:18

基于DPM的人体检测

摘 要: DPM算法利用图结构模型,构建了一个检测目标与模型的算法。本文通过使用DPM算法对随机的100幅含有人体的图片进行测试,检测整体准确率达到83%,而其中对于直立人体检测率精度较非直立人体检测精度更高。通过对标准数据集以外的人体图片的检测,进一步验证了DPM算法对人体检测的有效性。

关键词:人体检测 可变形部件模型 图结构模型 隐藏变量SVM

中图分类号:TP391 文献标识码:A 文章编号:1003-9082(2015)05-0007-02

一、引言

人体检测是让计算机用人的思维把图片中的人体识别出来的一种技术。目前复杂背景下人体检测的研究取得了一定的成果,主流方法有方向梯度直方图法(Histograms of Oriented Gradient,HOG) [1]、形状上下文法(Shape Contexts) [2]、可变形部件模型法(deformable part models,DPM) [3]等。其中DPM算法是基于HOG算法改进而来。

HOG核心思想是图像中物体表象和形状可以被像素强度梯度或边缘的方向分布很好地描述。HOG是在一个网格密集的大小统一的细胞单元上计算,为了提高性能,还采用了重叠的局部对比度归一化技术。HOG检测器在MIT的行人数据集上表现相当好,对于其他基于形状的目标检测表现也同样好。形状上下文是一种用直方图来表示的方法,对形状的轮廓非常敏感,易受噪声影响 。DPM算法采用了改进后的HOG特征,支持向量机 (Support Vector Machine,SVM)分类器和滑动窗口(Sliding Windows)检测思想,用多组件的策略解决目标的多视角问题;用基于图结构(Pictorial Structure)[3]的部件模型策略解决目标本身的形变问题。此外,将样本所属的模型类别,部件模型的位置等作为潜变量(Latent Variable),采用多示例学习(Multiple-instance Learning)[4]来自动确定。DPM可以表示各种多变的目标并且在PASCAL目标检测挑战赛上达到了目前最优结果[5]-[7]。

由于人体姿势的不确定性和外表的多变性,例如,人可能穿不同的衣服,做不同的姿势,相对于其他的物体,把图像中的人体检测出来是一项比较困难的工作。本文将使用可变形部件模型(DPM)法对随机的100幅含有人体的图片进行测试。

二、模型

DPM模型主要有两种,星型结构的部件模型和混合星型结构的部件模型,下面将简要介绍两种模型。

1.星型结构的部件模型

星型模型由一个大体上覆盖整个目标的粗糙的根滤波器和覆盖目标中较小部件的高分辨率的部件滤波器构成。根滤波器定义了检测窗口(滤波器所覆盖的特征空间部分的像素),部件滤波器被放置在根所在层的λ层之下,该层特征的分辨率是根所在层的特征的两倍。

实验发现用高分辨率特征来定义部件滤波器对获得高识别性能至关重要。用这种方法部件滤波器可以捕捉相对于根滤波器更精确定位的特征。例如建立人脸的模型,根滤波器捕捉的是人脸边界这些粗糙边缘信息,部件滤波器可以捕捉眼镜、鼻子、嘴这些细节信息。

含有n个部件的目标模型可以形式上定义为一个 元组: (F0,P1,……,Pn,b),F0是根滤波器,Pi是第i个部件的模型,b是表示偏差的实数值。每个部件模型用一个三元组定义:(Fi,vi,di),Fi,是第i个部件的滤波器;vi是一个二维向量,指定第i个滤波器的锚点位置(即未发生形变时的标准位置)相对于根的坐标;di是一个四维向量,指定了一个二次函数的参数,此二次函数表示部件的每个可能位置相对于锚点位置的变形花费。

每个目标假设都指定了模型中每个滤波器在特征金字塔中的位置:z=(P0,…Pn), ,其中pi=(xi ,yi ,li) ,li表示第i个滤波器所在的层和位置坐标。我们这里需要每个部件所在层的特征分辨率都是根滤波器所在层的特征分辨率的两倍,即 li层特征是 l0 层特征的分辨率的两倍,并且 li=l0-λ ,(l>0)目标假设的得分等于每个滤波器在各自位置的得分(从数据来看)减去此位置相对于根位置的变形花费(从空间来看)再加上偏差值:

给出了第i个部件相对于其锚点位置的位移:(x0,y0) 是根滤波器在其所在层的坐标,为了统一到部件滤波器所在层需乘以2,vi是部件i的锚点相对于根的坐标偏移,所以 表示未发生形变时部件i的绝对坐标(锚点的绝对坐标)。而

是变形特征(水平、垂直位移及其平方)。

如果 di=(0,0,1,1),则第i个部件的变形花费就是它实际位置与锚点位置距离的平方。通常情况下,变形花费是位移的任意可拆分二次函数。引入偏差值是为了在将多个模型组成混合模型时,使多个模型的得分具有可比性。

目标假设z的得分可以表示成点积的形式: ,β 是模型参数向量, 是特征向量,如下:

这就将模型和线性分类器联系起来了,实验使用隐藏变量SVM(LSVM)来学习模型参数。

2.匹配

在图像中检测目标时,根据各个部件的最佳位置计算每个根位置的综合得分(overallscore),如下:

(6)

高得分的根位置定义了一次检测,产生高得分根位置的部件位置定义了一个完整的目标假设。

通过定义每个根位置的综合得分,突出显示可以检测目标的多个实例(假设每个根位置上最多一个实例)。这种方法与滑动窗口检测器有关联,因为可以认为 是检测窗口在指定根位置的得分。

3.混合星型结构的部件模型

含有m个组件的混合模型可由一个m元组定义:M=(M1,…,Mc,…,Mm),其中Mc是第c个组件的模型。一个混合模型的目标假设指定了一个组件 以及Mc中每个滤波器的位置: ,这里 nc 表示模型Mc中的部件个数。此混合模型目标假设的得分等于第c 个组件模型的目标假设 的得分。

如果是单组件混合模型,混合模型的目标假设得分可以用模型参数向量β和特征向量 的点积来表示。如果是多组件混合模型,向量β是每个组件的模型参数向量的串接。特征向量 是一个稀疏向量,其中的非零元素为 ,与β中的 位置相对应

(7)

(8)

所以有 用混合模型检测目标时,使用上节介绍的匹配算法,找到对所有部件产生高分假设的根位置。

三、实验数据及结果

本文使用P. Felzenszwalb 的DPM模型来识别非训练集的图片,检测模型的识别率。从PASCAL VOC 2009 dataset里面任意取100张各种人体的图像,部分图像如图1所示。

对这100张图片中的人体能够识别的有83张,图片识别率是83%。其中,对于直立人体自然图像DPM模型识别率几乎可以达到100%,包含了正面、侧面、背面情况的直立人体。对于背景颜色比较深的人体、光照的强度不均匀分布的人体图、坐姿人体图,DPM模型识别效果不理想。综上,DPM算法对于直立姿势的人体具有较好的检测效果,而对于坐姿这类非直立的人体姿势则需要改进算法、增强检测效果。

四、结论

本文是基于可变形部件模型(deformable part models,DPM)法的基础上,对新数据集的图片进行检测。对于随机的100副图片检测准确率可以达到83%以上,但对坐姿、侧卧的人体检测还需要进一步完善。改进模型,丰富训练集的图片,以期获得更高的检测准确率。

参考文献

[1]N.Dalal and B.Triggs, Histograms of oriented gradients for human detection[C]. in 2005 IEEE Conference on Computer Vision and Pattern Recognition.

[2]A. Torralba. Contextual priming for object detection[J]. International Journal of Computer Vision, 2003, 53(2): 169-191.

[3]P. Felzenszwalb ,D. Huttenlocher. Pictorial structures for object recognition[J]. International Journal of Computer Vision, vol. 61, no. 1, 2005.

[4]S. Andrews, I. Tsochantaridis, and T. Hofmann. Support vector machines for multiple-instance learning[J]. in Advances in Neural Information Processing Systems, 2003.

[5]Pedro F.Felzenszwalb, Ross B.Girshick, D.McAllester et al. Object detection with discriminatively trained part based models [J]. IEEE Trans Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.

[6]P. Felzenszwalb, D.McAllester, D.Ramanan. A discriminatively trained, multiscaled, deformable part model [C]. In: 2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, USA, 2008. Piscataway, NU, USA: IEEE, 2008: 151-168.

[7]P. Felzenszwalb, R. Girshick, D. McAllester. Cascade Object Detection with Deformable Part Models[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2010.

上一篇:关于重点中学高三英语复习的一些建议 下一篇:华龙区干部教育培训调研报告