基于视觉注意的人体动作检测

时间:2022-09-14 01:36:50

基于视觉注意的人体动作检测

摘 要: 基于计算机视觉的人体运动检测是计算机视觉领域中备受关注的前沿课题。本文利用一个基于灰度、颜色和运动等时空特征的视觉注意模型,有效地提取出视频中包含运动信息的显著区域。将这一视觉注意模型与一个基于时空梯度特征提取与子块匹配的人体动作检测相结合,可弥补传统方法耗时长的不足,并提高了对噪声的鲁棒性。实验表明,利用该方法能有效提高人体动作检测的效率和准确率。

关键词: 计算机视觉 视频分析 动作检测 视觉注意

引言

基于视频的人体动作检测在智能视频监控、基于内容的视频检索等方面具有广泛的应用。由于视频数据量大,维数高,对当前各种相关算法与计算机处理能力提出了挑战。近年来,将视觉注意机制与视频分析相结合的方法引起了计算机视觉领域研究者的注意[1][2]。视觉注意模型通过模拟生物视觉对复杂场景的感知特性形成目标的紧凑表达[3]。在图像处理领域,Itti等人提出了针对静止图像的视觉注意模型[4]。该模型依据视觉生理学的研究成果,通过“中央―周边差”算子提取图像的灰度、颜色和方向信息,进一步合成显著图以表示图像中的显著区域。对于视频序列,运动信息也是形成视觉显著性的关键成分之一[5]。

通常基于图像序列的运动与行为分析过程中一般包括环境建模、运动分割、目标分类与跟踪等环节[6]。然而在实际中,运动分割、目标分类等经典难题往往影响了整个视频分析的效果。Shechtman采用的思路[7]是计算查询视频与目标视频的时空相关性,通过提取视频中基于子块的局部时空梯度信息并构造结构张量,并在此基础上计算行为相似性,进而实现人体动作的匹配和检测。然而,该方法需要在三维空间中进行大量的相关度计算,导致其运算复杂度很高,难以满足实时处理的要求[8]。

1.基于时空显著性的视觉注意模型

1.1空间域上的特征提取

空间域特征提取针对视频中的每一帧单独进行。先对每一帧利用多次高斯低通滤波构造高斯金字塔,其中最0层代表原始帧,第1层代表原始帧经高斯滤波并下采样后得到的图像,第2层代表前一层(第1层)的图像经过再一次高斯滤波并下采样所得到的图像,以此类推。具体的层数可以根据输入视频的空间分辨率决定。进一步利用一个模拟生物视觉感受野特性的“中央―周边差”算子来提取灰度,以及颜色两个通道的显著性图[4]。

1.2时间域上的特征提取

运动信息在生物视觉注意机制中起着重要作用。本文采用的视觉注意模型通过时空梯度来获取时域上的显著性[6]。为降低运算复杂度,首先利用帧差法粗略获取运动区域,以避免在非运动区域进行无意义的运动显著性计算。三维视频序列可视为由两类切片组成,即“水平―时间”(x―t)与“垂直―时间”(y―t)切片[8]。根据这两类切片的二维梯度信息生成相应的结构张量,在此基础上分析运动显著性。

1.3显著图的合成

首先对灰度、颜色、运动这三个通道的显著图进行归一化处理,以确保真正显著的位置在合成显著图中得到突出,并在各通道采用一个跨尺度的加算子将不同尺度上的显著图归一到同一尺度上并逐点相加。

2.基于视觉注意的动作检测

2.1基于子块匹配的动作检测

在基于时空相关性的动作检测中,需要解决对于给定的包含特定人体动作的小段查询视频Q,如何在目标视频V中检测出包含相似动作的位置。基于时空梯度和子块匹配的方法通过将视频分解为较小的视频块(例如连续3帧7×7的图像块)并度量子块之间的相关性来获取动作整体的相似度[7]。

该方法对每一个子块P,通过提取时空梯度构造结构张量M[7]并分析得到子块以至视频段之间的匹配度。如果块P只包含单一直线运动,则M是一个不满秩的矩阵。反之,若M满秩,则视频块中包含了多个方向的运动。对于查询视频与目标视频中对应位置的两个视频块P1与P2,同样可以分别生成结构张量M1和M2,两者叠加构成联合结构张量M12。同理,若M12是个满秩的矩阵,则P1与P2包含不同的运动方向。为了得到两个视频块运动一致性的度量,Shechtman等考察M12左上角的2×2子矩阵,[7](该矩阵包含子块的空间域梯度信息),并引入一个连续性的度量来表示两个视频块之间的运动一致性。

利用较小的查询视频Q在较大的目标视频V中进行动作检测,就是将Q与V中各与Q同样大小的视频段落S进行匹配,具体而言,就是将Q与S中对应位置的各视频块进行运动一致性的计算,然后将各块对之间的一致性度量值取平均,作为段落S与Q的相关值,相关值大的段落视为包含查询动作而被输出。

2.2结合视觉注意模型的动作检测

传统的基于时空梯度和子块匹配的动作检测方法需要在三维时空内进行大量的子块相关性匹配计算,从而使得整体耗时很高。若视频Q在三维时空内有M个像素,较大的目标视频V有N个像素,则需要进行约MN次子块匹配,其中每次子块匹配都需要进行矩阵特征值的计算,运算复杂度非常高。本方法在动作检测过程中结合视觉注意机制,将计算集中在包含关键信息的显著区域上,大大减少了检测过程中子块匹配的次数,并提高了对噪声的鲁棒性。

我们从以下两个方面将前述视觉注意模型结合到动作检测过程中。第一,利用视觉注意模型提取查询视频Q与待匹配的视频段落S中的显著视频块。这里的显著块定义为块中显著点个数大于一定阈值的块。进一步,采用一个“或”运算判断每个块对是否有必要进行一次相关性匹配:当对应位置的两个视频块中一个为显著块时,匹配将正常进行,否则该次匹配将被跳过。这大大减少了块对之间的匹配操作,降低了运算复杂度;同时,由于未携带关键信息的非显著块没有参与匹配,其携带的噪声也不会对检测结果产生影响,从而提高了检测过程对噪声的鲁棒性。第二,对于较大的目标视频V而言,并非其中的所有段落均参加匹配,而是仅对具有较高显著性的段落S进行匹配。本文将包含的显著视频块数量大于一定阈值的视频段落S定义为显著段落。通过将匹配运算限制在显著段落中,可以减少不必要的段落匹配,在降低运算复杂度的同时提高了对非显著区域噪声的鲁棒性。由于匹配在三维时空内进行,逐点移动的匹配过程十分耗时。为了进一步提高运算效率,采用由粗到精的多分辨率处理方法,先在较粗的时空分辨率上进行初步匹配,再针对匹配度较高的位置在更为精细的分辨率上进行匹配。多分辨率分析分两个层次进行,如图1所示。一方面,查询视频Q与目标视频V中的段落S进行对应位置块对的匹配时,先在一个粗的分辨率下进行,根据匹配的结果,在相关度高的块对周围进行细分辨率下的匹配,直到在最精细的原始分辨率下完成匹配。在本文实验中,粗分辨率是在原始视频中每隔三帧,每帧的水平和垂直方向每隔7个像素进行匹配。然后在匹配相关度高于一定阈值(实验中取最大值的90%)的位置周围进行细分辨率下的匹配,即每帧的水平和垂直方向上各隔3个像素点进行匹配。最后在原始分辨率下进行最精细的匹配。另一方面,视频段落S在V中的移动也采用多分辨率的方式,即S在时空三维方向上均每隔3个像素点移动一次并与Q进行匹配,再对匹配度较高的S周围的段落进行匹配。通过以上两个层次的多分辨率处理,可以进一步降低计算复杂度。

结语

本文将视觉注意处理机制结合到人体动作检测中。通过建立基于时空特征的视觉注意模型,获取视频中具备显著性从而携带关键信息的紧凑表达,并进一步结合到基于时空特征与子块匹配的人体动作检测中。该方法有效地减少了检测过程中参与运算的无关数据,在降低计算复杂度的同时提高了对信号噪声的鲁棒性。实验结果验证了该方法的有效性。

参考文献:

[1]王亮等.人运动的视觉分析综述[J].计算机学报,2002,25,(3).

[2]刘小明等.基于模型的人体运动跟踪[J].计算机研究与发展,1999,36,(10).

[3]陈武凡.小波分析及其在图像处理中的应用[M].北京:科学出版社,2002.

[4]Douzi H.Faber2schauder wavelet Information Theory,1995,41,(3).

[5]Mallat S G.Multifrequency channel decompositions of images and wavelet models[J].IEEE Trans on Image Processing,2003,12,(11).

[6]Malfait M,Roose D.Wavelet-based image denoising using a Markov random field a priori model[J].IEEE Trans on Image Processing,1997,6,(4).

[7]Donobo D L.De2noising by soft2t hresholding[J].IEEE Trans on.

上一篇:浅析计算机网络的功能及应用 下一篇:《大学计算机信息技术》课程教学方法初探