智能视频监控中的人体行为识别

时间:2022-09-15 02:15:45

智能视频监控中的人体行为识别

视频监控行在2005年之前属于模拟监控时代,2005到2009年是数字监控时代,2009年到现在则进入了IP网络的监控时代,下一个阶段将朝着高清化硬件、智能化应用软件发展。视频监控也将在交通、商住宅、金融、公检法等领域继续得到火热应用。

1 视频监控技术发展现状及挑战

视频监控技术发展分为三个阶段,第一个阶段是人力现场监控,全靠人脑、眼睛盯着现场。后来发展为传统视频监控,电子眼和中控室结合,有人专门盯着屏幕,看各个视频点的情况。传统视频监控效率低下,因为人类只要观看监控器20分钟,人的集中力及判断力将会下降,观看监控器22分钟以上,将会放弃画面变动的95%以上。此外,也造成了资源浪费和信息噪声,高清监控设备的投入使得存储量需要扩展到标清设备的2-4倍,超过PB级的海量存储,信息量巨大;原始监控视频信息噪声大,基于内容、语义的智能分析技术不足,信息难以被充分利用。

第三个阶段是在智慧城市中实现计算机与电子眼结合,实现智能视频分析。智能视频分析技术,起源于计算机视觉技术。它的目标是从视频图像中识别、分析并提取语义的对象与事件,过程是通过背景建模跟踪,识别运动目标,记录目标运动信息和轨迹,分析运动的信息,最后监测某一个事件是否发生。它的理想目标就是监控系统具有自主分析的“大脑”,相当于人的眼睛看到一个视觉信息,然后传导到大脑视觉皮层当中进行处理。

智能视频监控主要涉及的技术有三个,一个是网络技术,即通过IP网络传输视频;第二个是计算机视觉技术,理解视频中的内容;还有一个是智能分析视频中的关键信息。

智能视频分析的案例有很多,如拥堵检测、行车越界、车流量预测、停车检测等等;对地铁、机场中的人员越界、货物遗留的监控;面向特定人群的监控,监控敬老院老人和幼儿园孩子的活动情况,监视孩子的个性是否有怪僻,是否合群等等。还有环境监测,对森林火灾、隧道火灾(见图1)、水灾等等进行监测。

2 视频人体行为分析与理解技术

人是现实世界的核心,因此对人体行为的分析与理解是关键,人体的行为包括肢体的运动,比如手势、跑步、倒地等等,还有多人交互行为。当前的研究应用,更多集中在行为层面的设备和理解上。当前的技术分成三大点,一个是时空分析方法,第二是序列分析方法,第三是层次化分析方法。

时空分析方法

有种研究思路是把视频图像时间轴组成一个3D的时空体,并且抽取各种特征进行比对,以实现行为识别。它是通过研究时间轴来组织3D时空。优点是方法简单、直接,缺点是难以处理速度变化以及行为变化。

序列分析方法

它是通过比对模版行为序列和测试行为序列的特征来实现行为识别。这个思路很简单,它把前面一组数据和后面一组数据进行比对。还有一个就是把人体行为序列看作是多个不同状态之间的转变,通过估计输入行为序列与状态模型之间的相似概率来实现行为的识别,比如对于几个不同的pose,它能对复杂的行为进行建模,但缺点是特征提取困难,需要大量的训练数据。

层次化分析方法

它是把人体行为分解成为多个运动基元或者子事件进行分层分析与识别。其中包括概率方法、具体描述方法。层次化分析方法的优点是适合对更加抽象的,可分解为多个子事件的高层的人体行为及事件进行分析识别,需要更多的人类知识的介入,因此可以含有较少的训练数据。但是缺点是上层分析很大程度上依赖于底层的分析,而底层又比较难做。

由于外部环境的多变性,比如光照、物体运动导致的复杂变化,相机的运动、抖动会导致的视觉变化,还有雾霾也将导致背景的建模困难(见图2)。还有人体行为、运动形式、类别的多样性也是建模的难点。因此需要研究一种鲁棒的行为特征表示。但是因为二维图象识别的二义性,如人体之间的遮挡与自遮挡现象,还有二维到三维的病态影射,所以获取鲁棒的三维特征数据非常困难。

3 视频人体行为分析与理解的关系技术

鲁棒的背景建模

关于鲁棒的背景建模,如果是一种简单的背景建模(见图3),例如(a)是当前拍的个体景的视频,背景是已经知道的,把这两个做一个减法,就变成(c)。它的优点是计算效率高,缺点是视角或背景发生变化时会失效。我们的方法是,用一个路口的摄像头,事先拍了很多的背景图,但是不知道哪一幅是对应的,所以把它拿进来进行背景合成,一下就找到这个合适的背景,然后减去这个背景图,就得到所需要的图像(e)。实验显示,在摄像机旋转、摄像机抖动的情况下,仍然能够拍出好的效果,把它的背景提取出来,也可以很快把一个人的运动轨迹提取出来。

高效的行为特征表达与提取

行为特征表达与提取,主要是基于侧影轮廓的行为特征表达与提取,当前存在多种侧影轮廓的表达方式,但是即使是两个侧影轮廓图看起来差不多,其实景图也可能相差很大。也就是说不同的姿态,可能有相似的轮廓。问题是,许多特征维度与具体问题无关,我们的目标是能够自动提取最有效的体征,降低特征维度,提高计算准确性。用自适应轮廓特征的合并与选取,就是将多个原始特征用多种方式来表述,分别计算傅里叶及小波特征,然后进行组合,做最终的特征输出。

对于人体行为的识别与姿态重建的应用,什么样的轮廓特征表达是最优的?不同轮廓的特征计算效率如何?人体相对于摄像机的朝向与倾角对于识别与重建结果有何影响?这些情况都不知道。我们采用的是一个HuumanEva-i的数据集,采用真实或者合成测试数据对不同轮廓表达,对三维人体效果进行测试。

对轮廓的特征表示可以有多种方法,我们对几种轮廓进行了对比。第一种是在训练和测试的数据中采用同样的表演者,使用合成的测试轮廓。第二种是在训练和测试中采用不同的表演者,使用合成的测试轮廓。通过这几种方式比较发现,训练和测试当中采用同样的表演者,它的误差可能要比使用不同的表演者的误差要小。如果采用同样的表演者,使用合成的测试轮廓要比使用真实的测试轮廓的误差要小。从这里得出的结论是,当训练数据跟测试数据中的行为对象不同的时候,使用合成的数据效果更好,真实应用中可以采用合成的数据作为依据。

图4是数据库指导下的姿态估计与重建思路。

图5是三维人体姿态的特征表达与距离度量。人体中可以分为很多关节点,几何的特征定义可以有很多方法,比如两个点之间的距离,这两点之间的距离相对于另外一个点的距离,可以作为特征,然后对它进行分析。这个实验结果表明,我们采用的这个方法是较好的方法。

三维人体姿态的估计与重建

我们现在叫基于自然视频的三维人体姿态估计与重建。我们在实验室里面要测试一个人体运动,身上可以带一个标记点,但是在一般的情况下,他没有这个标记点,这样的情况我们称之为自然视频。在智慧城市中录下来的视频,如何快速把这个人体的姿态恢复出来?以前的做法是要用视觉的办法,人对它进行分析。现在的思路是,假如有一大批的人体的模型,从中取出一种姿态,通过渲染以后产生一个结果,然后进行比较。如果这两个很接近,就反映了这个姿势就是视频当中我们要的那个动作。采用的方式是这样的,首先对侧影进行分析,引入目标函数。图6是一个电视台的学打太极拳的视频,首先把它进行三维建模,这里面实际上并没有用视觉的方法,而是把事先有的模型点获取下来,这样就很快能得出结果。这里的问题就是如何在每一个候选的姿态中确定最终的姿态,我们搭建了一个系统,支持1到6个普通USB摄像机配置的三维模型系统,可以很快的把人的运动骨架提取出来。对于双摄像机的情况,可以从两个视角对它建模。

关于具有区分度的紧凑多模态特征选择,传统基于多模态特征行为识别算法大多是将不同模态类型的特征直接拼接起来,构成一个更加高维的新的特征表达,增加了冗余性,忽略了不同模态特征之间的互补性。我们的主要思路是从多模态特征的角度来做。要做一些维度削减,去除非相关的特征。已有的方法有一些是基于监督的特征选择,还有非监督的特征选择,至于是监督还是非监督好一些?在现实条件下,非监督的人体行为视频数据比较充分,因此我们采用非监督的机制下的多视角的特征选择。基于RGB―D多模态特征融合的人体行为识别,RGB―D能够相对容易的进行背景建模,深度信息的引入有助于消除运动歧义性。现在有很多人在做这个工作,我们的思路是进行多特征的选择,然后通过多视角的特征学习,最后达到人体运动的设备跟检测的目的。大家最终的目的是一样的,就是对人体行为的识别。

4 人体行为分析与理解的发展趋势

面向具体的行应用,要开发更具实用性的智能人体行为监控系统。解决的途径是引用多模态的传感器,提高准确性。同时,增强对环境上下文的理解,和面向大规模数据集的实时人体行为分析与理解。

现在已经有很多新的传感器,这些传感器的出现,能够解决很多问题,尤其是像现在RGB―D的传感器,因为它有更大的视角,更大的分辨率和更远的感知距离,可以在日常生活中进行应用,附加在环境中的各种传感器有助于辅助对复杂人体行为的理解与识别。因为有了传感器,在很多娱乐当中都可以作为一个很重要的交互手段,例如人与机器的交互。也增强了我们对环境上下文的理解,实时的人体行为的分析与理解技术是构建具有实用性的智能人体行为视频系统的关键技术。

这里还有一些值得思考的问题,比如说我们现在的很多训练数据如何标注,弱标注或者非标注,以及标注错误条件下的模型的建立等等。

现在城市里装了许多摄像头,但是它们没能进行实时的分析,尽管加入这样的系统是很简单的事情,现在各个视频监控之间也是没有联通的,即便是孤岛,它也没有加上智能化,所以我认为通过增加系统的互联互通、硬件的多样化、监控平台的异构等等功能,智能视频分析必将有大的作为。

上一篇:“智慧矿山”系统为矿山安全生产护航 下一篇:近场观察,3D打印那些事儿城市扫描