手势分割方法研究综述

时间:2022-07-03 07:35:04

手势分割方法研究综述

摘 要:手势以其自然直观的特点成为人机交互的媒介。手势识别系统中至关重要的一个环节是手势分割,使用何种方法能够较好的获取目标手势,成为计算机视觉中的研究重点和研究难点,本文总结了手势分割技术的主要方法,并针对所需要获得的目标图像提供合适的分割方法。

关键词:手势分割;轮廓模型;运动分析;肤色提取

中图分类号:TP391.41

随着计算机技术的发展,出现了物联网、信息物理系统(CPS)等新概念、新技术,人机交互技术的重要性更加凸显并成为当前信息产业竞争中的一个焦点。与传统的交互方式相比,手势以其独有的简洁、直观、人性化、信息量丰富的特点成为与计算机交互的媒介。手势分割是整个手势识别系统中的起点和关键技术之一,其分割质量的好坏直接影响到后续操作如特征提取、目标识别的最终效果。手势分割[1]可以理解为从包含手势的图像中提取出有意义地手势区域的过程,其主要特点是选取如颜色,灰度等与无意义区域有明显差异的特征,将手势区域与无意义区域分离,致使二者之间存在更为明显差异。因此对于基于内容的图像检索,对象分析等提取有用信息,必须采用分割效果较好的分割方法。作为计算机视觉中的一个重要研究内容,手势分割技术在图像处理领域有着至关重要的地位。

1 基于活动轮廓模型的分割技术

活动轮廓模型的提出给传统的图像分割和边界提取技术带来了重大突破。活动轮廓模型是指在图像域上的曲线(曲面),在图像力(内力)和外部约束力共同作用下向物体边缘靠近的模型,外部约束力是由图像数据定义的。活动轮廓模型主要由模型的描述,模型的能量函数和模型的最小化组成。基于活动轮廓模型的分割方法是一种半自动的基于先验知识和用户交互的图像分割。根据使用方式、应用曲线的类型和图像能量项的选择等,将其划分为基于变分法的活动轮廓模型和几何活动轮廓模型的分割方法。

1.1 基于变分法的活动轮廓模型分割方法

在1987年Kass,Witkin和Terzopoulos提出了Snake模型[2] ,即基于变分法的活动轮廓模型,又称为参数活动轮廓模型。它是直接以不规则排列的不连续点构成曲线或基函数构成的曲面的参数形式显式地表达曲线/曲面的演化。其工作机制是首先为给定的模型构造所需的能量函数,其次利用变分法对该能量函数极小化,最后根据获得模型演化的偏微分方程,当轮廓线到达目标边界时,能量函数达到最小值而自动停止。该模型的优点是把图像分割问题转化成泛函数求极值问题,通过合适地初始化后轮廓线能够自主地收敛于能量极小值状态,从而获得正确的边界,同时保持了边界的光滑性,降低计算复杂度。但是Snakes模型的缺点是分割的最终效果与活动轮廓的初始位置有关,需要依赖其他方式将Snake放置在感兴趣图像特征周围;当靠近曲率高的边缘时,活动轮廓线有可能收敛到局部极值点,甚至发散;其拓扑结构不易改变。

1.2 几何活动轮廓模型分割方法

几何活动轮廓模型分割方法主要是基于曲线进化的思想和水平集方法共同描述曲线进化的过程,因为采用了水平集方法而隐含有拓扑变化的能力,使得更为复杂结构的图像分割成为可能。其原理是把平面闭合曲线隐性地表示为具有相同函数值的点集,然后根据曲面的进化过程来隐性求解曲线的进化过程,嵌入的曲面总是其零水平集,因此只要确定零水平集就能够确定移动界面演化的结果。由于几何活动轮廓模型的初始轮廓线与参数特性无关,无需对曲线重新进行参数化,它是在轮廓曲线(如曲率)的几何特性的推动下运动到目标边缘,这就弥补了基于变分法的活动轮廓模型的某些缺陷,比如因为水平集方法的引入,从而可以自然的处理拓扑结构的变化。对初始位置不敏感,避免了参数活动轮廓模型必须重复地参数化曲线,提供了稳定的数值算法等优点,基于上述优点,研究学者们把几何活动轮廓模型越来越广泛的应用到计算机视觉和图像处理领域。但该模型的不足之处是仅仅利用了图像区域的灰度信息,致使图像边缘定位的精确度不高。因此目前几何活动轮廓模型分割方法研究的重点和难点是如何求解出不同的轮廓曲线能量函数,获取所需的图像分割结果。

2 基于运动分析的分割技术

视频序列中的手势图像作为一种运动目标实体是手势识别系统的研究重点和难点。视频中的运动目标分割的是指在二维连续图像序列中,将感兴趣的运动目标实体从场景中提取的过程。但是由于视频场景的复杂性,如受到光照、阴影等因素的影响,使得运动目标的分割变得困难。针对不同运动视频场景而言,目前常用于视频图像序列中的手势分割方法主要有以下几种:基于背景减法的分割方法、基于帧间差阈值的方法、基于光流场的分割方法。

2.1 基于背景减法的分割方法

基于背景减法的分割方法原理是先选取多幅图像的平均构建一个背景图像,利用当前帧图像与背景帧图像相减,进行背景消去来获得差分图像,最后通过设定阈值进行目标提取的一种检测运动区域算法。这种方法的优点在于原理和算法都比较简单,根据它较为完整的特征数据,更好的解决帧间差分法中目标区域偏大,目标内部出现孔洞等问题。但是由于受光照变化和外部条件的影响,场景的动态变化致使目标阴影的出现,导致检测的最终效果受到干扰,还有对于背景的更新问题也难以解决。

2.2 基于帧间差分阈值的分割方法

2.3 基于光流场的分割方法

光流技术的思想是通过序列图像中各个像素的矢量特征对光流方程进行求解,从而检测出运动区域,其实质是求解运动目标的速度。基于光流法的分割方法[3]也称为连续处理方法,是由光流场估计和运动场模型构成,通常忽略相邻时刻之间的间隔。在摄像机运动时,能够有效地反映出运动不一致的区域,具有较好鲁棒性,该方法能够在进行运动检测时,给出运动的大小和方向信息。光流法具有很多优点的同时,也存在一些问题,对于运动物体遮挡和运动偏差,没有有效的解决手段。计算过程相当复杂,导致所使用的计算时间太长,一般条件下不能应用于全帧视频流的实时处理。此外还会衰减目标的边缘运动信息,将运动边界模糊化,最终降低了分割准确性。

3 基于肤色检测的分割技术

同其他特征的处理方式相比,颜色特征的处理更快捷简单,同时对方向不敏感,所以肤色检测在人脸和手势的识别与跟踪、数字视频处理、安全防范、医疗保健等领域有着极为广泛的应用价值。根据有没有涉及成像过程,将肤色检测方法分成基于统计的方法和基于物理的方法两种基本类型。

基于统计的肤色检测是利用建立的肤色统计模型实现肤色检测,包括颜色空间的选取和肤色建模两个方面,主要分为静态肤色检测和动态肤色检测。颜色空间是颜色的一种数学表示方式,人们对颜色的研究和应用产生了许多不同的颜色空间,例如用于电视工业的YUV,YIQ,YCbCr,色度学的CIE-RGB真实三原色系统和CIE-XYZ虚拟三原色系统,面向色调的HIS,HSL,HSV等HS系列和TSL。静态肤色模型中,目前常用的主要为非参数化的直方图统计、阈值化的规定肤色范围。直方图统计肤色模型是一种非参数模型,理论上因为与肤色分布形态无关,所以速度快。但是不足之处就是需要大量的统计样本和存储空间,更适用于大规模训练和测试的图像数据。由于受到某些颜色空间的色域没有规则的边界的影响,阈值化的规定肤色范围主要考虑何种颜色空间适合以及如何确定规则的参数。目前主要包括能够适应成像条件随时间的变化的图像和将肤色模型参数调节到适应具体的某幅静态图像的两大类动态肤色建模方法。但是一般情况这些自适应的方法所建立的模型通用性较差,只有规定在具体特定条件下才能得到较高的检测率。

基于物理的方法从皮肤的光学特性出发,引入照明和皮肤间的相互作用,估计肤色可能的分布范围,尽可能实现肤色的光照不变性。在复杂光照条件,基于统计的肤色检测技术不能有效分割感兴趣区域时,就需要此方法对肤色区域进行检测和纠正。总之基于物理的肤色检测和基于统计的肤色检测所使用的数学工具基本相同,主要差异在于是否利用解释皮肤辐射特性的物理模型。

目前肤色检测技术仍然存在一些问题:

(1)环境因素:复杂照明或复杂背景下的肤色检测效果欠佳,单一手段不能获取理想的分割效果。

(2)因为目前还没有建立起统一的肤色数据库,运用定量的手段对各种肤色检测技术的性能进行比较是难以实现的。因此为了能够客观地比较各种肤色的性能,应该着手建立一个统一的系统测评方法和规范。

(3)颜色空间的选择和量化级数与肤色建模和分类方法有关,肤色不是很独特,会出现类肤色与肤色范围重叠,因此应该采用均匀的颜色空间,而不要只局限于比较不同颜色空间的肤色分布形态和交叠情况。

4 总结

随着手势识别技术的广泛应用,手势图像质量要求越来越高,出现了多种手势分割的算法。这些算法各有其优缺点,目前涉及到的大部分算法都是针对较为简单环境下,理想和清晰的目标图像。但是在实际处理过程中,特别是在复杂多变的环境中,想使用单一的分割方法分割出较好的手势图像还存在明显不足。比如复杂环境下出现与手势肤色重叠的情况下,会造成干扰以及运动目标识别困难,使得分割的手势图像存在偏差。另外在获取手势视频序列过程中,往往受光照角度和亮度,背景复杂度以及光源的颜色的影响,也无法得到理想的手势分割图像。那么如何在复杂多变的情况下将人手高效地分离出来,同时提高获取图像的实时性,将成为后续的研究重点。

参考文献:

[2]王辉.基于视觉的实时手势跟踪与识别及其在人机交互中的应用[D].杭州:浙江大学,2008.

[2]李培华,张田文.主动轮廓线模型综述[J].软件学报,2000,11(6):751-757.

[3]Jun Zhao, Shuguang Zhao, Yuan Wang. A novel method for moving object detection in intelligent video surveillance systems[A]. International Conference on Computational Intelligence and Security[C],IEEE,2006,2:1797-1800.

作者简介:莫舒(1988-1)女,布依族,贵州省平塘县人,硕士,主要从事图像处理方面研究;杨小东(1972-11)男,汉族,江西省临川人,硕士,副教授,主要从事通信新技术、控制技术研究。

基金项目:顺德区2012年科技计划项目资助(项目编号:20120202088),顺德职业技术学院科技处资助项目(项目编号:2013-KJZX04)。

上一篇:浅谈在局域网中数据库应用系统的开发 下一篇:建立完善计算机网络防病毒系统的构思