结合尺度不变特征变换和Kalman滤波的Mean Shift视频运动目标跟踪

时间:2022-07-12 11:49:12

结合尺度不变特征变换和Kalman滤波的Mean Shift视频运动目标跟踪

摘要:

为解决目标跟踪中运动目标存在较大尺度变化、旋转、快速运动或遮挡时跟踪效果欠佳的问题,提出了一种将尺度不变特征变换(SIFT)特征匹配和Kalman滤波与Mean Shift结合的运动目标跟踪方法。首先,利用Kalman滤波估计目标运动状态,将其估计值作为Mean Shift跟踪的初始位置;然后,当候选目标模型和初始目标模型的相似性测度系数小于某一阈值时,启用SIFT特征匹配寻找目标可能位置,并在该位置处建立新的候选目标模型,同时进行相似性测度;最后,比较两者所得匹配系数,取其中较大者对应的位置作为目标的最终位置。实验结果表明,该算法的跟踪平均误差较单独将Kalman滤波或SIFT特征与Mean Shift结合的跟踪算法减小了约20%。

关键词:

目标跟踪;尺度不变特征变换算法;Kalman滤波;Mean Shift;尺度空间

0引言

运动目标跟踪是计算机视觉领域的重要分支,广泛应用于监测导航、军事制导、医学诊断、智能交通、视频监控等方面,是实现更高层次行为分析和理解的基础,一定程度上能有效地弥补人类生理特点的局限性。它借助于对运动目标有效的特征表达,通过一定的相似性度量和匹配搜索算法实现目标定位和追踪。运动目标跟踪算法一般可分为四类:基于主动轮廓的跟踪、基于特征的跟踪、基于区域的跟踪和基于模型的跟踪[1-3]。在众多目标跟踪算法中,Mean Shift算法[4-5]采用颜色特征,因其运算简单、实时性好的优点而得到广泛使用。但其在背景混乱、目标遮挡、快速移动以及存在明显的尺度变化等情况下容易丢失目标。尺度不变特征变换(Scale Invariant Feature Transform, SIFT)算法[6]在尺度空间上寻找极值点,提取出的SIFT特征向量能保持对图像缩放、旋转、仿射变换及光照的不变性,抗噪性强且信息量丰富,适于在海量数据库中进行快速、准确的匹配,因而SIFT算法一定程度上可以解决因目标尺度变换、光照、遮挡、杂物场景和噪声对运动目标检测和跟踪的影响。文献[7-9]将SIFT和Mean Shift结合,较为有效地解决了目标跟踪中部分遮挡和尺度变化问题,但由于SIFT算子时间复杂度较大,使得算法的实时性下降。Kalman滤波是一种线性最小误差估计的算法,在运动目标跟踪中可通过预测目标在下一帧中可能的位置,将全局搜索问题转化为局部搜索来提高算法的实时性,且在目标快速运动时能保持跟踪的稳定性。文献[10-11]将Kalman滤波和Mean Shift结合,比较有效地提高了目标快速移动和部分遮挡时跟踪的鲁棒性,但在目标运动方向突然变化时稳定性较差。据此,本文提出一种将SIFT和Kalman滤波与Mean Shift结合的跟踪方法,充分利用SIFT特征的尺度不变性和Kalman滤波对运动目标状态的估计特性,进一步提高了算法在跟踪中目标出现较大尺度变化、旋转、遮挡和快速运动情况时的适应性。

1SIFT简介

SIFT是一种图像局部特征描述算子[7]。其实质是在不同尺度空间上查找特征关键点,其实现需经历以下3步:关键点检测、关键点描述(SIFT特征向量生成)、关键点匹配。

1.1关键点检测

Lindeberg[12]证明高斯核是唯一可以产生多尺度空间的核,图像的尺度空间L(x,y,σ)可以用原始图像I(x,y)与一个可变尺度的2维高斯函数G(x,y,σ)的卷积来定义:

其中σ是尺度空间因子。

为了得到不同尺度空间下稳定的特征点,可用图像I(x,y)与不同尺度因子下高斯核G(x,y,σ)的卷积构成高斯金字塔,然后通过高斯金字塔中相邻尺度空间函数相减得到高斯差分(Difference of Gaussian,DoG)金字塔,用D(x,y,σ)来表示:

D(x,y,σ)=(G(x,y,kσ)-G(x,y,σ))*I(x,y)=L(x,y,kσ)-L(x,y,σ)(3

在如图1建立的DoG中,如图2通过比较标记为叉号的点与其上、下两层及同一层的相邻点,检测DoG空间的局部极值,并利用梯度方向分布特性为每个特征点指定方向参数,确定关键点的主方向。检测完毕的每个特征点均包含位置、尺度和方向3个信息,保证了关键点的平移、缩放和旋转不变性。

1.2关键点描述

描述的目的是用一组特征向量将检测到的关键点描述出来。描述生成的SIFT特征向量,可作为目标匹配的依据。其基本思路分3步:首先,对关键点周围图像区域分块;其次,计算块内梯度直方图;最后,生成特征向量。具体实现如图3所示,左边为关键点周围区域图像梯度,右边为生成的关键点描述子。

如图3左边所示,以中央黑点代表的关键点位置为中心取8×8的窗口,每一小格代表尺度空间下该点邻域内的一个像素,箭头方向对应像素的梯度方向,其长度表示梯度值的大小,圆圈则代表高斯加权的范围,且像素越靠近特征点,其梯度方向的信息贡献越大。最后,在4×4的窗口内计算8个方向的梯度方向直方图,生成关键点描述子。Lowe的实验结果表明:描述子采用4×4×8=128维向量表征,综合效果最优。

1.3关键点匹配

相似性度量是关键点匹配的第一步,一般采用欧氏距离、马氏距离等距离函数得到图像间的潜在匹配。接下来常用一种叫kd树的数据结构,以目标图像的关键点为基准,搜索与目标图像的特征点最邻近的原图像特征点和次邻近的原图像特征点。如果最近邻距离和次近邻距离的比小于某个阈值,则接受这对匹配点。因匹配过程中存在着大量的错配点,故还需采用其他附加约束来消除错配。随机抽样一致(Random Sample Consensus, RANSAC)算法常被用来提高匹配的鲁棒性。

上一篇:组合标记的多视图半监督协同分类算法 下一篇:中缀算术表达式的轻量化求值算法