跨摄像机视频目标追踪核心技术探索

时间:2022-11-03 03:47:04

跨摄像机视频目标追踪核心技术探索

摘要:本文基于人工智能、视频大数据和图像解析技术,实现跨摄像机协同监控下的目标检测跟踪,提升公安机关海量视频的警务应用效能。本文重点介绍了目标面部遮挡情况下的目标检测技术,提出了基于该技术的大数据问题高效解决方案。

关键词:跨摄像机;目标检测;图像解析;人工智能

视频监控智能化分析系统已广泛应用于公共安全领域,其主要功能是通过对视频内容的分析和抽取实现目标检测跟踪,智能目标检测和事件检测可以在需要人工干预时发出警报和产生应急预案。目前,各大城市已经大规模部署了各种各样的视频摄像机,获取了海量视频数据,但现有视频应用系统仍然存在一些不足,尤其是对面部被遮挡目标的追踪,目前还缺乏有效手段。

1目标跟踪技术现状

目标检测识别分析是计算机视觉领域的热门研究方向,其应用前景广阔,在交通监控系统、智能家居等场景中都能见到它的身影。基于深度学习,目标检测是身份识别领域的基础。自2006年以来,大量国内外学者为深度神经网络的研究做出巨大贡献。目前,这项技术已成功应用在多种模式分类问题上。同样基于深度学习,行人再识别(RelD)技术主要应用于跨摄像机检测跟踪,即判断跨摄像机、跨场景的情况下视频里出现的是否是同一个目标,它主要适用于无法进行人脸识别的情况,通过对目标的外形、体态等特点实现目标识别和追踪。我国已有多家企业在行人再识别(RelD)上取得了重大突破,如澎思科技、云从科技、旷视科技等。其中,云从科技于2019年在行人再识别算法水平三大核心指标的平均精度均值(mAP)和首位命中率(Rank-1Accuracy)上达到了行业顶尖高度。澎思科技也于同年在首位命中率(Rank-1Accuracy)上刷新了世界纪录。然而,目标检测仍然存在很大的深人研究空间,摄像机的参数设置和视角,以及实际场景下的光照、天气、遮挡、非刚体形变等因素使得理想的目标检测仍然是一个挑战。因此,本文将对目标跟踪中的目标检测技术提出新方案。

2技术路线

2.1总体逻辑

本文将通过视频媒体池技术实现离线资源

与实时视频录像大数据的协同关联解析。首先进行对敏感目标的精细化、快速结构化描述,如人脸、步态、轮廓、纹理、颜色等,系统通过对“人体”而不是仅仅依赖于“人脸”的详细描绘,解决因面部被遮挡而产生的人脸识别困难的问题。接着通过对敏感目标的案事件在线建模实现案事件目标自动关联;通过跨资源、跨域敏感目标检测识别,实现基于视频的高效动态布控,精准地得到目标的行动轨迹;通过对敏感目标的跨域跟踪,利用时空关系实现多种视频资源智能关联实现“一张图”作业,基于目标的实时行动轨迹实现公安追逃工作的标准化和高效化。

2.2目标底层特征生成及选取

目标检测分为两个阶段,首先在给定的图像的候选区域里提取特征,接着用训练好的分类器进行分类后,最后再进行特征选取。下面对这三个阶段分别进行介绍。2.2.1目标特征提取针对海量目标识别中单维度生物特征误报率高的问题,本文在特征提取阶段采用识别“人”而不是仅仅识别“脸”的方法。首先确定敏感目标表征某一类样本的特征空间走向,确定在该走向上封闭区域向四外的伸延。按照如下思路构建封闭区域:利用已知样本构造出代表该类样本的高维空间的封闭区域的支撑“骨架”来描述该封闭区域的走向,在该“骨架”的基础上按照一定策略向四外伸延,“生长”出高维空间封闭区域。总而言之,利用已知的样本构造出代表该类样本的高维空间的封闭区域,以后每学习一种新的类型,就构造出代表该类样本的高维空间的封闭区域,然后调节原有各个类别封闭区域占据的空间。2.2.2目标特征分类对目标特征进行提取的下一阶段是特征值分类,本文设计并实现了一种基于Torch分类器的目标识别系统,在Python中利用学习框架Torch搭建、训练深度学习神经网络。相较于基于TensorFlow的传统深度神经网络,本文中的Torch学习框架髙度模块化,便于调试,搭建模型更方便。同时,基于Torch学习框架的神经网络在网络性能上也有提升,相较于基于传统学习框架的系统,在本文设计出的系统的运行下的计算机显存资源利用率更高,运行速度和精确度也得到了显著提升,并且数据参数在CPU与GPU之间的迁移也十分灵活。系统在实现高效的数据分类迁移后,便进人到特征选取的阶段。2.2.3基于多视角特征点的样本特征选取对于模式空间构造而言,另一个重要的问题就是特征选取,特征选取恰当才有可能得到理想的检测效果。本文采用基于多视角特征点的样本特征构造方法,为了提高检测准确性,本文在检测前增加了基于三支决策的位姿识别来适应行为数据的复杂多样,即在进行模式分类前,首先进行位姿识别,如果是正面人体,则不作任何变化直接与模式空间匹配;反之,如果是侧面人体,则首先运用35支决策提出的方法将其转为正面人体之后再进行模式空间匹配运算。为了适应数据动态变化的需求,避免数据样本更新及变化引起的重复学习,本文还增加了增量学习与三支决策相结合,只修改因数据变化而改变的知识和规则。每当新增数据时,并不需要重建所有的知识库,而是在原有知识库的基础上,仅做新增数据所引起的更新,这更加符合人的思维方式。增量式三支行为识别模型如图1所示。本文将增量式三支决策模型用于异常行为的判定中。针对与行为倾向有密切联系的异常行为收集信息,统计出目标的行为模式与规律,通过增量式学习的方法对新数据进行学习,将从新数据中提取出的特征与以前的行为模式和行为规律进行匹配,基于3支决策的思想对匹配结果进行判定,判定结果有行为“正常”、“异常”和“待定”3个种类。

2.3案事件建模、敏感目标识别、跨域跟踪

案事件建模指的是系统对视频内容进行自动分析和抽取,捕捉到敏感目标,对目标的危险等级做出判断,并在需要人工干预时发出预警和产生应急预案,免去了人工预测分析的过程,省时省力。在进行单纯的目标检测时,由于只考虑当前帧内的物体,对于不同视域的物体检测效果较差,对于检测器来说,特定目标识别率较差,很容易错分。同样,单纯的目标再识别算法也只能判断两个物体是否相似,无法应用于实际场景下。通过将目标检测与行人再识别算法相结合,可以解决上述单个目标检测算法或者单个目标再识别算法难以解决的问题。因此,这两种算法的结合可以帮助公安获得更准确的特定目标检测。针对海量案事件目标深度关联实时跟踪困难的问题,本文提出多维度信息融合的目标行为预测和跨域自动跟踪技术。视频资源间的协作会受到视频资源自身参数和目标运动的各种因素的影响,如目标的位置、移动方向、速度等。视频资源的地理分布也应该纳人考虑范围,因为它是计算目标在视频资源之间运动时间的直接因素。如图2所示,以在线、离线、综合等视频资源作为数据源,叠加高度、时间、位置信息,一旦从某个视频资源中发现敏感目标,将及时在“一张图”中进行标定,并通过PGIS时空信息进行目标运动行为预测,实现精准导入一定范围内的视频资源,从而极大地降低了运算负载,提高了系统对敏感目标的跟踪速度与精度。本文提出的跨资源跟踪系统架构如图2所示。

3实验与效果

本文通过对比传统的与改进后的目标跟踪系统的准确率,来检测优化后的目标跟踪技术的应用效果。本文使用相同的软件开发环境来确保实验的准确性,系统开发都使用了Py-thon2.7.12。实验通过增加视图库内含有同一跟踪目标的视频图像的数量,来检测目标识别准确率的变化,最后对比优化前后目标跟踪系统的表现。实验效果(见表1)。通过实验结果可观察得到,本文的目标跟踪系统相比于传统系统,目标跟踪准确率始终高于传统设计下的目标跟踪准确率,同时,同一目标在视图库内的视频图像数量达到2000张后的目标跟踪准确率无限接近于100%,而传统系统下的目标跟踪准确率要在视图库同一目标的视频图像存放达到1万张以后才开始展现无限接近于100%的趋势。实验表明,在相同的开发环境下,优化后的系统在目标跟踪准确率上有显著提升。实验进一步对同一目标进行了优化前后系统的跟踪对比,结果表明,优化后的系统具有更佳的性能。本文提出的目标跟踪方法对身体被部分遮挡的目标的跟踪效果均优于传统方法。值得一提的是,对于目标背影,优化后的系统能准确地进行识别,而传统系统即使在背影图像清晰的情况下也无法精准地识别。同时,在目标图像过小的情况下,传统的目标跟踪系统甚至无法识别到目标。因此,本文提出的目标跟踪技术在跟踪效果上有显著提升。

4展望

本文给出了基于人工智能和视频大数据的视频图像解析方案,有利于推动视频图片智能分析以及其他相关人工智能技术的规模普及与向纵深发展。通过产业链内硬件、平台、算法、应用的合理分工,提高生态系统效率,降低各个部分的技术门槛,促进各个部分的独立创新,实现算法与应用的“百花齐放”式创新,推动安防领域生态系统健康发展。

作者:洪小龙 孙全忠 毛翌 赵锐 单位:广东省公安厅公安部第三研究所

上一篇:班级规模研究的历史演进及启示 下一篇:农业金融发展现状及对策