一种基于支持向量机的场景标注方法

时间:2022-06-08 12:16:39

一种基于支持向量机的场景标注方法

摘要:针对复杂场景中难以标注对象轮廓的问题,提出一种基于支持向量机的场景标注方法。首先采用结构森林法生成边缘概率,再运用分水岭算法将边缘概率转化成初始图像块。为避免过分分割,减少训练开支,利用UCM算法并选取适当的阈值提高图像块对轮廓的精确度,最后通过支持向量机训练分割的图像块进行场景标注。实验表明,在处理复杂的户外场景标注时,基于支持向量机的场景标注方法在像素精确度上表现良好,在对象轮廓上标注效果较好。

关键词:对象轮廓;分水岭;支持向量机;场景标注

DOIDOI:10.11907/rjdk.171167

中图分类号:TP301

文献标识码:A 文章编号:1672-7800(2017)006-0015-04

0 引言

在计算机视觉领域,场景标注[1]作为图像分析的一个重要环节受到广泛关注。场景标注的主要任务是识别图像中每个像素所属类别。由于图像常会受到不同光照强度、对象遮挡以及对象种类繁多和复杂的场景问题,导致像素标注错误,无法很好地标注对象轮廓,最终导致场景标注效果不理想。因此,如何有效提取图像中对象的整体信息,描述图像对象轮廓,一直都是值得研究的问题。

当前的场景标注方法是直接在图像像素的基础上训练模型,而单纯在像素上训练模型很难描述对象轮廓,从而使场景标注难以获得理想效果。基于此,本文提出一种基于支持向量机的场景标注方法SVM-SLM(Scene labeling method based on support vector machine),通^训练图像块,有效解决了基于图像中对象轮廓的描述问题,在像素精确度上也有良好表现。

2 SVM-SLM方法描述

传统的基于像素训练的场景标注模型无法描述对象轮廓,会出现预测对象丢失和对象不完整的问题,从而影响像素精度。文献[2]、[ 3]、[4]研究的场景标注方法时间开销过大,并且精确度不高。针对以上问题本文提出了SVM-SLM方法,具体步骤如下:①采用结构森林方法[5]生成图像的边缘概率图;②将上述生成的边缘概率图用分水岭方法将图像划分为初始图像块;③为防止分水岭方法过度分割并且减少接下来的训练开支,通过UCM算法选取阈值,优化图像块;④对图像块提取特征,利用支持向量机训练图像块得到场景标注结果,并实现具有良好精确度及轮廓效果的场景标注方法。

3 生成图像块

边缘检测是计算机视觉系统中的一个重要环节,包括对象检测[6]、目标预测[7-8]以及场景分析[9]。边缘形状是目标对象几何形态描述的重要表现内容,图像中对象的轮廓往往来自于图像的边缘信息,所以有效提取图像边缘信息方法是关键。

传统的水平集模型需把轮廓曲线演化的能量方程转化为微分方程,进而借助梯度下降法求得方程最优解。这一过程不仅耗时,而且导致计算结果不稳定。考虑到一般图像块对图像的局部特征表现效果很好,本文利用图像块对边缘学习能力很强的特点,提出结构森林[5]与分水岭相结合的方法。首先利用结构森林的学习方法建立随机决策森林,学习每个像素的边缘概率,生成边缘概率图,此过程不但解决了耗时问题还取得了良好的边缘检测效果;再将边缘概率带入分水岭方法生成初始图像块,得到包含轮廓信息的初始图像块,效果如图2所示(彩图见封二)。图2(a)和图2(d)测试为图像,图2(b)和图2(e)为对应的边缘概率图,图2(c)和图2(f)为初始图像块。

4 训练SVM模型

传统的像素训练无法保留图像中对象的轮廓信息,训练时单纯对像素提取特征,忽略了像素之间的局部空间信息,不能很好表达图像中像素之间的区域结构信息。本文通过对带有对象轮廓信息的图像块进行训练,在进行语义标注的同时保留了对象轮廓信息。

采用核描述、核匹配方法,通过2*2网格模型提取像素的纹理特征、颜色特征和梯度特征,对应于同一图像块的像素特征加权合并为图像块特征。随机提取10块图像块生成特征图,利用支持向量机算法对图像块进行训练,如图4所示。

5 实验结果及分析

为了验证方法的有效性,图像数据集采用Stanford Background数据库[11],数据库共715幅复杂的户外场景图片,每张图像大小为320×240像素,附有标注好的正确语义图片。每个像素划分为一类,共8个类别,总计5 491万多像素标记样本,类别分别为天空、树、马路、草地、水、建筑物、山脉和前景对象。

实验随机提取五组训练集和测试集依次带入公共图像块阈值[0.1,0.2,0.3,0.4,0.5]进行评估,每组训练集提取572个图片,运用本文方法分割成若干图像块,平均每组图片被分割成5万多块图像块,运用支持向量机对这些图像块进行训练。用剩余143个图片作为测试集,平均分割成1万多个图像块进行测试,并对每个像素进行语义标注。实验效果如图5所示(彩图见封二)。图5(a)为部分测试图像,图5(b)为数据库正确标注图像,图5(c)为本文方法的场景标注图像,图5(d)为标注失准图,标注错误的像素呈黑色,正确的为白色。图5下方8个色块分别代表8个不同的类别。

利用结构森林生成边缘概率图,将图像边缘作为对象轮廓候选区,提高了场景标注对对象轮廓的标注能力。再通过UCM算法优化图像块,最终场景标注结果如图6所示。图6表明,本文方法在人物、车辆、动物等重要的前景对象轮廓细节上有较好的描述。

6 结语

场景标注是计算机视觉技术的关键步骤。针对像素训练模型容易忽略图像空间结构信息,无法描述对象轮廓的问题,提出一种基于支持向量机的场景标注方法。通过结构森林/UCM生成图像块,构建支持向量机模型,训练得到场景标注结果。实验表明该方法较好地描述了图像中的对象轮廓,获得了良好的精确度和标注效果。但是,由于特征描述采用核描述提取特征,对部分图像块不能有效提取特征,导致部分图像块标注不正确,影响了总体精确度。下一步的工作目标是提高有效特征的提取,以获取更高的精确度及场景标注效果。

参考文献:

[1]顾广华,韩晰瑛,陈春霞,等.图像场景语义分类研究进展综述[J].系统工程与电子技术,2016 (4):936-948.

[2]马成虎,董洪伟.一种基于深度学习的多尺度深度网络的场景标注算法[J].计算机工程与科学,2016,38(7):58-63.

[3]MUNOZ D,BAGNELL J,HEBERT M.Stacked hierarchical labeling[C].European Conference on Computer Vision,2010:57-70.

[4]TIGHE J,LAZEBNIK S.Superparsing:scalable nonparametric image parsing with superpixels[J].European Conference on Computer Vision,2010,63(15):352-365.

[5]DOLLAR P,ZITNICK C L.Structured forests for fast edge detection[C].The IEEE International Conference on Computer Vision (ICCV),2013:1841-1848.

[6]GALL J,LEMPITSKY V.Class-specific hough forests for object detection[C].The IEEE Conference on Computer Vision and Pattern Recognition,2009:143-157.

[7]ARBELAEZ P,JORDI P T,T BARRON J,et al.Multiscale combinatorial grouping[C].The IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2014:328-335.

[8]JORDI P T,ARBELAEZ P,BARRON J,et al.Multiscale combinatorial grouping for image segmentation and object proposal generation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2016.

[9]KUMAR P,KOLLER D.Efficiently selecting regions for scene understanding[C].The IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2010:3217-3224.

[10]ARBELAEZ P,MAIRE M,FOWLKES C,et al.Contour detection and hierarchical image segmentation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,33(5):898- 916.

[11]GOULD S,FULTON R,KOLLER D.Decomposing a scene into geometric and semantically consistent regions[C].The IEEE International Conference on Computer Vision (ICCV),2009:1-8.

上一篇:数字信号处理教学辅助软件设计与实现 下一篇:基于多线程的NAO机器人同步启动技术研究与实现