基于Fisher准则特征融合策略的PNN车牌汉字识别

时间:2022-09-14 12:11:40

基于Fisher准则特征融合策略的PNN车牌汉字识别

摘 要:为克服图像二值化预处理的不利影响,提高汉字字符图像特征的表征能力,降低传统算法的训练复杂度,在此直接应用车牌字符灰度图像,基于Fisher准则对提取的Pseudo-Zernike矩特征和Gabor变换特征进行融合,在最佳鉴别矢量方向上求得表达能力更强的融合特征。训练结构简单、速度较快的概率神经网络作为识别器,实现车牌汉字的正确、快速识别。试验表明,此算法无需对车牌汉字图像二值化,与所采用的概率神经网络识别器相比,传统BP,SVM等的训练复杂度降低,速度提高,经表征能力更强的融合特征训练后,具有更高的识别准确率。

关键词:Fisher准则; 鉴别矢量; 特征融合; 概率神经网络; 车牌汉字识别

中图分类号:TP391文献标识码:A

文章编号:1004-373X(2010)08-0106-05

PNN Recognition of Chinese Characters on License Plate Based on Fisher

Discriminant Criterion Feature Fusion Strategy

GAO Quan-hua1, ZHANG Shi-yong1, SUN Feng-li2

(1. College of Science,Chang’an University, Xi’an710064, China;

2. college of Electronic and Information, Northwest Polytechnic University, Xi’an 710077, China)

Abstract:A novel algorithm for recognizing Chinese characters on license plate is proposed so as to achieve three purposes: overcoming disadvantages of two-value preprocessing, raising the characterization ability of image features and decreasing training complexity of traditional algorithms. According to Fisher discriminant criterion, two kinds of image features, Pseudo-zernike moments and Gabor transforming coefficientsare fused along the direction of the optimal discriminant vectors. The new fused feature has better performance to characterize the image. Probabilistic neural network(PNN) is trained by new fusion features as the classifier due to its simple structure and quick learning rate. Numeral experiment shows this algorithm does not need two-value preprocessing and the obtained classifier has low computational complexity as well as high recognition rate compared with traditional classifiers such as BP and SVM.

Keywords:Fisher discriminant criterion; discriminant vector; feature fusion; probabilistic neural network; recogonition of Chinese character on license plate

0 引 言

一直以来,车牌汉字识别是我国车牌识别技术的难点和瓶颈所在。车牌汉字识别是典型的模式识别问题,其核心技术主要分为对具有最大类间离散度和最小类内离散度中汉字分类特征的构造和提取,以及对最优分类器的选择和设计。因而车牌汉字识别技术的研究也主要围绕这两个方面进行,如王海涛等[1]应用聚类分析实现车牌数字和字母的识别,应用改进BP神经网络对汉字进行识别;黎涛等[2]将优化了的Gabor滤波器组参数作为汉字图像特征,利用最小距离分类器,实现车牌汉字的识别;潘翔等[3]应用小波变换提取车牌汉字图像的小波矩和小波区域密度特征,使用BP神经网络进行车牌汉字识别;王晓光等[4]构造了SVM分类器进行车牌汉字的像素级识别。

不论采取什么方式实现车牌汉字的识别,传统的识别方法具有三个特点:第一,汉字字符图像的特征采用单一特征或者几种特征的简单串连;第二,在第一个特点的基础上,分类器大多采用比较经典的BP神经网络、聚类分析、最小距离分类器、SVM等;第三,汉字字符图像多采用二值化图像。这些方法的不足体现在:一方面,提取的汉字图像特征比较单一,难以有效表征不同的汉字,简单串连的特征融合方式构成的特征对识别率没有太大的改善,相反可能会增加错误识别率,增大分类器的规模;另一方面,BP神经网络易于陷入局部解,分类精度受到限制,在遇到新的类别时,网络重新训练的时间过长,尽管聚类分析和最小距离分类器简单直观,但精度较差,难以区分相似样本,SVM分类器具有较强的泛化能力,但它是基于两分类器的,在构造多分类器的时候,算法复杂度和训练时间都会成倍增加;另外,在对车牌汉字字符图像二值化的过程中,由于阈值选取得不合理,导致字符笔画、结构等信息的丢失。

近年来,基于Fisher鉴别准则的线性鉴别分析方法在字符识别领域得到了广泛运用,取得了良好的效果[5]。 Psuedo-Zernike矩反映的是图像的一种全局统计特征,具有旋转不变性,广泛用于模式识别领域,相比于Hu矩、Zernike矩、Legendre矩和复数矩,其具有更好的抗噪声和抗畸变的能力,Gabor变换系数特征反映了图像的局部细节特征和方向信息,对于图像的断裂、扭曲等具有很好的表征能力。本文直接应用灰度图像,基于Fisher准则将两种特征进行融合,得到在全局统计和局部细节上都能很好表征汉字图像的新特征,识别器采用了结构简单,训练速度很快,容错性较好的概率神经网络,从而在上文提到的三个方面对传统算法进行改进。

1 基于Fisher准则的多特征融合原理与方法

1.1 Fisher准则及鉴别矢量[6]

设w1,w2,…,wC为C个模式类,X为样本的某个特征向量(X为n维列向量)。定义:

ИSb=∑mi=1P(wi)(mi-m0)(mi-m0)T(1)

Sw=∑mi=1P(wi)E{(x-mi)(x-mi)T/wi}

=∑mi=1P(wi)Ci(2)

St=Sb+Sw(3)И

式中:mi,Ci,P(wi)为第i类样本的先验概率;mi为第i类样本的均值;m0为全体样本的均值;Sb为类间散布矩阵;Sw为类内散布矩阵;St为总体散布矩阵。

Fisher鉴别函数定义为:

ИJ(φ)=(φTSbφ)/(φTSwφ)(4)И

使函数J(φ)达到最大值的矢量φ*称为最佳鉴别矢量,考察样本在所有n维矢量上的投影,它在φ*上投影具有最小的类内离散度和最大的类间离散度。

若φ1=φ*,则φ1是Foley-Sammon鉴别矢量集[6]的第一个矢量。Foley-Sammon鉴别矢量集的第i个鉴别矢量φi(1

1.2 多特征融合原理与方法

样本关于特征向量X在方向φ的可分性度量定义为:G(X,φ)=(φTSbφ)/(φTSwφ)。在n维空间中,样本在最佳鉴别矢量φ*方向上具有最大的可分性。一般地,对于多分类问题,仅根据X在φ*上的投影,不能获得满意的分类效果,还必须借助于X在其他鉴别矢量上的投影。不同的特征向量X在它不同鉴别矢量上的投影,可以从不同方向刻划样本的可分性[9]。

设{Xk},k=1,2,…,L为样本的L个n维特征向量,经{Xk}融合生成的样本特征向量记为Z=(z1,z2,…,zm)T。与Xk相应的Fisher鉴别函数记为:

ИJXk(φ)=(φTSkbφ)/(φTSkwφ)(5)

Е摘*Xk为XkУFisher最佳鉴别矢量,设:

ИJXk0(φ*Xk0)=max1≤k≤L{JXk(φ*Xk)}(6)И

式(6)说明样本在方向Е摘*Xk0上具有最大的可分性。若令z1=XTk0φ*Xk0,则在子空间Span{φ*Xk0}的补空间上连续考察式(5)和式(6),可求得z2,z3,…。

由样本的多个特征融合产生样本的新特征,其具体的方法步骤如下:

Step 1: 令i=1,G1=Φ(Φ表示零子空间);

Step 2: 令H=Gi=Span{β1,β2,…,βn-ni},P={β1,β2,…,βn-ni},ni为Gi的维数,(P是由总体散布矩阵St构造的无相关投影空间);

Step 3: 令JXk(φ)=(φTPTSkbPφ)/(φTPTSkwPφ),求{φ*Xk},k=1,2,…,L;

Step 4: 求φ*Xk0,使JXk0(φ*Xk0)=max1≤k≤L{JXk(φ*Xk)};

Step 5: zi=XHk0φ*Xk0,设Gi=Span{η1,η2,…,ηni},则Gi+1=Span{η1,η2,…,ηni,φ*Xk0};

Step 6: 令i=i+1,如果i

Step 7: Z=(z1,z2,…,zm)T即为由{Xk},k=1,2,…,L融合生成的新特征。

2 车牌汉字特征的选择与提取

对于汉字图像的识别,其关键在于选择和提取稳定和鲁棒的汉字特征。传统的汉字特征主要分为汉字的统计特征、细节特征和结构特征三大类,从反映汉字本质粗细程度上看,可以认为主要有两大类,即汉字的总体特征和局部特征。Psuedo-Zernike矩是典型的汉字总体特征,具有良好的抗噪性和旋转不变性,能在汉字残缺和畸变情况下保持一定的稳定性,特别适合于车牌汉字的识别,具有较高的识别率,但它对于笔画比较复杂的车牌汉字变化比较敏感,稳定性较差,而汉字的Gabor特征能从局部细节上对汉字的变化保持一定的稳定性,可以与Psuedo-Zernike矩特征结合实现一定程度的互补。

2.1 Psuedo-Zernike矩特征及其快速算法

Cho-Huak Teh.和Roland T. Chin提出与Zernike多项式相似的一组正交多项式,并构造了新的不变矩,称为伪Zernike矩(Pseudo-Zernike矩,PZ矩或Pseudo-Zernike Invariant Moments,PZIM)。阶数为n、重复度为l的Pseudo-Zernike矩定义为:

ИAnl=n+1π∫2π0∫10Rnl(r)e-jlθf(r,θ)rdrdθ(7)И

式中:f(r,θ)是一幅灰度图像的极坐标表示;Rnl(r)是Pseudo-Zernike径向多项式,其定义为:

ИRnl(r)=∑n-|l|s=0(-1)s•

(2n+1-s)!s!(n-|l|-s)!(n+|l|-1-s)!rn-s(8)И

式中:n=0,1,2,…;l为整数,且满足|l|≤n。显然,Pseudo-Zernike矩具有旋转不变性,并且是正交的。

对于数字图像而言,在应用PZIM提取其矩特征时,必须首先将原始图像映射到单位圆内,因为PZIM是一种正交复数矩,它所利用的正交多项式集是一个在单位圆内的完备正交集。实现映射的方式有两种,即外接法和内切法,如图1所示。

图1 图像由直角坐标系映射到单位圆内的两种方式

外接法可以使原始图像的所有像素点均落入单位圆内,最大限度地保留原始图像的所有信息,这种映射方法比较适合汉字独有的方块形特点,不会在这一环节造成汉字笔画的缺失和遗漏,完整地保留字形和笔画。内切法得到的结果丢失了部分图像信息,保留了原始图像最主要的信息和特征,从而有效减小了计算量,对于英文字母和阿拉伯数字的后续识别不会造成很大的影响。因此,本文采用外接法实现汉字图像到单位圆内的映射。

PZIM基于外接法数字图像映射方式的离散化公式为[10]:

ИAnl=2(n+1)π(N-1)2∑N-1i=0∑N-1j=0Rnl(rij)e-jlθijf(i,j)(9)И

式中:N为数字图像大小;l取正负整数,且|l|≤n;

Иrij=(c1i+c2)2+(c1j+c2)2(10)

θij=tan-1c1j+c2c1i+c2(11)

c1=2/(N-1),c2=-1/2(12)

为了实现车牌汉字的实时识别,必须采取有效的算法,以减少汉字图像PZIM特征提取时的计算量,可以采用PZIM的快速算法[10-11]来有效减少计算时间,满足实时性要求。对于一幅N×N大小的数字图像来说,计算其n阶PZIM的计算量为O(N2n3),在用一般设备计算的情况下,难以满足对车牌字符识别的实时性要求。因此本文采用文献[11]提出的由重复度l从高序数径向多项式向低序数径向多项式迭代的l迭代法,实现对数字图像中PZIM特征的快速提取。Pseudo-Zernike矩快速算法[11]如下:

ИRnn(r)=rnd(13)

Rnn-1(r)=-2nR(n-1)(n-1)(r)+(2n+1)Rnn(r)(14)

h1=l(2l+1)-(2l+1)h2+(n+l+2)(n-l)2h3(15)

h2=(n+l+1)(n-l+1)2lh3+2l-1(16)

h3=-2(l-1)(2l-1)(n+l)(n-l+2)(17)

Rn(l-2)(r)=h1Rnl(r)+(h2+h3r)Rn(l-1)(r)(18)

它的计算量仅为O(n),并可以实现任意阶PZIM的独立计算。该算法的思想为:当n-l≤1时,采用式(13)和式(14)来计算径向多项式Rnl(r)的值,当n-l≥2时,首先通过式(15)~式(17)计算l迭代法系数,再通过式(18)迭代计算剩余径向多项式Rnl(r)У闹怠

2.2 车牌汉字的Gabor特征

Gabor变换是基于多通道、多分辨率分析的一种图像变换算法,符合人类视觉感知系统的特性,其纹理模型基于窄带纹理场模型,能在空域和频域同时达到最佳局部化[12]。二维Gabor变换核函数如下:

ИG(x,y;l,华k)=G1(x,y)cos(R)-exp(-σ22)+

iG1(x,y)sin(R)(19)И

式中:参数l代表波长;华kТ表方向。

ИG1(x,y)=λ2σ2exp-λ2(x2+y2)2σ2(20)

σ=π,R=λxcos 华k+λysin 华k,λ=2π/l(21)

华k=πk/D,k=0,1,2,…,D-1(22)

对于N×N大小车牌汉字灰度图像f(x,y),(xs,ys)为采样点,则该采样点的Gabor特征表示如下:

Иfl,k(xs,ys)=∑N-1x=0∑N-1y=0f(x,y)G(x-xs,y-ys;l,华k)(23)

对于Gabor特征提取,采样点(xs,ys)У娜范ㄊ且桓鲋匾问题。由于车牌汉字图像形体规范统一,笔画位置比较稳定,可以采用固定网格划分车牌汉字灰度图像,每个网格中心点作为采样点,用以完成对采样点的确定,如图2所示。

图2 固定网格划分车牌汉字图像确定采样点示例

3 概率神经网络识别器

概率神经网络(Probabilistic Neural Networks,PNN)是径向基函数网络的一种,常用于模式分类。与BP神经网络相比,它是一种局部逼近网络,对于每个训练样本,只需要对少量权值和阈值进行修正,因此网络训练和学习速度比较快,可以很好地应用于一些实时性要求较强的背景。其网络结构由一个径向基网络层和一个竞争型网络层构成,如图3所示。

图3 概率神经网络结构模型

PNN的第一层径向基神经元数目等于输入样本数,将各种模式与权值向量的距离加权表示与训练样本的相似程度;第二层神经元的数等于分类模式数,神经元激活函数为竞争型函数,它选择那些距离加权值最大的训练样本模式作为网络的输出,即以每个模式出现的概率大小作为最终输出的依据。在模式分类中,其优势在于可以利用线性学习算法来完成以往非线性算法所做的工作,同时又可以保持非线性算法高精度的特性。

4 仿真试验

由于项目经费和试验手段有限,训练样本集由40类160幅标准、噪声、扭曲和残缺的车牌灰度汉字图像构成。测试样本集由40类240幅噪声、扭曲、残缺、旋转、刮痕和模糊的车牌灰度汉字图像构成,除其中12类120幅图像由实际采集、分割而来(见图4)外,其余280幅字符图像都由标准字库改进而来,字符种类涵盖我国大陆几乎所有类型。对训练样本集中每幅图像,提取210维Psuedo-Zernike矩特征和16维Gabor特征。其中,Psuedo-Zernike矩特征的提取采取文献[11]的快速算法,投影方式为外接圆法;Gabor特征的提取采用固定网格方式划分汉字图像,网格大小为4×4,波长参数取值为3.5,方向参数取值为(0,π/4,π/2,3π/4),代表水平、垂直和左右对角线四个方向,核函数为高斯核函数。利用第1节中的方法实现两种特征的融合,对概率神经网络PNN进行训练,将训练好的网络作为识别器。部分训练样本的PNN分类结果如图5所示。

图4 车牌汉字识别部分训练样本和测试样本示例

图5 部分训练样本的PNN分类结果

对测试样本集中的每幅图像,分别提取其Psuedo-Zernike矩特征和Gabor特征,用第1节中的方法实现两种特征的融合,输入识别器进行测试。

试验平台为Matlab 7.0,CPU为双核处理器2.0 Hz,内存为2.0 GB。训练CPU耗时和识别准确率与传统方法的比较见表1。

表1 本文方法与其他识别方法正确识别率

和训练耗时比较(含训练样本)

训练样本数测试样本数Psuedo-ZernikeGabor本文方法(含训练样本)

160240

90.35%92.77%

本文两种特征串行融合本文两种特征并行融合

92.14%94.21%

文献[3]方法文献[4]方法

90.23%98.29%98.40%

BP训练耗时SVM训练耗时PNN训练耗时

12.438 1 s51.596 2 s2.371 5 s

5 结 语

基于Fisher准则,在最佳鉴别矢量方向上对车牌汉字的Psuedo-Zernike矩特征和Gabor特征进行融合,形成新的综合特征,对概率神经网络进行训练。与单独采用两种特征进行识别相比,融合后的车牌汉字识别器其识别准确率提高了2~3个百分点。试验结果表明:

(1) 采用Psuedo-Zernike矩特征和Gabor特征融合得到了新的特征,可以从总体和局部细节更加准确地刻画车牌汉字的本质特征,提高了复杂汉字特征的抗干扰能力,实现了两种特征的优势互补,并且这两种特征可以直接用于灰度图像,无需二值化。

(2) 采用概率神经网络PNN作为识别器,具有快速训练学习和识别的优势,可以很好地满足车牌汉字识别的实时性要求,也充分利用了神经网络的容错性和自适应性。

(3) 错误识别主要发生在噪声、蒙尘等比较严重的笔画比较复杂的字符图像识别上,因此识别前,有效的预处理措施是非常必要的。

(4) 计算机耗时主要集中在特征提取阶段,因此研究特征提取的快速算法或者得到更好、更简单的汉字特征仍然是一个值得继续研究的问题。

参考文献

[1]王海涛, 黄文杰, 朱永凯, 等. 基于聚类分析与神经网络的车牌字符识别[J]. 数据采集与处理, 2008, 23(2): 238-242.

[2]黎涛,罗代升,吴炜,等. Gabor变换的参数设计及其在车牌字符识别中的应用[J]. 中国测量技术, 2006, 32(1): 127-129.

[3]潘翔,叶修梓,张三元. 基于小波的车牌汉字特征提取[J]. 中国图像图形学报, 2003, 8(10): 1219-1222.

[4]王晓光,王晓华. 一种基于SVM的车牌汉字的有效识别方法[J]. 计算机工程与应用, 2004, 24(2): 208-209.

[5]高林,宋枫溪,杨静宇. 正交化Fisher鉴别向量集及其应用[J]. 数据采集与处理, 2006, 21(3): 16-21.

[6]杨健,杨静宇,叶晖. Fisher线性鉴别分析的理论研究及其应用[J]. 自动化学报, 2003, 29(4): 481-493.

[7]LIU K, YANG J. An efficient algorithm for Foley-Sammon optimal set of discriminant vectors by algebraic method[J]. International Journal of Pattern Recognition and Artificial Intelligence, 1992, 6(5): 817-829.

[8]陈绵书,陈贺新,刘伟. 一种新的求解无相关鉴别矢量集方法[J]. 计算机学报,2004,27(7): 913-917.

[9]王正群, 孙兴华, 郭丽, 等. 基于Fisher准则的多特征融合[J]. 计算机工程, 2002, 28(3): 41-42.

[10]CHONG C W, RAVEENDRAN P. A comparative analysis of algorithms for fast computation of Zernike moments[J]. Pattern Recognition, 2003, 36: 731-742.

[11]夏婷, 周卫平,李松毅,等. 一种新的Pseudo-Zernike矩的快速算法[J]. 电子学报, 2005, 33(7): 1295-1298.

[12]曾姝彦,张广军,李秀智. 基于Gabor滤波器的图像目标识别方法[J]. 北京航空航天大学学报, 2006, 32(8): 954-957.

上一篇:基于LabVIEW的摩擦磨损试验机智能测控系统 下一篇:基于FPGA和DDS技术的正弦信号发生器设计