一种改进的脱机手写汉字四角特征粗分类方法

时间:2022-03-22 05:07:26

一种改进的脱机手写汉字四角特征粗分类方法

【 摘 要 】 将粗分类应用于脱机手写汉字识别中,采用这种多层次分类策略,能有效地改善识别的性能,提高识别精度。本文提出了一种利用四角区域结构特征对手写汉字进行粗分类的方法。在对汉字基本笔画进行分析的基础之上,根据手写汉字形变的特点以及识别算法的要求,定义一组新的笔画单元,并将这些笔画单元与汉字特定区域内的结构进行比对,得到一组4位结构特征编码,以此作为脱机手写汉字粗分类的依据。对GB2312一级字库中的部分手写汉字进行采样和识别实验,结果证明改进的四角结构特征用于粗分类的有效性。

【 关键词 】 手写汉字识别;粗分类;结构特征

1 引言

我国汉字数量非常庞大,约10万字左右,仅GB2312中规定的一级常用汉字就有3755个。针对如此大规模的字符集,若采用直接识别,会极大地降低识别速度。通过加入一级或多级粗分类,缩小待识别汉字范围,减少细识别复杂度,是一种提高系统效率的有效方法。刘峡壁和贾云得使用笔段中心点法对汉字进行粗分类,将汉字分解为横、竖、撇、捺4种类型笔段,将每个笔段中心点的坐标和相同类型笔段的数量作为分类特征。该方法表达了手写体汉字中基元的形状、位置、大小以及相互关系的模糊性,可同时用于联机和脱机手写体汉字识别,有很好的分类效果。这说明利用结构特征进行汉字粗分类是有效可行的。

但是,由于汉字结构复杂,不同的书写习惯以及书写时受到的干扰都会造成汉字的形变,形成不可计数的书写风格,这使得脱机手写汉字识别中整体结构特征的提取方法复杂且极不稳定。而汉字结构不仅包含了丰富的信息,并且,在汉字整体结构变化较大的情况下,结构信息也能保持相对稳定和完整。

Hahn-Ming Lee等提出一种将统计特征和结构特征相结合的方法,使用模糊集理论提取特征并使用SEART神经网络作为分类器以减小汉字形变的影响。

Yiu-Man Tham等使用一种基于四角号码的粗分类方法,提取四角笔画特征产生多组特征号码进行分类,当分类错误时,利用反馈机制产生一组新的特征号码,以此提高对手写汉字结构变化的适应性。

本文在文献[3]的基础上,改进特征基元的选取和提取方法,提出一种基于手写汉字四角结构特征的粗分类方法。选取汉字结构中几种不易受形变影响的简单结构作为特征结构基元,每个基元与一个十进制数值相对应。对待分类汉字四角区域内的特征笔画分别提取笔画属性,使之与特征基元进行匹配,形成一个4位特征编码,将此编码作为粗分类依据。

2 四角笔画特征

Yiu-Man Tham等定义了9种笔画基元类型,将他们与汉字特定区域内的笔画结构进行匹配,以匹配结果作为粗分类特征。这9种类型包括了单笔基元和组合基元两部分,这与传统的四角号码特征基元有相似之处。本文延续文献[3]的思想,以传统四角号码特征基元作为基础,结合手写汉字结构和图像识别特点,对用作粗分类的笔画基元作一步改进。

利用传统四角号码特征基元和文献[2]中笔画类型对汉字图像进行笔画提取实验,出现几种问题。

(1)单笔笔画之间的区别特征易受手写汉字形变影响,造成基元之间的识别错误,如图1所示,由于两个“心”字左边第一笔长度差异较大,在原有四角号码特征基元中,无法区分属于点还是撇。

(2)组合笔画内部各个小部件之间相互独立,计算机无法识别为整体,当确定某一部件后,容易错找或遗失其它部件,从而识别错误。如图2中,“学”字上部整体属于原特征笔画的“小”结构,但三个子部件并无交集且距离较远,提取和识别较困难。

通过对大量样张的观察和研究发现,尽管手写汉字形变多样,但有3种笔画结构特征相对稳定:拐点,交叉点和方向。所以,在基本汉字笔画、原有四角基元和文献[3]中笔画类型的基础之上,舍弃组合基元及长度的判断,以上述三种特征为主要判断依据,划分为7种既便于抽取又具有典型意义的笔画基元, 2 四角特征提取

2.1 四角特征提取算法

进行特征提取之前,首先对汉字图像进行二值化、细化等预处理。

汉字笔画由一定数量的笔画点组成。将汉字的笔画点定义为4种:

(1) 端点,笔画的起点和终点;

(2) 叉点,分为交叉点和三叉点(3) 折点;

(4) 过渡点,即以上三种笔画点之间的连接点。

特征提取算法步骤为:

(1)由四个角开始分别以225°、315°、135°、45°向图像中心逐行扫描,如图6所示。当得到第一个黑色像素点时停止扫描,此像素点所在的笔画即为汉字在该角的特征笔画。

(2)利用如图7所示八邻域模板实现对特征笔画的追踪和记录。当找到黑色像素点并将其所在的笔画确定为特征笔画,之后,从此点开始向上或向下寻找特征笔画端点。模板中P为当前像素点,P[0]~P[7]分别代表模板中对应位置的像素点,sum为P[0]~P[7]黑色像素点的个数和。

判定规则如下:

sum=1,中心点P为特征笔画端点。若找到的是第一个端点,开始记录笔画点轨迹,若找到的是第二个端点,说明特征笔画追踪完成,结束记录。

sum=2,中心点P为特征笔画的过渡点,记录该点并将模板中心点p向未记录过的下一点移动。

sum=3,中心点P为特征笔画的三叉点,选择合适的下一点并将模板中心点P移动到该点。

sum=4,中心点P为特征笔画的交叉点,累加交叉点数量,选择合适的下一点并将模板中心点P移动到该点。

(3)当找到第一个端点后,重复步骤(2),并开始记录像素点轨迹。

(4)两个端点都找到后,结束笔画追踪和记录,开始对特征笔画的属性分析判断。

算法中,对三叉点和交叉点下一步的判断,决定了能否正确地捕捉笔画走向,对于准确地提取特征笔画起到至关重要的作用。

交叉点的四个分支中,两个组成特征笔画,另两个为干扰笔画。通过对手写汉字结构的研究发现,交叉点一般由两个较直笔画组成,所以,属于同一笔画的两个相关分支之间呈约180°角。

交叉点判断过程如下:

当笔画追踪到交叉点时,设此交叉点为P,由P向四个方向分别前进5个像素点,得到的四个新点分别设为P0、P1 、P2 和P3,所示,其中P0为中心点P上一步位置。

计算:

其中Do=Distance(P,P0), Dx=Distance(P,Px),

D0x=Distance(P0,Px)。

比较得到的三个角度,选取最接近180°的分支作为交叉点下一步方向,记录该点并将交叉点个数加1。

三叉点主要存在于两个笔画接触而并不相交处(如图5所示),其中,一个为待提取特征笔画,另一个为干扰笔画。所以算法中若遇到三叉点,一般存在两种情况:一种是该点为特征笔画的端点,特征笔画到此结束,另两个分叉仅仅是与之接触的干扰笔画;第二种情况是该点为特征笔画的过渡点,另两条分支中一个属于特征笔画,另一个属于其干扰笔画,仅与特征笔画相接触。

三叉点的判断与交叉点类似,但除了∠P0PP1和∠P0PP2之外,还需计算∠P1PP2,如图8所示。若∠P1PP2最接近180°,说明交叉点为特征笔画端点,记录该点并结束追踪。

经过笔画提取之后,得到的有效信息为特征笔画的坐标点序列stroke和交叉点个数crossnum。新基元的判断并不需要叉点和折点的具置,只需记录特征笔画的主干点集,以及交叉点的数量,是否存在折可以在笔画追踪结束后,在基元匹配过程中进行判断。

2.2 基元匹配

新基元的判断需要提取折,交叉点和倾斜角三种特征,现在交叉点个数已知,下面依次要判断是否有折和笔画倾斜角。

提取笔划坐标序列中的第一个点A和最后一个点B。

其中Ls为特征笔画的长度。若α小于阈值,则认为此笔划有折。阈值由经验值给出。

笔画方向根据角度判断。因为需要使用倾斜角进行区分的都是不存在折的笔画,所以只需取笔划坐标序列中的第一个点A(i,j)和最后一个点B(i,j),即可计算得出笔画倾斜角α。

至此可以得出特征笔画的折点、交叉点和倾斜角三个条件组成的特征向量,根据基元判断规则即可得到特征笔画匹配的基元编号,4 实验

4.1 实验过程

随机选取GB2312一级字库中的500汉字的手写样张进行实验。使用所述的提取算法提取汉字四角位置的特征笔形,并与第二节中阐述的笔画基元进行匹配。其中,判断笔画是否有折的阈值选定为对每个汉字,得到一个4位的特征编码。该编码代表汉字的四角——左上角、左下角、右上角和右下角的特征笔形与本文中设定的特征基元匹配的结果。美”字四角特征笔形为点、点、横与撇的交叉和捺,分别与基元中的左倾斜方向、右倾斜方向、交叉和右倾斜方向匹配,从而得到的一组4位特征编码为3243。以此特征号码为依据,将“美”字同其它具有相同特征号码的汉字归于一类,如“关”,“类”。

4.2 实验结果

对GB2312一级字库中的500汉字的手写样张进行粗分类,由以上图表可以看出,分类后汉字分布较平均,说明基元选择合理。在实验中同时发现,由于手写汉字形变及个人书写风格不同的原因,每个汉字并非对应唯一一个特征编码,也就是说,同一个汉字可能存在于不止一个分类中。口”字的左上角在两张不同的样张中呈现两种不同的结构关系,由此影响对特征笔形的判断和分类的结果。但通过对大量样张的实验发现,手写汉字中虽然大量存在这种结构关系的变化,但变化的种类非常有限。比如“口”字的左上角,一般只存在图11所示的两种结构情况。所以,这种现象虽然破坏了分类特征的唯一性,但却能更好的适应手写汉字的变形,提高粗分类的准确性。

5 结束语

本文提出一种基于手写汉字四角结构特征的粗分类方法,选取特征明显且易识别的特征基元,通过简便的算法提取汉字结构中四角部分的特征笔画,并与选定的基元进行匹配,得到一组4位的特征编码,以此作为粗分类的依据。实验结果表明,该方法特征提取算法简单,基元分布均匀,粗分类效果良好。其一字多码的特点,更增强了对手写汉字形变的适应性。但同时,由于没有相应的反馈机制,若在提取过程中出现错误,则无法在后面的识别中进行校正,从而导致识别错误,这将是今后研究的重点。

参考文献

[1] 刘峡壁,贾云得.用于手写体汉字识别的汉字结构模型.北京理工大学学报,2003,23(3)Hong Kong,1994:213-216.

[2] Hahn-Ming Lee,Chug-Chieh Sheu.A Handwritten Chinese Characters Recognition Method Based on Primitive and Fuzzy Features via SEART Neural Net Model.Systems, Man and Cybernetics, 1995. Intelligent Systems for the 21st Century., IEEE International Conference on, Canada,1939-1944 vol.2.

[3] Yiu-Man Tham,Tong Lee. Four Corner Code Based Pre-classification Scheme For Chinese Character Recognition. 1994 International Symposium on Speech,Image Processing and Neural Networks, Hong Kong,1994:213-216.

[4] 魏玮,刘亚宁. 改进的脱机手写体汉字细化算法.计算机系统应用.2011,20(6):184-1887.

[5] 赵建平,车丹.手写体笔迹单笔划提取算法.长春理工大学学报[J].2005,28(4):66-70.

[6] 陈友斌, 丁晓青, 吴佑寿. 一种手写汉字特征抽取的新方法.信号处理.1998,14(2):117-122.

[7] R H Ching, C W Lee et al.Preelassification of handwritten Chinese character based on basic stroke substructures.Pattern Recognition Letters,1995:1023-1032.

[8] Lu, Xinqiao,Liu, Xiaojuan,Xiao, Guoqiang et al.A Segment Extraction Algorithm Based on Polygonal Approximation for On-Line Chinese Character Recognition[A].Frontier of Computer Science and Technology, FCST, 2008 Japan-China Joint Workshop on; Nagasaki,TBD,Japan[C].2008: 204-207.

作者简介:

王伊瑾(1985-),女,河北大学硕士,现任河北农业大学教师;关注和研究领域:手写识别与数字通信技术。

张欣(1985-),女,河北大学硕士,现任河北联通职员;关注和研究领域:汉字脱机手写识别系统与网络通信。

李亚男(1984-),武汉理工大学硕士,现任河北农业大学教师;关注和研究领域:数字通信技术。

上一篇:从通路营销活动看供货商管理 下一篇:试论教辅图书编辑的责任意识