基于联机手写汉字字块特征码提取的研究

时间:2022-03-31 09:46:24

基于联机手写汉字字块特征码提取的研究

摘要:该文对常见的联机手写汉字的识别方法进行分析,通过汉字字块分类作为汉字特征码提取的基本单位,通过汉字每个字块笔划之间的关系提取汉字的特征码,把基于笔划联机汉字识别的优点和基于字根联机手写汉字识别优点相结合,从而提出一种汉字特征码提取的新方法。

关键词:字块;笔划;字根;特征码

中图分类号:TP18文献标识码:A文章编号:1009-3044(2011)01-0194-03

The Research on Block Code Pick-up Based on Handwriting Online Chinese Characters

LI Kun-hua1,2, WANG Hai-rui1, DUAN Li-hua2, SAN Zhi-qiang2

(1.Information Engineering and Automation School of Kunming Technology University, Kunming 650051; 2.Mathematics and Computer school of Dali University, Dali 671003)

Abstract: The paper analyses common identification methods of online Chinese characters writing. Putting Chinese characters category as the basic unit for characteristic mode pick-up of Chinese characters, Analyzing the relationship among Chinese characters strokes to pick-up characteristic mode, combining the strongpoint of Chinese characters identification based on stroke online and handwriting characters identification based on etymon online in order to introduce another new method to pick-up characteristic code of Chinese character.

Key words:word block; stroke etymon; characteristic; code

随着社会的不断发展,信息已经成为了人们生活中的重要组成部分。在信息交换的过程中,人们经常使用计算机,PDA等终端和手持设备进行汉字的信息处理,汉字信息的应用越来越广泛。在汉字信息处理过程中,汉字输入到计算机是一个基础和重要的环节。目前,对于汉字输入计算机中主要有三种方式:一种是基于键盘的输入法,借助于键盘和输入法规则,把汉字输入到计算机的方法,常见的有搜狗拼音,五笔字型等。第二种是通过手写汉字和印刷汉字识别输入计算机的方法,分为联机手写识别和脱机手写识别两种。通过手写板或扫描仪采集输入的汉字信息,提取汉字特征码信息,通过特征库识别出输入汉字,例如汉王手写识别系统,清华紫光OCR识别系统等。第三种是基于语音输入汉字的方法,首先用户对文字进行朗读,计算机通过朗读的声音提取特征码,通过特征库进行比较识别出汉字,把汉字输入到计算机的方法。例如IBM Voice、汉王语音识别系统等。目前,对于通过键盘输入汉字方法研究基本成熟,而语音识别由于用户个体差异性,研究推进难度较大,对联机手写汉字识别和脱机手写汉字的识别,研究的人员相对较多。

对于联机和脱机手写汉字的识别技术,主要分为基于统计模式识别和基于结构模式识别两种[1]。

第一种是基于统计模式识别汉字的方法。该方法首先提取汉字的全局变换特征、不变矩特征、笔划穿透数目特征等统计量进行识别[2],利用分类器对汉字特征库进行粗分类和细分类,通过统计特征对汉字进行识别。该识别方法对汉字的结构、笔划和笔顺先后等特征依赖性不大,一般应用在脱机手写汉字识别中。

第二种是基于结构模式识别,主要是通过采集汉字的结构、笔划、字根、笔段和笔顺等信息进行整理和分析,然后提取汉字特征码,通过汉字特征库进行比较,识别出汉字。该方法主要应用于联机手写汉字的识别。优点是把联机实时输入的信息尽可能应用到识别中,提高汉字的识别率。本文基于汉字结构模式,对汉字进行识别。

1 常见的基于汉字结构模式识别的特征码提取方法

1.1 基于笔划的汉字特征的提取:

该方法根据汉字输入的笔划信息进行实时跟踪,采集出汉字的每个笔划向量进行识别,组成汉字的特征码,通过和特征库的比较,识别出联机手写汉字。该方法对于汉字而言,组成汉字的最少笔划特征为1划,例如“一”,“乙”等,组成汉字最多的笔划为36划,例如“Q”,对常见的汉字,平均笔划为13划。该方法采集笔划特征比较简单,方便,设计容易实现,只需要建立笔划的汉字特征库就可以进行汉字识别;不足之处是对于模糊的笔划影响因素较多,抗干扰能力弱,对所有笔划的特征依赖性较强。

1.2 基于字根特征的汉字特征码的提取[3]

该方法把汉字分解成多个子模式,每个子模式提取字根通,通过各个字根提取特征码,然后和特征库进行比较,从而识别出联机手写汉字。该方法优点在于根据字根提取汉字特征,特征码的稳定性较好,对整体汉字处理区分度较高,对笔划所有信息依赖性较低。不足之处在于常见的字根有200多种,对字根的拆分不够科学,有时对于同一个汉字有多种拆分方法,拆分的具体方法难于选择。

针对以上两种汉字特征码提取的不足,笔划特征对模糊笔划抗干扰能力弱,字根特征中数量字根种类多而且字根拆分多变等问题,提出基于汉字字块特征码的提取方法。该方法首先把联机手写的汉字分解成字块,在各个字块中通过每个字块部分笔划之间的关系,提取汉字的特征码,一方面采用了笔划输入时的实时信息,同时使用了汉字字块的稳定性信息,来降低汉字特征码提取中的不稳定因素,提高联机手写汉字的识别率。

2 基于汉字字块分类的特征码提取

2.1 汉字结构特征码

对于汉字而言,首先是由一到多个笔段组成一个笔划,一到多个笔划组成一个字块,一到多个字块组成一个汉字,因此我们按照汉字结构特点,对汉字进行结构划分。通过对GB2312-80标准汉字进行研究,我们把常用的6763个汉字进行分析归类成三种结构[4]:

1)单体字:汉字只有一块,该字块不能进行再次划分的汉字。例如“甲”,“日”等。我们用字母代码Z1作为特征码。

2)两块字:汉字由上下或左右两部分构成,汉字中该种结构最多,约占87%左右。例如“旧”,“告”等。我们用字母代码Z2作为特征码。

3)三块字和多块字:汉字由三个字块或三个以上字块组成,例如“森”,“品”,“器”,“箭”等。我们用字母代码Z3作为特征码。

我们把汉字沿着水平方向和垂直方向进行投影,根据笔划的投影密度,对汉字进行水平和垂直切分,提取相应汉字结构特征码,如(表1)所示。

2.2 字块笔划特征的提取

首先,我们根据对6763个汉字进行分析,把汉字的笔划划分为点、横、竖、撇、捺,提、折七种结构,然后把点和捺笔划合并为捺,把提和撇笔划合并为撇,则笔划分为横,竖,撇,捺,折五种形式,根据两个笔划之间的对应关系,划分为25种情况。我们用字母代码x1-x25作为特征码,关系如表2所示。

我们通过弹性网格算法可以提取相应的笔划关系。

2.3 字块笔划位置关系特征提取

根据首笔划和次笔划笔划之间的位置关系,我们又可以分为单笔划(例如“一”),相离(例如“二”),相接(例如“不”)和相交(例如“十”)四种种情况(表3)。

我们可以通过连通度和弹性网格算法,提取相应的特征码。

2.4 字块特征码提取规则

2.4.1 单体字的提取

首先按照字体结构,单体字,特征码为Z1。根据汉字笔顺,第一笔划和第二笔划的对应情况和笔划之间的位置关系,提取特征码为X1iY1i,第三笔划和第四笔划的对应情况和笔划之间的位置关系,提取特征码为X2iY2i;第五笔划和第六个笔划的对应情况和笔划之间的位置关系,提取特征码为X3iY3i,分别提取第七笔划和最后一笔划的对应情况和笔划之间的位置关系,提取特征码为X4iY4i。如果汉字笔划不足八划的,就自然结束,笔划数是单数的不足八划,最后一个笔划用两遍,来取出汉字特征码。汉字识别特征码为Z1X1iY1iX2iY2iX3iY3iX4iY4i。

2.4.2 两块字汉字特征码的提取

首先按照字体结构,两块字,特征码为Z2。根据切分出来的两个字块,利用笔划和笔划之间的映射和位置关系,从第一个字块的第一笔和第二笔划提取特征码为X1iY1i,从第二个字块的第一笔划和第二笔划提取特征码为X2iY2i,从第一个字块的第一笔划和第二个字块第一笔划提取特征码为X3iY3i,从第一个字块的最后一个笔划和第二个字块最后一个笔提取特征码为X4iY4i,汉字识别特征码为Z2X1iY1iX2iY2iX3iY3iX4iY4i。

2.4.3 三块字汉字或多块字特征码的提取

首先按照字体结构,三块字或多块字,特征码为Z2。根据切分出来的三个字块或三个字块以上,利用笔划和笔划之间的映射和位置关系,从第一个字块的第一笔划和第二笔划提取特征码为X1iY1i,从第二个字块的第一笔划和第二笔划提取特征为X2iY2i,从第三个字块的第一笔划和第二笔划划提取特征码为X3iY3i,从从第一个字块的最后一个笔划和该字最后一个笔划提取特征码为X4iY4i,汉字识别特征码为Z3X1iY1iX2iY2iX3iY3iX4iY4i。

根据以上规则,我们得到一个联机手写汉字的特征码。

3 基于字块特征汉字识别过程

首先,计算机通过手写板,采集手写汉字的笔划轨迹、笔划的先后顺序,笔划之间的位置关系等关键信息。对采集的汉字笔划信息数据进行归一化、平滑去噪、二值化和汉字细化处理。然后通过投影方法,对处理的汉字进行水平投影和垂直投影,把手写汉字切分为字块。通过弹性网格算法,判定出笔划的类型和笔划之间的关系,利用BP反向传播神经网络算法,选取阀值控制,来采集汉字的特征码。使用获得基于字块的汉字特征码和汉字的特征库进行比较,进行识别。比较过程可以采用分类器提高识别的速度。

通过三种联机手写汉字特征码提取过程比较,可以得出(表4),基于字块划分提取联机手写汉字特征码可以提高联机手写汉字的识别速度和识别的准确率。

4 结束语

通过基于汉字字块特征码的提取,一方面采用了基于笔划特征提取中易于实现的优点,同时采用了基于字根特征提取中稳定的优点,来提高了汉字的识别效率和准确率,在联机手写汉字识别中有广泛的应用前景。

参考文献:

[1] 魏灿秋,杨家沅.笔顺自由和笔划数可变得联机手写汉字识别方法研究[J].四川大学学报:自然科学版,1996,4(6):29-32.

[2] Abuhaiba S I, Ahmed P. A Fuzzy Graph Theoretic Approach to Recognize the Totally Unconstrained Handwritten Numerals[J].Pattern Recognition,1993,26(9):1335-1350.

[3] Chen J W, Lee S Y. On-Line Handwriting Recognition of Chinese Characters via Rule-Based Approach[J].In: 13th International Conference on Pattern Recognition (ICPR'96),1996,3(12):220-224.

[4] An-Bang Wang, Kuo-Chin Fan.Optical Recognition of Handwritten Chinese Characters by Hierarchical Radical Matching Method[J].Pattern Recognition,2001,1(34):15-35.

上一篇:网页人机界面感性化研究 下一篇:关联规则解决网络拥塞改进方法研究