中国首创少数民族文字识别系统

时间:2022-08-07 03:56:44

中国首创少数民族文字识别系统

日,全球首款在统一平台上支持中国多个少数民族文字文档的识别系统,在清华大学通过专家鉴定。这个系统首次完成了在统一平台上对蒙古文、藏文、维吾尔文、哈萨克文、朝鲜文和柯尔克孜文(混排汉英)文档的电脑识别,其主要技术指标达到了国际领先水平。

为此,本刊记者特地走访了该项目主任――清华大学电子系教授、博士生导师丁晓青。据她介绍,所谓的文字文档识别系统,简单说就是把图片格式(如.jpg文件)的文字识别为可编辑的文字(如.txt文件)。通过系统的转换,图片内的图形会继续保存,而图片及表格内的文字资料将一律变成计算机文字,这一方面大大减少了计算机的储存量;另一方面有利于识别出的文字的二次利用和分析,当然也节省了键盘输入的人力与时间。

其实,丁教授所说的就是一个OCR(Optical Character Recognition)光学字符识别系统。我们在日常生活中也经常与OCR软件接触,比如当你购买扫描仪时,通常会附赠基础版的中、英文OCR识别软件。而我们今天提到的多个少数民族文字文档的识别系统,则是在统一平台(同一软件界面)上对多种少数民族文字进行转化,使少数民族的文字文档资料能够得到妥善的保存和编撰。

参与该项目的清华大学博士王华为记者演示了识别系统的工作情况。“图片转换为文字,须经过图片输入、文字特征抽取、比对识别、最后经人工校正,将结果输出几大步骤。”他解释说,“图片输入就是通过扫描仪或数码相机把图片文件输入到计算机;之后,我们就可以在这个识别系统中调出图片,让软件识别出文字区域;在系统中有一个事先做好的文字数据库,软件会将识别出的每个图片文字与数据库内的文字进行对比,找出最相似的文字作为结果输出;最后,用户可以对输出结果进行人工修改,完成全部的转换工作。”

今后,更多的少数民族文字也可以以插件的形式被应用于这个系统平台中。不仅如此,据王华介绍,识别系统在未来还有更广阔的应用前景。例如手写的识别,可以应用在身份认证等法律、安全领域,甚至可以用于名家书法的鉴定。而与手机、相机拍照的结合,又可以实现名片存档、电子支付,以及协调物流管理等功能。

上一篇:二手电脑成了香饽饽 下一篇:十大理由:Google为什么不可战胜?等