中国首创少数民族文字识别系统

时间：2022-08-07 03:56:44

中国首创少数民族文字识别系统

日，全球首款在统一平台上支持中国多个少数民族文字文档的识别系统，在清华大学通过专家鉴定。这个系统首次完成了在统一平台上对蒙古文、藏文、维吾尔文、哈萨克文、朝鲜文和柯尔克孜文(混排汉英)文档的电脑识别，其主要技术指标达到了国际领先水平。

为此，本刊记者特地走访了该项目主任――清华大学电子系教授、博士生导师丁晓青。据她介绍，所谓的文字文档识别系统，简单说就是把图片格式（如.jpg文件）的文字识别为可编辑的文字（如.txt文件）。通过系统的转换，图片内的图形会继续保存，而图片及表格内的文字资料将一律变成计算机文字，这一方面大大减少了计算机的储存量；另一方面有利于识别出的文字的二次利用和分析，当然也节省了键盘输入的人力与时间。

其实，丁教授所说的就是一个OCR（Optical Character Recognition）光学字符识别系统。我们在日常生活中也经常与OCR软件接触，比如当你购买扫描仪时，通常会附赠基础版的中、英文OCR识别软件。而我们今天提到的多个少数民族文字文档的识别系统，则是在统一平台（同一软件界面）上对多种少数民族文字进行转化，使少数民族的文字文档资料能够得到妥善的保存和编撰。

参与该项目的清华大学博士王华为记者演示了识别系统的工作情况。“图片转换为文字，须经过图片输入、文字特征抽取、比对识别、最后经人工校正，将结果输出几大步骤。”他解释说，“图片输入就是通过扫描仪或数码相机把图片文件输入到计算机；之后，我们就可以在这个识别系统中调出图片，让软件识别出文字区域；在系统中有一个事先做好的文字数据库，软件会将识别出的每个图片文字与数据库内的文字进行对比，找出最相似的文字作为结果输出；最后，用户可以对输出结果进行人工修改，完成全部的转换工作。”

今后，更多的少数民族文字也可以以插件的形式被应用于这个系统平台中。不仅如此，据王华介绍，识别系统在未来还有更广阔的应用前景。例如手写的识别，可以应用在身份认证等法律、安全领域，甚至可以用于名家书法的鉴定。而与手机、相机拍照的结合，又可以实现名片存档、电子支付，以及协调物流管理等功能。

中国首创少数民族文字识别系统

文档上传者

热门标签更多>

热门推荐更多>

精品范文更多>

中国首创少数民族文字识别系统

文档上传者

热门标签 更多>

热门推荐 更多>

精品范文更多>

热门标签更多>

热门推荐更多>