语言信息处理的基石

时间:2022-07-09 12:39:36

语言信息处理的基石

《综合型语言知识库》为语言信息的处理提供了基础资源和重要保证。

对北京大学计算语言学研究所《综合型语言知识库》的研究人员而言,2007年2月13是一个令人激动的日子,北京大学计算语言学研究所自1986年以来在863、973、自然科学基金、社会科学基金等国家计划的支持下,历时20多年的研究成果《综合型语言知识库》这一天通过了技术鉴定,并且受到了鉴定专家的一致好评。

《综合型语言知识库》是一个庞大的工程,由以下部分组成: 其中的《现代汉语语法信息词典》包括34个数据文件,收录词语8万条,描写的语法属性总项数超过360万项,是目前国内外最有影响的汉语词汇知识库;《汉语短语结构知识库》包含600余条汉语短语规则,涵盖了汉语基本短语结构的各种合理组合;《中英文概念词典》实现对词网中近10万个英文概念的汉语对应,是全球多语词网建设中具有标志性的一项成果;《现代汉语大规模基本标注语料库》切分标注的总量超过5千万字,《汉英双语对齐语料库》规模达80万句对,规模大、质量高。

《综合型语言知识库》还是一个在逻辑上有机联系的整体。在语言基础资源方面,提出并制定了一系列规范,使得各成员之间的属性互相参照对应。知识库中既包含词、短语、句子、篇章等不同语言单位,又涉及汉语、英语等不同语言,并从词法、句法和语义等不同角度进行信息描述,而信息描述融合了词典中的显性知识和语料库中的隐性知识,是语言信息处理的基础资源和重要保证,在工程实践中又进一步发展了面向语言信息处理的汉语语法理论体系。在这些资源基础上,开发的基于语料库的双语词典编纂平台实现了语料库处理技术和词典编纂技术的整合,有利于辞书编纂手段的现代化;通过对汉语词语切分、词性标注和命名实体识别等关键技术创新,研制了文本信息提取系统。

《综合型语言知识库》已得到广泛应用,并向国内外大公司和研究机构转让许可使用权150余次,取得了显著的经济效益和社会效益。

在由教育部主持、张钹院士任主任、怀进鹏教授任副主任的鉴定会上,鉴定组专家给予该项目很高的评价。鉴定委员会认为: 《综合型语言知识库》开创性地实现了汉语词语的大规模归类与属性描述,很好地处理了基础研究与应用研究的关系,形成了基础资源建设与应用系统开发相互支撑、相互促进的良性模式,其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平。(文/俞士汶)

上一篇:TJX信用卡资料被窃 下一篇:钢铁行业节能降耗的三大法宝