有关“理解和分词孰先孰后”的反思

时间:2022-05-19 01:06:50

“中文分词十年回顾”一文中有“理解和分词孰先孰后”这一节,专门讨论NLPwin中文系统的分词。作为该系统的开发者之一,我觉得有必要对这个问题作一反省。

作为一门科学,语言学的目标之一是了解人类语言处理的机制。对我而言,计算语言学的最高境界是做出一套能反映人脑语言机制真实状况的,具有心理学价值的电脑系统。从心理语言学的角度看,“理解和分词孰先孰后”这个问题是不存在的。人脑分析句子的过程显然是一个分词和理解互动的过程,理解依赖于分词,分词也依赖于理解。NLP-win中文系统的设计理念就是要反映人脑的这一分析过程。我们没有做一个专用于分词的系统,因为孤立的分词不是一种自然的人类语言行为。

从工程的角度看,分词和理解是完全可以分开的。对于工程来说,切分一个汉语的字串和切分任何其他字串没有太大的区别。我们可以把最好的、具有通用性的切分技术用于汉语分词。在此过程中我们不需要知道所切汉语字串所表达的意义。这里所要解决的主要是一个数学问题,而不是语言理解问题。把理解插入分词过程会大大增加计算的复杂度,其结果往往是得不偿失。所以如果我们的目的仅仅是分词,理解是没有必要的。

至于对NLPwin分词结果的评价,我个人有以下看法:

(1)NLPwin是个句子分析器,不是专为分词设计的,分词只是它的一个副产品,参加Bakeoff时也没有刻意为分词而进行大量调试。我们只是想看看这种理想化的设计理念在实际应用中会有什么结果。能取得当时那样的成绩至少证实这种方法是可行的。

(2)NLPwin在分词方面还不尽人意是因为句子分析器本身还不成熟,并不是因为“分词和理解互动”这一设计方案不合理。NLPwin句子分析器的最大弱点是尚未发挥统计算法的潜力,理性有余,经验不够。

(3)“十年回顾”中说:“如果说,像Wu这样的基于手工规则的自动分词系统还能在2003年Bakeoff的多项评测中名列前茅;那么,到了2005年和2006年的Bakeoff上,已经很难找到它们的身影了”。这一现象并不证明“先分词后理解”是唯一正确的道路。它只说明没有人愿意费时费力为了分词而去开发一个句法分析器,也说明中文的句法分析器在近几年没有重大突破。

总而言之,“先分词还是先理解”只是一个技术问题,而不是一个科学问题。人们常把“科学”与“技术”混为一谈,其实两者之间有很大的区别。“科学”的终极目标是真理,而技术更关心实用价值。或许这也是“计算语言学”与“自然语言处理”之间的区别吧?

上一篇:蒙古文显示在OpenOffice.org办公套件中的实现 下一篇:基于广义置信度的样本选择算法