“ちょっと”与独词句的机器翻译

时间:2022-10-27 08:43:04

“ちょっと”与独词句的机器翻译

摘要:机器翻译是对人工翻译的模拟。但是由于不同语言之间历史文化、风俗习惯等因素存在固有差异,所以相同的文字时常在不同环境下表达的意义不同,这使得机器翻译实现十分困难。 独词句是语言学上的一种特殊的句型。独词句需要根据上下文环境来判断它的“句义”,而不仅仅是它的“词义”。然而目前大多数的计算机翻译软件,对独词句的处理都存在缺陷。本文希望能从语言学的角度,对翻译系统处理独词句提出更为合理的解决方法。

关键词:机器翻译;独词句;词义;句义

中图分类号:TP305 文献标识码:A文章编号:1009-3044(2007)03-10788-02

1 引言

机器翻译研究的意义是不言而喻的,它有着重大的社会、经济价值。在当今世界,随着信息的急剧增加,国际交流的日趋频繁,尤其是国际互联网络的逐渐普及,机器翻译的潜在需求越来越大。

机器翻译研究同时又是一项艰巨的研究课题。自1954年美国乔治顿大学进行第一次试验以来,机器翻译已经发展了五十余年,经历了几起几落的曲折历程,人们对它的评价毁誉参半。自20世纪40年代电子计算机诞生之日起,人类就开始了把计算机应用于语言翻译的探索。之后的许多年,机器翻译系统主要是基于双语字典进行直接翻译,几乎没有什么细致的句法结构分析。直到20世纪80年代,计算语言学的发展产生了更加复杂的方法,一些机器翻译系统采用了间接方法进行翻译。在这种方法中,源语言文本被分析转换成某种意义上的抽象表达形式,随后利用一些程序,通过识别词结构(词法分析)和句子结构(句法分析)解决语义上的歧义问题。句法分析模块通常包含识别多义词的模块和识别正确语义关系的模块。人们希望这种抽象表达形式是无歧义的,并为生成一个或多个目标语言提供根据。其中有一种方法将抽象表达设计为一种与具体语种无关的"中间语言(metalanguage)",它可以作为许多自然语言的中介。这样,翻译就分成两个阶段:从源语言到中间语言,从中间语言到目标语言。

然而令人遗憾的是,无论是中英互译还是中日互译的机器翻译软件生成的翻译句子时常会令人啼笑皆非。本文就是希望通过语言学的理论分析,来探讨日语“ちょっと”这个独词句在机器翻译中所遇到的麻烦以及我们需要思考的问题。

2 ちょっと该怎么翻译

rgがあれば行きたいですが。ちょっと。

我们将这段话输入到中、外两个在线机器翻译软件里,得出的翻译结果如下例1所示。

例1:

显然,两个机器翻译软件翻译出来的结果都有很大的问题。“ちょっと。”在这里是一个语言学上所谓的“独词句”,表达一种委婉的否定。独词句是指非主谓句中由一个词直接构成的句子。 这种独词句大量存在于我们的日常语言之中,但是上述两种在线机器翻译软件在翻译这句话的时候都忽略了语言中的这种现象。 “One-word sentences,in which a single word comprises a complete sentence. (R.H.Robins)”(独词句是一个词表达一个完整的句子。) “The fact that the contribution of some words is partly that of reference does not make reference the same as the whole of meaning;and it is not to be assumed that the meaning of a word when it constitutes a one-word sentence is the same as its meaning when it forms part of a larger sentence. (R.H.Robins)” [1] (事实上一些词并不能当成它相同的词义来看,我们不能认为一个词当它作为独词句的时候还能表达与它在长句子中相同的意思。)语言学家Robins教授在1989年的著作中就指出了:独词句表达的不是一个词的意思,应当是一个完整句子的句义。也就是说,研究或者翻译独词句应当从句子的层次来探讨,而不是从词的层次来分析。所以机器翻译在把独词句当成“词”来翻译的时候就犯了致命的错误,因此也就难免产生歧义。

3 “ちょっと”与浅层句法分析

计算机在处理语言翻译的时候通常采取浅层句法分析。

“浅层句法分析(shallow parsing),也叫部分句法分析(partial parsing)或语块分析(chunk parsing),是近年来自然语言处理领域出现的一种新的语言处理策略。它是与完全句法分析相对的,完全句法分析要求通过一系列分析过程,最终得到句子的完整的句法树。而浅层句法分析则不要求得到完全的句法分析树,它只要求识别其中的某些结构相对简单的成分,如非递归的名词短语、动词短语等。这些识别出来的结构通常被称作语块(chunk)。”[2]

比如:

rgがあれば行きたいです。

分成语块就是:

rgが/あれば/行きたい/です/

(依附关系)(依附关系)

浅层句法分析的结果并不是一棵完整的句法树,但各个语块是完整句法树的一个子图(subgraph),只要加上语块之间的依附关系(attachment),就可以构成完整的句法树。所以浅层句法分析将句法分析分解为两个子任务:(1)语块的识别和分析;(2)语块之间的依附关系分析。浅层句法分析的主要任务是语块的识别和分析。这样就使句法分析的任务在某种程度上得到简化,同时也利于句法分析技术在大规模真实文本处理系统中迅速得到利用。句法分析的方法基本上可以分成两类:基于统计的方法和基于规则的方法。当然也可以采用规则和统计相结合的混合方法。

统计方法认为翻译问题也是一个噪音信道问题,如图1。

图1

“可以认为,一种语言S(信道意义上的输入,翻译意义上的目标语言)由于经过了一个噪音信道而发生了扭曲畸变,从而在信道的另一端呈现为另外一种语言T(信道意义上的输出,翻译意义上的源语言),翻译问题实际上就是如何根据观察到的T,恢复最为可能的S的问题。用Pr(S|T)表示T译成S的概率,那么翻译问题就成为:在观察到T的前提下,寻找一个S,使得Pr(S|T)取最大值的问题。 Pr(t1|s1)被称为翻译概率(translation probability),表示单词译成单词的概率。” [3]

也就是说,在计算机软件遇到上例所谈到的“ちょっと”的时候,首先是运用浅层句法分析确定“ちょっと”前后没有依附关系的语块(是一个词单独构成的“独词句”),然后通过统计的方法计算出这个词被翻译成“稍微、少许、一点”的概率很大,于是由“S”到“T”得出了上述例子中的翻译。

笔者认为独词句用浅层句法分析的方法很难得到正确的翻译。比如例2。

例2:

其实每一个实词都可以成为一个独词句,而机器翻译通常情况下没有考虑一个词作为一句话的译法。

因此笔者认为也有必要在机器翻译系统中加入对每个实词作为独词句的含义统计,比如“ご。”作为独词句的时候翻译成“吃饭啦”的概率显然要大于“饭”的概率。借此也可以有效提高对独词句翻译的正确率。

4 独词句与语义分类

此外,通过增强软件的语义分类也可以使对独词句的翻译更加准确。

语义处理至少有下面两个显著作用:(1)语义处理有助于得到句子正确的句法结构。(2)语义处理有助于多义词问题的解决。[4]

独词句正是使用一个词汇的语义来表达通常必须要用一句话才能表达清楚的事情的例子。在例1中,“ちょっと”作为一个词,有“一点点、些微”之意,于是说话人就把它拿来表达“有一点点不方便(ちょっと不便だ。)”、“与您的期待有点点不相同(ちょっとご期待には添えませんが。)”等等要用一句话才能表述清楚的意思;同样,例2中,“ご”作为词其含义是“饭、白米饭”,于是说话人在这个场合就用这个词来表达“到吃饭时间了”、“饭准备好了”等等意义,它们表达的不再是这个词的词义所能概括的了的。特别是在日语中,独词句的存在显得尤为突出。主要的原因是因为日语本身经常省略主语和句子的其他成分,对语言环境的依赖性很强。

“ちょっと。” 是日语中比较特殊也是比较典型的一个独词句。这是特别暧昧、委婉的日本人表达转折与否定的一种特殊方式。这样的独词句在中文和英语中很难找到同样的、用一个词来表达的方式。通过这个例子我们还认为:只要是词都应当首先考虑它作为“独词句”时的“句”义而不仅仅是“词”义。这些可能需要建立例句的数据库来进行语义类比的等价替换。

“基于实例的机器翻译(Example-Based Machine Translation,简写为EBMT)方法的基本思想是由日本长尾真提出的。长尾真探讨了外语初学者的基本模式,发现初学外语的人总是记住最基本的英语句子和对应的日语句子,而后做替换练习。因此,参照这个学习过程,提出了基于实例的机器翻译思想:(1)人类不通过做深层语言学分析翻译句子。(2)人类的翻译过程:首先正确分解输入句子,分解成短语碎片(也许是格框架单元),接着,把这些短语碎片译成其它语言短语,最后把这些短语构成一个长句。每个短语碎片采用类比的原则进行翻译。”[5]

因此,我们可以尝试如图1所表示的方法来进行独词句的翻译。

如图2所示,系统的主要知识源是双语对照的实例库和词库。每当输入一个源语言句子S时,系统首先判断它是否是独词。如果不是,进行句意分析,从词库中调出词的解释,根据语法规则重新组合成目标语言T输入。

如果输入的句子是独词,那么转化为独词句,依靠对前后文的分析,再将该独词句转化为句子。

图2 考虑独词句的句法分析流程

如例1中:

“ rgがあれば行きたいですが。ちょっと。”

在对前文的分析后,系统可以判断“ちょっと”这个独词句,是对短语“rgがあれば”的否定,因此可以从独词句用例库中找到相应的句子:“ちょっと都合がありましてEE。”。然后调用词库进行替换,再进行句意的分析和解释,得出目标语言T。

根据上述系统的流程,独词句就不会再被当成词汇翻译而出现歧义了。笔者认为,独词句是一个“句子”,在做机器翻译的时候要充分考虑它的“句义”,需要将它还原成一般的句子进行处理。

5 结束语

其实,独词句从某种意义上说就是一种表达的省略,这种省略比较复杂。不参考上下文的关系和语境,很难确定省略的是什么成分。在人工智能化还无法达到一定水平的时候,指望机器翻译完全取代人工翻译是不现实的事情。但是不谈翻译的文学性,就达意的程度而言,机器翻译要提高正确率还是能有所做为的。当然如何提高翻译正确的概率仅仅凭借一种方法是远远不够的。笔者的看法是至少要结合上下文的语义分析、语义合理分类以及实例统计三个方面共同作用才能起到好的效果。

实际上,目前许多翻译系统已经在自己原有的单功能分析的立场上有所改变。有的已经开始采用了一些其它方法改善自己的系统。如Nirenburg提出了多引擎(Multi- engine)的概念并在PANGLOSS系统中予以具体实施。PANGLOSS Mark III和其它任何翻译系统的不同之处是该系统有三个翻译引擎:一个基于知识的机器翻译(KBMT)引擎,该系统的一个主要引擎;一个基于实例的机器翻译(EBMT)引擎;一个词汇转换(lexical transfer)引擎 。因此我们有理由期待机器翻译将越来越进步。

参考文献:

[1]R.H.Robins.General Linguistics[M].Longman Group UK Limited.1989.

[2]孙宏林,俞士汶.浅层句法分析方法概述[J].当代语言学.2000(2):23-24.

[3]常宝宝,张伟.机器翻译研究的现状和发展趋势[J].术语标准化与信息技术.1998(2):45-46.

[4]常宝宝,詹卫东.一个汉英机器翻译系统中的语义处理框架及其作用[N].计算机世界报.1998(13).

[5]詹卫东,刘群.词的语义分类在汉英机器翻译中所起的作用以及难以处理的问题[M].语言工程.清华大学出版社.1997.

本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。

上一篇:基于AJAX的电子地图系统 下一篇:巧用ACTION SCRIPTS脚本语言制作海浪效果