对平行语料库的科技术语英汉翻译研究

时间:2022-04-19 02:19:00

对平行语料库的科技术语英汉翻译研究

1.引言

当今全球化进程中,国际间交往和互动频繁,作为发展中国家,中国在积极地引进和学习国外先进的科学技术,各个领域的外文科技文献源源不断地涌进中国,并成为中国学者、技术人员等学习和研究的第一手材料。翻译外文科技文献过程中,不可避免地会遇到许多科技术语,需要准确翻译,以使读者能够很好地理解,不致疑惑。英国萨里大学(Surrey University)翻译学教授Peter Newmark(2001)指出:尽管术语只占全文的约5% - 10%,但是他们却构成科技英语翻译与其它文体翻译的根本区别。科技术语的翻译应具有准确性、规范性和统一性。

一般认为,科技术语可分为三类,即专业技术术语(各科技领域的专有术语)、准技术术语(本身由多种普通义,在科技领域中获得扩展的新义)和新创造的术语(为表达新概念而创的术语)。对于人工翻译来说,科技术语的翻译可采用音译法、意译法、形译法、意音兼顾法和创造新词法等,译者可以调动多年训练和储备的知识对某一领域的科技术语进行灵活的翻译。但是,高度信息化的今天,仅采用人工翻译显然不足以满足人们的需求。因为翻译者不可能通晓较多的专业,不同译者对同一术语的翻译也可能有所不同,而且时效性也比较差。而实践中可以看到,目前基于规则、基于统计及基于实例的机器翻译在准确性上尚存在很大不足,且尚未出现较为完整的科技术语翻译理论规则以支持科技术语的准确翻译。于是,我们可以考虑使用基于语料库进行研究。

2.平行语料库研究

自上世纪60年代美国Brown大学建立第一个电子语料库——Brown语料库的近几十年来,语料库技术蓬勃发展。在国内外,构建了大量的用于不同研究目的的语料库,这些语料库按语体分,有口语语料库和书面语语料库;按介质分,有文字语料库和声音语料库;按时间分,有共时语料库和历时语料库;按处理程度分有生语料库和熟语料库,另外,还有专有名词标注语料库、学习语料库等。20世纪90年代,Mona Baker等人将与翻译研究有关的语料库分为平行语料库(Parallel Corpus)、可比语料库(Comparable Corpus)和多语语料库(Multilingual Corpus)。本文中主要使用英汉双语平行语料库。

关于平行语料库的定义目前尚未得到统一,本文使用的平行语料库按以下规则:即,源语文本和译语文本在句子层面互为译文关系的语料库。英汉双语平行语料库即指互为对译关系的英语和汉语语料组成的语料库。

近年来,从事语言研究和机器翻译研究的国内外很多研究机构都在致力于建设平行语料库,现今已建立的英汉双语语料库有英国伯明翰大学(the University of Birminham)建立的中英对应语料库、英国兰卡斯特大学(Lancaster University)建立的Babel 英汉语料库、北京外国语大学中国外语教育研究中心的通用汉英对应语料库、北京大学计算语言学研究所的汉英/汉日双语语料库、中国科学院自动化研究所的英汉双语语料库和哈尔滨工业大学的英汉双语语料库等。对这些平行语料库的研究包括建设、对齐和抽取信息等。

目前,一些语料库采取双语自动对齐技术在篇章级、段落级、句子级以及短语级的水平上使源语文本和译语文本进行了对齐,即,通过一定算法将意义相同的源语和目标语自动对应起来。本文中,由于是针对科技术语,所以主要通过短语对齐技术进行加工处理。另外,为在平行语料库中找到科技术语的源语和目标语,还需要使用术语抽取技术。术语抽取技术通常结合了统计学和语言学的方法,即,使用统计学的方法获取候选术语,再利用语言学的方法来筛选、过滤和修正。

应当注意:本文中所述科技术语仅限定为名词,并且科技术语的翻译仅限定为由英语翻译成汉语(即英译汉)的过程。事实上,因为汉语中的科学技术名词大多是近现代科技进入中国后通过翻译得到的,所以仅就科技术语而言,由汉语翻译成英语往往只是英译汉的逆向过程。

3.科技术语的翻译问题

由于词汇的相对有限性和科技发展的无限性,对新发明创造的事物的命名往往依赖于现有词汇。借助于各种手段用已有的词汇来表达,使得在英语中不同科技领域往往会使用同一科技术语,而这同样的科技术语翻译成汉语时往往会用不同的表达方式或词语,即虽然源语言词语相同,但译法却有所不同。而即使在同一领域中,不同的事物上使用同一术语也会存在译法不一致的情况。通常有以下几种情况:替用词、多义词和词典无义项词。

3.1替用词

英语作者在将某些部件命名时,往往会使用众所熟知的形象的词汇以便于理解,这种准技术术语不能直接翻译成原义,否则不合文体,但又不宜用其它符合文义但远离词语本义的词汇代替。如elbow本义指“肘”,但在机械技术文献中经常用于表示位于两个构件之间可相对于其彼此运动的部分,如同动物体的肘关节,但不宜翻译成“关节”或“接合部”,这样的词一般可译成“肘部”;同样地,finger可表示为“指部”或“指形部”(构件在形象上像伸出的指头)等。

3.2多义词

跟普通词汇一样,有的科技术语在同一领域中也具有多种意义。如机械领域中的“tab”一词,若出现在介绍易拉罐及相似物体等的科技文献中,则翻译成“拉环”,在其它特定结构的文献中有时可翻译成“挂环”,或者“凸舌”,总之,就是指位于某个机械构件上便于对此构件进行某种特定操作的突出部分。但是,有的新发明中的大致符合此特征的某些部分也被英语母语作者命名为“tab”,这时,再翻译成前述只有特定上下文使用的“挂环”“拉环”“凸舌”等便不再合适,于是可以音译成“提攀”等。

3.3 词典无义项词

科技术语的翻译中,理想的是,仅利用传统的对比词典(如英汉电子词典)中列举的义项(或者经过标注说明特定用法的义项)与源语文本中的词语进行简单对应,从而得到相应译文。但是,在实际翻译过程中发现,传统词典在面对一个词项的多种用途时往往表现地无能为力,经常需要根据实际技术语境来创造新词,这时则需要调用专业领域中独有的专业术语库。如“rib”一词在特定机械中称为“筋板”,而这个义项在传统词典中一直未予收录。

虽然人们已经总结出各种译法或思想,如音译法、意译法、形译法、意音兼顾法和创造新词法等,但是对于计算机而言,由于利用这些方法翻译时随机性和主观性较强,故很难且尚未能将这些译法或思想用程序的方式较好地表现出来。所以有赖于使用平行语料库等已存在并正在不断扩充、更新的大量语言事实进行归纳总结,择取较优译法或通用译法作为规范表达以用于机器翻译,从而使翻译语言达到正确性和一致性。

4.利用平行语料库进行加工处理

在平行语料库中,首先,利用术语抽取技术,获 取尽可能多的科技术语;然后,使用短语对齐技术实现这些术语的源语文本和目标语文本之间的对齐。这时,需要建立术语和领域相关性数据库、上下文相关性数据库,对数据库进行动态更新,另外,还需要考虑交叉领域的术语翻译。

4.1 建立术语和领域相关性数据库

要建立同一科技术语与不同科技领域之间的相关性数据库,需要以下工作:

(1)将汉英平行语料库中搜集的语料所属的领域进行分类,并标记其属性(如医学领域,可标记为英文;机械领域可标记为);

(2)求出某一个领域同一个科技术语的各种译法所出现的概率P;统一各种表达中出现概率最高的几种(最少一种)形成一小组,定为译语文本的候选规范表达;

(3)将该术语的译文规范表达与该科技领域相关联,即一旦确定该科技领域,则当遇到该术语时,根据第二步统一翻译成此规范表达小组中的一个。

如下所示:

[elbow]——{ (医学)-->【肘】,

(机械)-->【肘部】}

[pedestal]——{(建筑)-->【柱座】,

(机械)-->【支座】|【基座】}

[cell]——{(生物或医学)-->【细胞】,

(电气)-->【电池】,

(电子)-->【元件】,

(机械)-->【容器】,

(通讯)-->【手机】}

可以看出,同一英语科技术语也可以在不同的领域中译成同一汉语词语,这是由各领域之间的相近性和词语涵义的相对稳定性决定的。但这并不影响特定领域中的具体翻译。

4.2 建立上下文相关性数据库

同一领域中,科技术语之间需要有上下文相关性数据库。科技术语之间有上下位概念相关、局部和整体相关、同级相关等固有关系。由于这种固有关系,使得某些科技术语之间的彼此同现机率很高。同一领域中,很多词也有不同的翻译方法,而这些译法多数与上下文中同现的上述某些词语相关,所以可以用之以示区分。

例如,机械领域中tab有多种译法,但是如果上下文中出现或多次出现pop can(易拉罐),则意味着其意思是“拉环”的概率最大;如果上下文中出现或多次出现housing(壳体)或container(容器),则意味着tab的意思是“凸舌”的概率最大;如果前述二者都未出现,则音译表达“提攀”的概率最大。

由此可以在第一步的基础上,将规范表达数组中的各个元素和其所在领域中同现的其它术语(或称“特征词”)通过计算最大概率而进行关联,即,如果在规范表达数组中同一领域同一特征词出现时有多个译法,则可以取最大概率者建立相关性。此处“上下文同现”指同一句子中同现、同一段中同现或者同一文献中同现,而不单纯指相邻的同现关系。术语间建立相关性如下所示:

机械领域:

[flange]——{(机械)1 --> (管

道系统)-->【法兰】,

(机械)2 --> (轴)

-->【凸缘】 }

计算机科学领域:

[Interface]——{1 -->

(USB/输入输出)-->【接口】,

2 -->

message box>(窗口、对话框或消息框)

-->【界面】 }

显然,这个过程可以采用现今比较常用的互信息(mutual information)的方法来实现。另外,还可以使用与这些术语上下文同现概率较高的形容词或动词来作为特征词。

4.3 动态更新数据库

科学技术的发展日新月异,新型技术产品不断涌现,技术交流更加频繁,汉英平行语料库的规模也在持续扩大,英语科技术语持续增加,同一领域同一术语的某一译法在其所有译法中所占的概率在相对稳定中也势必会发生相应的变化。我们必须利用各种有效的途径不断地扩充和完善科技术语相关性数据库。例如,依靠强大的搜索引擎功能搜集互联网上丰富的双语语料资源,并运用各种技术对所搜集的信息进行加工、处理和完善,以满足正确处理科技术语所满足的条件。对于个体软件而言,可以利用翻译记忆机制,不断地记录翻译过程中所得到新的翻译结果,并实时地在后台进行整理归总,动态地得出用于后继科技术语翻译所需的数据。事实上,这一点已在一些翻译软件中初见端倪,如翻译记忆软件Trandos、Transit等。

4.4 交叉领域中科技术语的处理

当今世界科技领域的发展已经不再是单纯的独立的发展,跨学科、跨领域的研究或技术开发已经成为是不可忽略的一大趋势。原来应用于两个特定领域的由同一源语词语表达的术语很有可能在同一篇跨领域的科技文献中同时出现,此时便有区分这些术语的必要。仍以上述elbow为例,虽然在医学领域和机械领域可以进行不同的翻译,但是,在医疗器械中则有可能混合两种用法,如一种医疗器械所要作用的位置与肘关节(即elbow)相关,而同时这种医疗器械的某些构件之间的连接处也有可能被源语作者命名为elbow。当然这种情况较为少见,但不可完全忽视。这种情况下,可以尝试在相对较小范围内寻找与源语关联的特征词,如可仅在一小段或一句中寻找。这样可以降低不同译语混淆的可能性。

综上所述,基于平行语料库的科技术语翻译处理过程的实现可以用下图表示:

5.所存在的问题:

同一领域中科技术语的特定用法和其一般用法的冲突问题。由于某些准技术术语来源于一般表达,当在某一领域的科技文献中使用时很有可能出现这种情况:即,该术语既有一般用法,又有该领域的专门用法,这时可能会使得具有一般用法的词也翻译成专门用法。如“tab”在机械领域的文献中可能用作上述“提攀”“拉环”等的意思,同时也可能有“标签”的用法(如在机器上贴的标签),如果忽略了这种基本用法,势必会造成某些错误。而如果将一般用法也通过特征词加入到相关性数据库的话,则可能会由于一般用法的特征词较多而在翻译中喧宾夺主,从而大大降低该术语翻译的准确度。这一点还需要在构建科技术语相关性数据库时做进一步的考虑。

另外,当前汉英平行语料库质量参差不齐,构建语料库时所抽取的语料中对某些科技术语的翻译有很多尚不到位,而且通过网络扩展和更新,或加入更多的质量不均的语料,从而使统计出的译法难免有失偏颇

上一篇:民事裁判方法研究论文 下一篇:呼包鄂城市群水资源承载力的研究