自动化专业多引擎机器翻译研究

时间:2022-08-28 01:36:54

自动化专业多引擎机器翻译研究

摘要:提出了自动化专业文献多引擎机器翻译系统的建立模型,该模型主要包括四个微引擎:基于实例微引擎系统、基于模板微引擎系统、基于规则微引擎系统、基于统计微引擎系统,并结合自动化专业文献双语平行语料库,模拟了专业文摘在系统中的翻译流程,说明了每个微引擎对待翻译语料的处理方式和处理后的结果。

关键词:机器翻译;自动化;多引擎

中图分类号:TP18文献标识码:A文章编号:1009-3044(2008)25-1525-02

The Study of Multi-engine Machine Translate in Automatic

YANG Yu, LIN Jin guo, WU Zhen xin

(NanJing University of Technology, Nanjing 210009, China)

Abstract: When we build a Parallel Corpora about automatic' literature, we analyse the characteristic of automatic' literature. We design a multi-engine MT system about automatic' literature base on the characteristic. We design a model about the system, introduce the structure and function of any model, discuss the handle course of multi-engine MT system, and how to do with it in every module. We also introduce the method of the templet' producement in templet translate engine, and the NN technology to the self-training and the extension of the system.

Key words: parallel corpora; automatic; multi-engine

1 引言

在机器翻译方法的发展中,从早期的直接翻译法,到后来的基于转换的方法及基于中间语言的方法,直至基于统计的方法和基于实例的方法,机器翻译方法在不断发展。但是一个明显现象是,仅靠一种机器翻译方法难以使机器翻译系统达到所期望的水平。二十世纪九十年代以来,综合多种机器翻译方法的基于混合策略的机器翻译实现策略得到了很多机器翻译研究者的赞同。研究如何使所集成的机器翻译方法更好地发挥作用,并使系统整体性能得到提高,就成为了一个值得研究及尝试的研究课题。

2 多引擎机器翻译系统建立原则

策略的制订对于任何一个机器翻译系统的研发都具有全局性的意义。因此,我们设计的汉英机器翻译系统在策略选择上遵循如下的原则:

2.1 先理解,后翻译

对于理解有各种各样的标准,如著名的图灵标准,以生成句法树为目标的句法分析标准,以及各种各样的植根于Chomsky语法的句法语义分析标准。

2.2 先“信”后“达”不唯“雅”

机器翻译60多年的曲折发展历史使人们逐渐认识到冀望用机器完全取代人来消除人类的语言交流障碍原来是一个浪漫的、不切实际的幻想。对翻译目标和翻译方法要有一个清醒的定位,那就是:“信”为基础,“达”为追求;“异化”为主,“同化”为辅。考虑到现阶段以及可预见的将来机器翻译理论和技术的发展水平,“雅”属于有所不为的方面。但这样说并不意味着“雅”的实现是一个“无法完成的任务”,在现存的各翻译策略中EBMT策略的应用有助于部分实现“雅”的翻译目标。

2.3 多种策略,综合运用

采用混合策略的机器翻译方法,也源于对语言本质的认识。语言是人类思维的反映。通过语言的研究,可以帮助人类认识智能的本质。乔姆斯基认为人的语言能力具有遗传性的观点反映了语言知识具有规律性的一面,这方面可以通过语言规则加以描述。同时也应该看到,语言也有不规则的一面,语言的使用比较灵活,许多语言现象的分析需要大量的个性知识才可能描述清楚,这时采用基于实例的方法就显出了优越性。同时,语言使用中还存在很多介于规则和不规则现象之间的语言现象,这时采用基于翻译模板的方法来描述比较合适。

2.4 翻译记忆,自主学习

近十几年来,随着人们对机器翻译的重新认识和重新定位,人机交互的思想深入人心,以塔多思(TRADOS)和雅信CAT为代表的具有自学能力的机助翻译系统异军突起,受到业界的广泛关注。无论是MAHT系统还是HAMT系统,其核心都是翻译存储或翻译记忆(Translation Memory)技术的运用。TM技术以双语(或多语)对齐语料库为基础,通过人机交互实现翻译实例的记忆积累,再通过类比匹配的方法建立基于记忆的目标译文。TM技术的运用,可以使机器翻译系统通过人机交互接受专家的帮助,修正错误,不断提高智能水平。

3 自动化专业文献多引擎策略机器翻译系统结构设计

在实用型机器翻译系统的研制中,研制的一个主要目标是使系统输出的翻译结果质量比较高,从而更好地满足用户的需求。因为单一的机器翻译方法很难达到预期的效果,所以采用几种机器翻译方法有机地结合起来的混合策略成为了许多机器翻译研究者的共识。在汉英双向机器翻译系统的研制中,我们采用了将基于统计方法、基于模板方法、基于实例方法以及基于规则方法相结合、将浅层分析方法和完全分析方法相结合的混合策略。

3.1 自动化专业文献混合策略机器翻译系统结构设计

将不同的机器翻译方法集成在一起时,需要设计合理的组织方式。本文提出的自动化专业文献汉英双向机器翻译系统,采用了如图1所示的处理流程。

为了克服单一机器翻译处理策略的弊端,实现多种策略相互间优缺点互补的翻译机制,本文所设计的多引擎翻译策略综合运用了基于规则、基于范例、基于模板、基于统计四种翻译技术。模型中还有一个重要的组成部分即控制系统,控制系统是根据语言经过不同处理阶段所得结果的特点有选择的调用相应的引擎进行进一步的处理,并且控制系统还负责在翻译模式和系统扩充模式中进行切换。

虽然每个引擎的翻译策略方法不同,但引擎的总体结构希望保持一致,这样既有利于系统一致性也有利于未来系统的改进。至于微引擎的系统结构和翻译算法设计我们以刘群在《基于微引擎流水线的机器翻译系统结构》一文中提出的设计为基础,希望能对其进行一定的改进,并在未来的应用中加以实现,这里就不论述了。

3.2 具体翻译流程

在通过以上对自动化专业文献多引擎翻译系统总体结构的设计的基础上,这里具体实践一下自动化专业文献多引擎机器翻译系统的翻译流程,根据自动化专业文献汉英平行语料库中语料的特点(句型上相对简单固定、词语的歧义多解问题也相对较少),我们制定了以模板微引擎、统计微引擎为主,而规则微引擎、实例微引擎为辅进行语言间的转换的翻译策略模式。语句翻译的总体流程如下:

首先,通过人机界面输入待翻译语句,对所输入的原文进行分析之前对其进行初步的句型结构的处理即进入基于EBMT匹配分析阶段,若匹配成功则直接参考译文输出翻译结果。若无相应匹配译文则进入下一层次――TBMT翻译引擎。这里需要指出的是我们对未来实例库的设想是尽可能的将待翻译语句由长句变换成短句,对于本身的短句而言结合E-Chunk理论转换成为更细小的句子进而一步步进行翻译。

例如:随着计算机时代的来临,语料库技术的应用将会获得更大的成功。

针对这个语句的翻译,当进入到EBMT引擎后,我们将此句子以逗点为界线划分为两个部分。对每个部分再进行匹配分析,如果前一个部分得到了较好的匹配而后一个部分没有得到较好的匹配,则把有较好匹配的部分进行翻译,翻译后的结果直接送入目标语生成模块“等待”。而将剩余部分传送到下一个引擎进行下一步的翻译处理。

当经过第一个层次的翻译后,没有得到完整的译文,则系统通过控制程序启动相应的规则引擎对待翻译语句进行词一级别的处理,主要是分词、词性标注和对齐等处理(词性的标注我们将采用共性规则、个性规则及统计相结合的消兼方法来判定句中各词的词性)。接下来对源语进行浅层句法分析,分析出基本名词短语、动词短语、形容词短语等短语语块,判断出语块的边界及类型,这里采用的是基于规则和统计相结合的方法。在浅层句法分析的基础上,对原语进行深层句法分析,若成功分析出一个合格的句法树,则认为分析成功,进入深层转换规则处理模块;否则认为深层分析失败,进入翻译模板处理模块。

深层分析失败情况下对源语进行语言模式分析转换,得到所输入待翻译语句的语言特征集(包括句型、类型、语气、时态等)。然后根据TBMT的类比模糊匹配策略对模式库进行模板检索,建立起与输入原文语言特征相似的实例集合。通过计算相似度来获得最优匹配的模板。在这里引入了相似度阈值的概念。如果当前翻译句子与语料库中已有的句子相的相似程度达到或者高于我们预先设定的一个计算公式所得出的结果则认为匹配较好,则按照模板进行翻译,给出相应译文。如果没有达到设定阈值则将整理过的语句传递给再下一个翻译层次启动统计引擎进行翻译。

最后,当以上所有引擎翻译结果都不甚理想得情况下我们对经过各层次处理后的待翻译语句运用统计策略的翻译方法进行翻译并辅之以规则的方法对所得译文进行整理得到目标译文。

4 结束语

从整体来看,自动化专业文献多引擎翻译策略虽然具有众多的优势,但是只是在词语或短语层面进行翻译,各翻译引擎在实际的运作过程中的具体效用、引擎彼此之间隐含的问题(如兼容问题)、每个微引擎的进一步优化问题还有待在未来的实际运行中进一步验证,不过多引擎的理念现在已得到了认可,也是一个可行方向,相信通过不断的实践会有更实用的系统出现。

参考文献:

[1] 刘群. 机器翻译技术综述及面向新闻领域的汉英机器翻译系统[R]. 北京大学,2002.

[2] 李沐,吕学强,姚天顺.一种基于E-Chunk的机器翻译模型[J]. 软件学报,2002,13(4):669-675.

[3] Kevin Knight. A Statistical Machine Translation Tutorial Workbook[R]. unpublished,prepared in connection with the JHU summer workshop, August 1999. (available at www.clsp.jhu.edu/ws99/projects/mt/wkbk.rtf).

[4] 孙茂松,左正平,黄昌宁. 汉语自动分词词典机制的研究实验[J]. 中文信息学报,2000,14(1):31-36.

[5] 刘群. 基于微引擎流水线的机器翻译系统结构[J]. 计算机学报,2004,27(5):1-12.

上一篇:利用ASP.NET制作网站访问计数器 下一篇:基于FPGA的ABS系统