机器翻译研究述评

时间:2022-09-18 04:56:21

机器翻译研究述评

摘要: 文章讨论了机器翻译研究的历程,总结了机器翻译的研究成果,将机器翻译分为了基于规则的机器翻译、基于实例的机器翻译、基于统计的机器翻译和混合式机器翻译四类。并根据这四个研究方向对机器翻译研究成果进行了述评。最后指出目前机器翻译研究存在的不足,并预测混合式机器翻译将成为机器翻译研究的热点。

Abstract: The paper discussed the development of machine translation, summarized its achievements, and divided it into four categories which included rule-based machine translation, example-based machine translation, statistics-based machine translation and blending machine translation. Based on these four research directions, the paper made a review on the achievements of machine translation researches. The paper also pointed out the defects of the machine translation research, and forecasted that the blending machine translation would become the trend of the future research.

关键词: 机器翻译;述评;成果

Key words: machine translation;review;achievements

中图分类号:TP391 文献标识码:A 文章编号:1006-4311(2013)01-0174-03

1 机器翻译的研究历程

机器翻译是利用计算机把一种自然语言转换成另一种自然语言的过程。早在上世纪30年代初,法国科学家CtB.Artsouni就提出了利用机器来进行语言翻译的想法。1946年电子计算机问世之后,美国工程师W.Weaver在1949年发表了一份以《翻译》为题的备忘录,正式提出了机器翻译这一设想[1]。1954年美国乔治敦大学在IBM公司的协同下,进行了俄英机器翻译实验,这是世界上第一次机器翻译试验。随后,前苏联、英国、日本、中国等国,也相继进行了机器翻译试验。

机器翻译发展至今,已出现了多种基于不同原理的机器翻译系统。总体可以将机器翻译系统从方法上大致分为四类:基于规则的机器翻译、基于实例的机器翻译、基于统计的机器翻译和混合式机器翻译。不同的机器翻译系统各有所长。例如,基于规则的机器翻译系统擅长于翻译符合规则的句子,翻译的质量较高;基于统计的机器翻译系统具有通用性,自动从语料库中学习语言知识。

2 机器翻译的研究成果

2.1 基于规则的机器翻译 基于规则的机器翻译方法是机器翻译领域最初提出的研究方法,该方法认为翻译的过程是需要对源语言进行分析并对源语言意义进行表示、然后再生成等价的目标语言的过程,该方法从70年代中期开始到80年代末在机器翻译界一直占有主导地位。

基于规则的机器翻译系统从体系结构上可以分为:直接翻译系统、转换翻译系统和基于中间语言的翻译系统。直接翻译系统是根据源语言与目标语言间的词汇单元的对应关系进行翻译,因此这种系统带有针对性过强的弊病。转换翻译系统中,源语言的分析独立于目标语言,其分析一般只在句法平面上进行。转换时需要一部双语对应词典,用目标语言单元替换源语言单元时考虑上下文。与直接翻译系统不同,转换翻译系统的建造需要进行双语对比,构造复杂的映射规则。基于中间语的翻译系统中源语言与目标语言不直接接触。把源语言的文本用人工设计的无歧义的中间语来表示,再把中间语言所表达的意义用目标语言的词汇和句法结构表示出来。中间语言系统不需要转换规则,因为中间语表达式对源语言和目标语言都是一样的。但中间语言的设计非常困难,即使设计出来其管理也很困难[2]。

基于规则的机器翻译中的规则是语言学家编写的,因此需要消耗大量的人力物力用于规则的开发,研究周期长,实验的代价比较大。虽然研究者们已经建立了含有成千上万个规则的规则库,然而这种方法仍然具有局限性。在处理大规模真实语料的时候,效果依然很不理想。

2.2 基于实例的机器翻译 基于实例的机器翻译的基本思想是日本著名翻译专家长尾真(Makoto Nagao)[3]在1984年提出的。基于实例的机器翻译的基本原理是不通过深层的分析,仅仅利用已有的经验知识,通过类比进行翻译。随着语料库语言学的兴起,越来越多的人对基于实例的机器翻译进行了研究[4,5]。句子相似度的衡量是基于实例机器翻译研究中最重要的一个内容。针对句子的相似度,田生伟等[6]对维吾尔语句子的相似度进行了研究,并得出结论:采用词形特征的粗选算法、基于散列单词倒排索引能够有效提高算法的查找速度,快速从语料库中筛选出候选句子集合;多策略精选算法中采用基于维吾尔语词频的单词区分度算法、连续单词序列抽取算法,可以有效衡量两个维吾尔语句子的相似程度,能够有效地从候选句子集合中找出与输入句子最相似的句子。

2.3 基于统计的机器翻译 基于统计的机器翻译方法是20世纪90年代兴起的一种方法,也是当前机器翻译的主要方法。这种方法自动从语料库中学习语言知识,再利用这些知识对语言进行翻译。它不需要人工编写规则并且对所有语言都适用,但其翻译质量依赖于语料库的大小。目前可以将统计机器翻译模型分为基于词、短语和句法的三种模型。

2.3.1 基于词的机器翻译模型 词对齐是统计机器翻译中的重要技术之一。肖桐等[7]提出了一种重对齐方法,这种方法在IBM models获得的正反双向词对齐的基础上,确定出正反双向对齐不一致的部分。之后,对双向词对齐不一致的部分进行重新对齐以得到更好的对称化的词对齐结果。实验结果表明,相比在统计机器翻译中广泛使用的基于启发信息的词对齐对称化方法,这种重对齐方法可以使统计机器翻译系统得到更高的翻译准确率。徐春[8]等通过对各种翻译模型的研究发现,在翻译中,词对齐问题,主语、谓语中心词和时态的一致性问题是制约其翻译性能的主要因素。董兴华[9]等对统计机器翻译中的形态学处理问题进行了研究,研究结果表明:对汉语句法结构的调整及以词干、词缀等更小的词素形式参与训练可以有效提高翻译质量。

2.3.2 基于短语的机器翻译模型 基于词的翻译模型在实用中遭遇到了词对齐噪声的影响且没有考虑句子的结构及上下文信息,在两种语言的语序相差比较大时翻译效果不好。为了解决上述问题,基于短语的机器翻译模型被提出[10]。Och[11]提出将对齐短语泛化为基于词类的对齐模板,并采用线性对数模型作为整体框架。

调序模型是统计机器翻译研究的一个重点。侯宏旭等[12]

通过对汉蒙机器翻译中调序模型的研究,为基于短语的汉蒙机器翻译提出了一种基于词语语序变化分布特点的调序模型,该模型比较简单,模型参数很少,但效果好于传统的模型,比较适合于汉语和蒙古语这类语序差别较大的语言之间的翻译,更重要的是能够有效地提高汉蒙机器翻译的性能。为解决基于短语统计机器翻译存在的调序能力不足的问题,一些研究者尝试利用句法分析器对基于短语统计机器翻译的输入汉语句子进行句法分析,然后利用转换器进行调序操作,并对部分类型短语进行预先翻译,然后再利用基于短语统计机器翻译的解码器进行翻译。

如果基于短语的统计机器翻译模型不将非连续短语的情况考虑在内,会造成翻译结果在目标语言中的意义变化或缺失。针对这一问题,孙越恒等[13]以非连续介词短语为例,提出了一种短语模板抽取算法。该算法采用基于规则的方法,抽取出中文非连续介词短语模板,借助双语对齐语料和介词方位词翻译表,获得模板对应的英文翻译,最终形成的双语模板被加入短语翻译表中,使译文更加符合语法规范。为克服传统的短语抽取方法对词对齐信息的依赖性强,抗噪声能力差这一缺陷,梁华参[14]提出基于词汇相似度约束的短语抽取策略。王斯日古楞[15]等在对汉语和蒙古语中的量词翻译进行研究的基础上,提出了使用量词表进行翻译,总结出了一对一、多对一、一对零和一对多等汉语量词到蒙语量词翻译的对应关系,给出了各种对应中的翻译方法。这种方法能有效解决翻译中出现的量词错误,尤其是对临时量词和一对空的量词翻译非常有效。

基于短语的机器翻译中,传统的估计方法只考虑了双语短语同时出现,满足对齐一致性的情况,而没有对其他情况进行统计,因而短语翻译概率的估计不够准确。因此一些研究者修改了传统的短语概率计算公式,在估计概率的过程中充分地考虑短语的各种出现情况,提高了翻译效率。

2.3.3 基于句法的机器翻译模型 基于句法的统计机器翻译模型几乎与基于单词的统计翻译模型同一时间被提出,但是,在2000年之后,基于句法的统计机器翻译研究才逐渐得到人们的关注和认可。

引入句法结构有助于解决基于短语的统计机器翻译本身存在一些固有缺陷,如短语层次上的全局重排序,短语非连续性和泛化能力等问题。并且,有些基于句法的统计机器翻译系统在性能上已经明显超过了基于短语的系统,如2005年NIST机器翻译评测中的Chiang的Hiero系统,2006年NIST机器翻译评测中的ISI的系统和中科院计算所的系统。徐春[8]等在对各种翻译模型的研究中发现,汉语和维吾尔语的句法结构差异对翻译性能也存在着影响。王斯日古楞[16]在对汉蒙统计机器翻译的研究中发现,对于语序差异较大的汉语和蒙古语,基于蒙古语语序的汉语句子调序方法对于系统性能的提高相当有效。

2.4 混合式机器翻译模型 近几年来,针对各种翻译模型存在的缺陷,研究者开始转向混合式机器翻译。宿建军等[17]根据维吾尔语形态变化丰富的特殊性,搭建了一个基于Factored的机器翻译系统,将Factored系统和基于层次短语的Joshua翻译系统以及Moses中基于句法的翻译模型进行系统融合,构建了混淆网络,提高了翻译效率。杨宪泽等[18]对混合方法的模块实现以及相关的算法进行了讨论,之后又对这种混合算法进行了改进[19]。晋耀红等[20]针对专利文本中的复杂现象,提出了一种基于混合策略的方法,融合语义分析技术和基于规则的翻译系统,提高了专利翻译的效果。

3 机器翻译研究展望

机器翻译还不成熟,需要人与系统的配合。并且,机器翻译还存在一些问题。一方面,存在词法、结构及语义歧义,相同的一句话,由于断句方式不同,可能存在不同的语义。另一方面,有些新的词汇无法解释。

目前,更多的人还是热衷于统计机器翻译,尤其是基于短语的统计翻译。近几年来,人们开始关注混合式机器翻译。由于基于词的机器翻译、基于短语的机器翻译和基于句法的机器翻译各自存在不同的缺陷,将各种翻译模型融合在一起,有望解决已有翻译系统存在的不足。因此,混合式机器翻译将成为今后机器翻译的热点。

参考文献:

[1]冯志伟,徐波,孙茂松.机器翻译的现状和问题[M].科学出版社,2003.

[2]朱海.基于混淆网络的机器翻译系统融合研究[D].中国科学技术大学,2010.

[3]Nagao M.A. Framework of a mechanical translation between Japanese and English by analogy principle[M]. North Holland Publications,1984.

[4]王长胜,刘群.基于实例的汉英机器翻译系统研究与实现[J].计算机工程与应用,2002,38(8):126-127.

[5]刘康龙,穆雷.语料库语言学与翻译研究[J].中国翻译,2006,27(1):59-64.

[6]田生伟,依布拉音吐尔根,禹龙等.一种维吾尔语句子相似度算法的研究[J].计算机工程与应用,2009,45(26):144-146.

[7]肖桐,李天宁,陈如山等.面向统计机器翻译的重对齐方法研究[J].中文信息学报,2010,24(1):110-116.

[8]徐春,杨勇,董兴华./统计机器翻译中若干问题研究[J].Computer Engineering and Applications,2011,47(35):150-154.

[9]董兴华,陈丽娟,周喜等.统计机器翻译中的形态学处理[J].计算机工程,2011,37(12):150-152.

[10]Koehn P,Och F J, Marcu D. Statistical phrase-based translation[J].Association for Computational Linguistics,2003,48-54.

[11]Och F J, Ney H.A systematic comparison of various statistical alignment models[J]. Computational linguistics,2003,29(1):19-51.

[12]侯宏旭,刘群,李锦涛.一种基于短语的汉蒙统计机器翻译与调序模型[J].高技术通讯,2009,19(5):475-479.

[13]孙越恒,段楠,侯越先.统计机器翻译中的非连续短语模板抽取及其应用[J].计算机科学,2009,36(10):192-196.

[14]梁华参,赵铁军,薛永增等.词汇相似度约束的短语抽取[J].哈尔滨工业大学学报,2010,(5):775-778.

[15]斯琴图.汉蒙机器翻译系统中量词翻译研究[J].中文信息学报,2010,24(5):92-95.

[16]王斯日古楞,斯琴图.汉蒙统计机器翻译中的调序方法研究[J].中文信息学报,2011,25(4):88-92.

[17]宿建军,张小燕,吐尔洪等.联合式多引擎机器翻译系统[J].计算机工程,2011,37(16):179-181.

[18]杨宪泽,雷开彬,吴守宪等.一种句型转换和近似机器翻译方法及算法[J].计算机工程与科学,2005,27(11):66-68.

[19]杨宪泽,肖明.一种混合式机器翻译方法的分析研究[J].计算机工程与科学,2012,2(34):168-171.

[20]晋耀红.一种混合策略的专利机器翻译系统研究[J].计算机工程与应用,2012,48(4):29-32.

上一篇:对哈大齐工业走廊物流基础设施改进建议 下一篇:汽车电子安全技术的现状及其发展策略