口译语料库研究的原则与方法

时间:2022-07-27 02:50:15

口译语料库研究的原则与方法

摘要:口译语料库是口译教与研究的一个新领域,也是提高口译研究质量的重要途径与方法。口译语料库研究的主要原则包括:定量与定性相平衡、描述与解释相配合、微观与宏观相结合、共时与历时相协调、证实与证伪相促进、基础性与应用性并重等。口译语料库研究主要包括基于语料库(corpus―based)、语料库驱动(corpus-driven)、语料库指导(corpus-informed)等三种设计方案,具体采用语料库内嵌式统计分析、社会统计分析、多库对比参照等三种方法。同时,应该客观认识口译语料库建设与研究方法的不足,考虑与其他口译研究方法综合应用,以多类型客观数据,最大限度地反映口译现象的本质。

关键词:语料库;口译研究;原则;方法

中图分类号:H319.3 文献标识码:A 文章编号:1001-5795(2013)01-0063-0006

1 引言

当前,语料库语言方兴未艾,对翻译研究领域的影响也日渐显著,特别是建设大规模、多类型的真实翻译语料库,并以此为基础,进行翻译教组织、外语词典编撰、翻译研究、甚至机器翻译的探索,已经成为当前翻译教与研究的一个重大战略选择与实施方案,逐步成为翻译研究的一个核心议题(Baker,1995;王克非等,2004;梁茂成等,2010;胡开宝,2011)。

在此背景下,鉴于口译在操作程序、认知心理机制、社会属性、评判标准等方面与笔译活动的显著差异(Gile,2009),口译也正在引起语料库语言及翻译研究者越来越多的关注。建设口译语料库并开展基于口译语料库的相关口译教与研究工作,已成为完善口译研究方法、深化口译研究质量的一个重要选择,逐步成为口译研究未来发展的一个新趋势(Ryu etal.,2009;张威,2009;胡开宝、陶庆,2010)。因此,进一步澄清口译语料库研究的性质与特点,明确口译语料库研究的主要原则,特别是客观评价口译语料库研究的方法与策略,对完善口译语料库的前期建设与后期技术处理,改革口译研究的实施策略与方法,提高口译研究结论的代表性与普遍性,扩大口译研究在整个翻译研究领域的影响力等具有深远的意义。

2 口译语料库及研究概述

2.1口译语料库的概念

现代语料库语言指专门对存储于计算机内而且可进行自动检索的大规模语料库进行研究的问(何安平,2004:1)。因此,真正意义上的口译语料库是:根据具体取样标准与分层程序采集大量真实口译语料而形成的大型电子文档库。其主要特征包括:①口译语料全部采集于真实情景下的口译习或口译实践;②口译语料的原文与译文都已从音频或视频材料转写为文字材料;③严格依照语料库语言通行的SGML格式,同时根据具体研究目的,对转写文本材料进行赋码与标注;④配备专门检索工具,可以对转写标注后的口译语料进行电脑数据检索与统计分析。

2.2口译语料库建设与研究

2.2.1口译语料库的开发与建设

国内外关于口译语料库的讨论与建设起步于20世纪末,目前几个较为成熟的口译语料库包括:日本名古屋大开发的英日同传语料库、意大利博洛尼亚大开发的“欧洲议会口译语料库”(the European Parliament Interpreting Corpus,简称EPIC)、中国上海交通大研制开发的“汉英会议口译语料库”(CECIC)。当然,鉴于语料收集特别是转写与标注过程的巨大困难,目前这些口译语料库的库容量仅为100万词左右,相对于当前笔译语料库显然规模太小。同时,口译语料库的标注较为单一,难以充分反映口译操作的特殊性。这些都是制约口译语料库相关研究代表性与影响力的主要因素。

2.2.2口译 语料库研究的主要内容

首先,当前口译语料库研究主要涉及口译文本的语言特征,一方面集中归纳分析口译的词汇特征,如:口译文本的词汇密度与变异、口译高频词汇、词语索引(concordances)、词语搭配、词汇相似性与陌生性等;另一方面,对口译文本的语法结构以及口译文本的普遍性进行了探索,如:口译文本中语态类型的应用、口译文本的语篇模式、口译文本表现出的“简化性”普遍特征等(Shlesinger,1998;胡开宝、陶庆,2010)。

其次,相关研究还考察了口译操作过程,主要包括:同传的“间断性”(disflueney)、同传中对原文隐喻的处理、口译语速分析、口译操作中自我修正(self correction)的机制与表现、同传中的延迟现象等(张威,2012)。

3 口译语料库研究:原则与方法

3.1口译语料库研究的主要原则

3.1.1定量与定性相平衡的原则

口译语料库研究依赖大规模真实数据,以数据的系统统计与分析为基础,更多具有定量研究的特征。但口译操作的特征、口译信息的传递效果(即口译质量的评价),特别是口译活动的社会属性以及口译加工的认知机制,还须依靠对数据的解释与分析(尤其是数据背后隐含的规律),也更需要相关领域的理论知识的储备与经验认识的积累,甚至某种程度上也依赖对数据的直觉性判断与内省式分析(胡开宝,2011:192)。

3.1.2描述与解释相配合的原则

口译语料库研究一方面应该立足于对口译活动及口译操作过程的详尽描写与全面归纳,生成大量真实的一手材料和具体统计数据(而非仅靠研究者大脑的凭空想象或对所谓“理想译者”的抽象概括),另一方面又不能桎梏于现象的表面罗列或数据的简单汇集,更应该借鉴相关理论甚至是个性化的直觉经验,对数据进行深度剖析与阐释,挖掘口译操作的内在规律,进而对未来口译实践规范做出理性判断。

3.1.3微观与宏观相结合的原则

口译语料库研究一方面要对口译转换规律、口译语言特征、口译信息单位等涉及口译操作及效果的关键因素进行基于客观数据的描述与分析(微观),甚至可以考虑结合个案研究(另见4.3),开展个性化而立体化的微观解析。另一方面,结合口译情景(如工作环境)、口译员身份、口译文本性质等因素,也应该依据口译语料库的统计数据,对口译文本特征(即口译文本的“普遍性”)、口译操作规范(其中也可包括口译习者所表现出来的口译习阶段性特征,如口译策略、口译质量等)等问题,进行综合而全面的分析与判断。

3.1.4共时与历时相协调的原则

限于语料性质与规模,当前口译语料库研究主要还是共时性研究。而且,开展历时性口译语料库研究的最大障碍是不同时期口译语料的收集与加工。首先,从目前口译语料库建设情况来看(PSchhacker,2004;李婧、李德超,2010),可以考虑根据已有口译语料库,进行较短时期内(如近三十年)口译语言与信息的对比分析(胡开宝、陶庆,2010)。其次,从口译发展的历史来看,也可以考虑筹建二战后战犯庭审口译语料库,并同目前的口译语料库进行对比分析,逐步挖掘不同时期、不同社会历史背景下口译行为的特殊性,包括其语言转换规范、口译信息质量评价等因素。

3.1.5证实与证伪相促进的原则

口译语料库研究一方面要充分利用语料库数据统计与分析的优势,以大规模真实口译语料为基础,对既往的理论知识或经验认识(如“脱离原语语言外壳”、口译心理词库、口译信息单位等)进行验证。另一方

历史上,交替传译在1919年“巴黎和会”期间开始大规模使用,而同声传译在1947年“纽伦堡审判”期间开始大规模应用。但由于技术因素限制,目前仅有“纽伦堡审判”的部分口译材料可以使用(张维为,1994)。此外,关于中外历史中口译活动的社会属性、文化功能,详见:黎难秋(2002)、Psehhacker(2004)。面,应提倡根据真实语料的实际状况,修正甚至颠覆原有概念、理论或方法(如“口译认知负荷模型”(EffortModel)、口译记忆资源与口译效果的关系等),推动并深化对口译现象与操作规律的认识过程(Wu&Wang,2009;张威,2010)。

3.1.6基础性与应用性并重的原则

鉴于口译活动非常突出的实践特性,口译语料库研究一方面应该对口译文本特征、口译操作规范等涉及口译现象的基础性知识进行全面而系统的描述与分析,另一方面应强调上述研究结论对口译教与口译实践的借鉴价值,特别是对口译习者的参考价值(口译策略的性质与应用、口译信息性质的判断与传达等),以改善其口译习效果,提高口译实践的质量。

3.2口译语料库研究的方法战略:设计方案与统计方法

3.2.1设计方案

(1)基于语料库(corpus-based)的验证与分析

本质上讲,“基于语料库的研究方法是普通的实证研究方法在语料库语言领域的延伸,其基本程序与普通的实证研究方法十分类似”(梁茂成等,2010:178)。

基于语料库的方法并不反对也不试图传统的语言理论,也不排斥研究者的直觉,而是由研究者根据以往的语言研究成果或对语言的认识,首先提出假设,然后到语料库中去验证假设,假设是否成立取决于语料库中的语言实例。因此,这是一种针对既有理论、思想或术语的假设验证方法。

(2)语料库驱动(corpus-driven)的探索与描述

与基于语料库方法不同,语料库驱动方法的目的在于语言描写,其基本原则是:在对语料库进行分析之前并无任何假设,通过对语料库中的所有例证进行穷尽式的分析和归类,得出有关语言使用情况的假设乃至结论。具体研究程序一般分为“观察一假设一归纳一理论整合”等几个步骤(梁茂成等,2010:178)。

(3)语料库指导(corpus-informed)的教组织与实施

所谓语料库指导,指以语料库检索或统计结果为依据,主要包括各种词语、搭配和结构在语料库中的出现频率、使用场合、语体等信息,然后根据这些信息指导编写合适的教材料。因此,这种方法强调语料库研究与语言教与培训的有效结合,其要点是将语料库中的原始信息消化,以生更容易接受、更有利于教的形式呈现于教材料之中。

3.2.2数据统计方法

整体而言,在语料库分析中,最基本的数据是文本数据,而从数据中得到的最基本的信息是频率信息。因此,频率对语料库研究至关重要,语料库相关研究常常通过各种统计方法,从调查语言信息的分布频率人手,研究语言现象在实际应用中的规律与模式(何安平,2004;梁茂成等,2010)。

具体来说,口译语料库研究可以采用以下几种统计分析方法。

(1)语料库内嵌式统计分析法

口译语料库设计与建设的一项核心内容就是通过语料标注及配套检索工具的研发,确保能够利用语料库检索工具自带的统计与分析程序,对口译语料进行量化的频率分析与统计分析,主要包括等类符/形符比(type-token ratio)、语境关键词(KWIC)、高频词(high―frequency word)、词语搭配统计(collocation)、类联接(colligation)、多词序列(muhiword expressions)等程序或方法。

(2)社会统计分析方法

同时,根据具体研究主题,可以预设不同变量的相互关系(如关键词语与口译质量的关系、原文语言特征对口译策略的制约等),然后在口译语料库中进行检索统计,再利用社会统计程序与工具(如SPSS),对所得数据进行假设检验分析(hypothesis testing),通过独立样本T检验、配对样本T检验、相关分析、方差分析、回归分析等多种分析工具(秦晓晴,2003),考察具体变量问的相互关系,进一步验证或补充原始语料统计分析的客观性与代表性,从而丰富量化研究的层次性,提高量化研究的质量。

(3)多库对比参照法

相对而言,当前笔译语料库的类型与规模,包括相关研究的数量与质量,都较口译语料库有显著提高。因此,可以考虑将口译语料库数据与笔译语料库进行对比分析,考察口译文本与笔译文本的差异性,特别是详尽讨论不同性质文本在词汇性质、语篇组织、语体特征等方面的相互关系,为口译文本的特殊性提供更多样的参照数据(胡开宝、陶庆,2010)。

4 口译语料库研究的客观评价

一方面,就研究指导思想而言,虽然语料库语言强调通过语言客观事实来描述语言应用规律,但从语言事实的无限性与语料库规模的有限性来说,语言活动的丰富性与复杂性无法在语料库中完全展现。另一方面,从研究方法的性质来说,语料库研究方法属于经验性研究的范畴(与理性主义指导的研究相对立),难免带有其自身的局限性,主要表现为数据代表性难以充分保证、统计分析工具与数据性质难以完成协调、数据定性解释不足等(梁茂成,2010)。

4.1口译语料库建设有待完善

4.1.1口译语料库的规模及代表性

应该承认,“语料库是否具有代表性直接关系到在语料库基础上所做的研究及其结论的可靠性和普遍性”(杨惠中,2002:133)。相对于当前笔译语料库上千万词甚至上亿词的库容量,目前最大的口译语料库规模也不过100万词上下。显然,口译语料库目前的容量还难以充分保证如实反映口译实践操作的一般特征。因此,基于当前口译语料库的相关研究及其结论的代表性也就存在诸多疑问。

4.1.2口译语料的标注层次与形式

现有口译语料库的标注主要集中在词性赋码、句子对齐两方面。但口译操作中省略、整合、预测等策略应用非常普遍,对口译信息传达有重大影响,简单词性标记或句子对齐难以充分反映上述口译策略的应用情况及具体效果,也无法真实反映口译的“信息对等”(information equivalence),这无疑不利于有效反映真实情景下口译加工的性质与特点(张威,2012)。

4.1.3检索工具的适用性

首先,真实口译情景下,支吾语、停顿等副语言现象不仅仅是口译操作的一种特殊语言现象,同时也对口译信息传递有重大影响,很大程度上反映了口译员对原文信息与结构的判断与加工。但目前口译语料库检索工具尚无法客观反映上述口译副语言信息的性质与功能。

其次,词语索引(concordance)是当前口译语料库检索的一项主要内容,可以显示目标词语与其前后词语的搭配关系,即目标词语的应用语境。但这类语境范围较小,尚无法展示更大语境中各类词语间的相互关系。这无疑不利于对口译文本的语篇特征进行整体的描述与分析(胡开宝,2011:195)。

4.2口译语料库研究方法的负面影响

4.2.1“数据决定论”的片面性

显然,以数据为基础的口译语料库研究无疑迎合了当前基于客观数据的实证性口译研究的潮流(仲伟合、王斌华,2010)。但一个不容忽视的事实是,如上所述,现有的口译语库料技术不能够完全客观地表现口译实践操作的特点与规律。更关键的是,口译语料库提供的数据代表性在数量及质量上,目前均未达到令人满意的程度(李婧、李德超,2010)。因此,过分依赖语料库技术以及对数据的“无限信任”既不符合定量研究方法的性质,也会影响具体研究结论的普遍意义。

4.2.2口译操作的描述与解释

口译语料库能够提供大量而鲜活的口译实践例证,也能够产生相对客观的统计数据,但实例或数据本身无法直接揭示口译操作表象背后的形成原因,对口译操作规律性的深度探索以及对口译现象本质特征的阐释,依然有赖于内省或演绎的方法。

4.2.3口译活动的“外化”语言特征与“内化”心理机制

口译语料库可以提供大量真实的可观察、可量化和可描述的口译操作数据,这是探索社会文化语境中口译性质与功能的最为直接和有效的数据。但是,这些数据本身却无法自然揭示口译操作深层的心智机制,“因为心智语言本质上是不可观察的,其探索可能需要复杂的心理语言实验和神经语言研究的技术手段和方法”(卫乃兴,2009)。也就是说,口译语料库研究很难凭借自己的数据,直接判断心理词库、词汇启动、心智表征、语义搜索与配对、记忆处理等一系列关系口译信息传送程序与口译操作效果的深层认知因素。

4.2.4口译理论的沿承与创新

口译语料库研究的基础是大量真实口译操作的描写与分析,这固然能够很大程度上保证研究结论反映实际情景下口译操作的本质特点,但应该承认,“过分强调语料的先决性,可能会排斥研究者个人的创建性思考及直觉经验的价值”(梁茂成等,2010:185)。也就是说,研究者往往倾向于认为,这些基于数据的分析结论就是口译操作必须遵循的规范,一定程度上限制了口译实践或理论思考的变革或创新,甚至很可能使得翻译实践甚至翻译理论研究趋于保守(胡开宝,2011:196)。

4.3口译语料库与其他研究方法的结合

4.3.1定量与定性方法的综合应用

一方面,应该始终强调研究材料的真实性及数据收集与分析程序(包括工具)的客观性;另一方面,也不应忽视对自然现象或数据的理性分析与抽象判断。只有二者结合,才有可能将描写与解释充分结合,对研究对象进行由表及里的分析与认识。如,关于口译实践策略的性质与功能,特别是具体策略在口译实践中的分布情况及具体影响,既要借助于口译语料库对口译策略的限定与统计,以此描述不同口译策略的使用环境及其对原文信息的保持情况,同时也须根据原文信息的重要性以及口译语篇整体信息的传递效果(而非个别或局部的信息对应状况),对口译策略的应用效果进行理性判断。再如,对口译质量的评价,一方面可以通过语料库对关键信息进行统计分析,确定译文与原文在信息容量与结构方面的关系;另一方面,口译质量的语言因素(如语法规范、术语准确度、表达流利度、发音质量等)及其对具体口译效果的影响,尤其是真实口译场景下口译使用者对口译质量的期待与要求,则需要通过定性分析加以判断。

4.3.2多种定量方法的组合分析

不同的定量方法(如实验、调查等)在数据收集程序、标准、分析方式等方面都存在差异。因此,应该重视多种定量方法综合应用的价值,最大限度地发挥各种定量数据的优势,同时又可有效降低单一定量数据的片面性。如,口译转换单位(包括其类型与作用)涉及口译策略、口译操作过程、口译质量评价等诸多问题,一直是口译教与研究关注的一个热点话题(杨承淑,2010)。一方面,可以考虑设定原文关键信息词语(如单词、术语、专有词汇、数字等),利用口译语料库进行检索统计(即语境关键词分析,KWIC),考察原文信息词语的转换情况。另一方面,可考虑结合认知心理关于信息“组块”传播的理论o,设置实验环境,以判断原文信息组块为自变量,以口译质量为因变量,考察二者的相互关系。这两类数据相结合,对比两种结论的差异性,以此综合分析口译转换单位的性质与作用。

4.3.3规模化数据描述与个体性案例剖析的对照

大规模数据统计与分析的优势在于能够扩大数据解释的覆盖面,提高研究结论的代表.J生,而个案分析则能够突出具体情景下个体对象的自然表现。因此,这两类方法的结合,将更有利于反映客观事物普遍性与特殊性的关系。如,口译习者与口译专家(即高水平职业口译员)在口译策略意识及应用、口译效果、口译职业意识等方面的差异,对口译教与培训有重要意义(Liu et al.,2004)。一方面,应该利用多类性口译语料库(如口译习者语料库、职业口译员语料库),针对相同或类似的主题、信息或口译困难,对不同层次口译员的应对策略进行统计描述,同时判断其口译效果的差异性。另一方面,可以就上述主题,选择有代表性的口译习者和口译专家,以访谈、材料分析等形式,对其口译策略及口译质量进行个案性诊断(杨承淑、邓敏君,2011)。这两类数据相互参照,有可能更客观地反映口译专家与口译习者在口译策略应用上的差异性关系。

5 结语

以大规模真实口译语料库为基础,利用语料库定量数据分析的优势与特色,是扩大口译研究实证数据基础、提高研究结论代表性的一个重要途径。同时,语料库的研究策略与方法要与其他口译研究方法相互配合,才有可能丰富数据类型,对口译操作特点及口译加工性质,进行更全面而深入的描述与分析。

上一篇:体育教师听评课参与现状调查研究 下一篇:禽流感战“疫”,应急得与失