大规模测试中学生英译汉机器评分模型的构建

时间:2022-10-23 08:38:50

大规模测试中学生英译汉机器评分模型的构建

摘要:本文旨在研制有效、可靠的英译汉学生译文机器评分系统,实现大规模测试的自动评分。本研究针对三种文体的译文,分别构建了五种比例训集的评分模型,模型预测分值与人工评分的相关系数均高于0.8。并且,当训集为130篇时,模型对说明文和记叙文译文的预测分值与人工评分非常接近;当训集为100篇时,模型对叙议混合文译文的评分与人工评分最为接近。研究结果表明,本文提取的变量预测力较强,针对不同文体构建的评分模型效果良好,能够比较准确地预测学生的英译汉成绩。

关键词:大规模测试;英译汉;机器评分

中图分类号:H319.3 文献标识码:A 文章编号:1001-5795(2012)02-0003-0006

1 研究背景

主观题的自动评分是测试领域关注的一个焦点。目前英语作文的自动评分研究已经比较成熟,国外已开发出多个评分系统,并应用于GRE、GMAT等大型考试中。在国内,梁茂成(2005)研制了适合中国英语学习者的作文自动评分系统,取得了良好的效果。极少数人也对汉语作文的自动评分进行了研究,发现通过潜语义分析获得的机器评分比较接近人工评分。

在翻译领域,自动评分研究主要局限于机器翻译评价。少数研究者也对学生译文的自动评分进行了尝试(王金铨,2008)。该研究构建了诊断性和选拔性评分模型,前者可以对译文的语义、形式质量进行细致评分并提出反馈,后者可以满足大规模测试中的评分需要。不过,该研究的文体仅限于记叙文。在英译汉自动评分方面,王立欣(2007)挖掘了词对齐数量等文本特征,采用10折交叉检验法来验证模型,具有一定的优势。不过,该研究所用语料为一个广告类段落,人工评分比较粗略,变量也基本上停留在词汇层面。

在前人研究的基础上,本文拟研制稳定可靠的、适用于中国学生大规模英译汉测试的机器评分模型。其基本方法是:利用语料库语言学、自然语言处理、信息检索等领域的技术,提取与译文质量相关的多种文本特征,并通过对文本特征和人工评分进行多元回归分析,构建机器评分模型,最后采用回归方程计算同一题目的其他译文的分数,并分析机器评分与人工评分的相似程度。本研究在人工评分、特征提取、语料类别方面与已有研究不同。首先,人工语义评分以原文的“翻译单位”为单元,翻译单位是符合搭配规则、意义单一、完整的多词单位,有利于评价译文的语义正误、语法性、连惯性等特点。人工形式评分增加了“风格切合度”标准,因为英译汉的目的语是学生的母语,译文的语言形式需要采用更高的评价标准。其次,本研究提取了翻译单位对齐数量等一批新的文本特征。再次,本文对三种文体的译文分别建模。不同文体的语篇在内容、语言、风格上都具有显著差异。本研究使用的说明文结构清晰,措辞规范、严谨,句子结构复杂;记叙文运用了比喻、排比等修辞手法,语言流畅,情态丰富,抒彩浓厚;叙议混合文则兼有记叙文和议论文的特点。本研究探讨了对三种文体的译文质量都具有预测力的变量,有助于提高变量的推广性。

2 研究设计

2.1 研究问题

本研究拟解决以下问题:

(1)三种文体内,不同训集数量构建的选拔性评分模型有多大预测力?所预测分数的信度如何?

(2)多少训集译文能够满足大规模测试中英译汉机器评分的需要?

(3)三种文体的评分模型内,相同特征和不同特征有哪些?为什么?

2.2 研究工具

本研究使用了大量文本分析和数据分析工具:

(1)文本预处理工具,主要为自编的perl程序,用于对文本中的不规则输入进行整理,并对文本进行随机编号、句子整合。

(2)文本分析工具,用于提取与译文语义质量相关的文本特征,包括R软件和perl程序。R是一款统计分析软件,本研究使用自编的R程序进行潜语义分析,它通过奇异值分解来压缩词语一文本矩阵,构建潜藏的文本语义空间。研究者还使用perl程序提取一到四元组匹配数量、评分点对齐数量等文本特征。这些特征的参照对象是最佳译文集,包括30篇专家译文和优秀学生译文,待测译文与该集合越接近,译文质量越高。

(3)数据分析工具,主要是SPSS,用于计算文本特征与分数的相关度,利用回归分析构建评分模型,以及验证模型的有效性。

2.3 研究步骤

本研究可分为五个阶段:语料收集、人工评分、特征提取、模型构建、模型验证,前三个是建模前的准备阶段,下面分别进行介绍。

2.3.1 语料收集

本研究使用了三组语料,包括一篇说明文、记叙文、叙议混合文的汉语译文各300多篇,是国内三所不同水平高校英语专业三、四年级学生的限时翻译测试译文(60分钟)。三篇原文各包含约300个词,按照句意可分为15、15、13个句子。在收集语料时,首先呈现语篇,便于学生从整体上把握原文;接着呈现单句,要求学生在各单句下面写出译文,便于整理。

2.3.2 人工评分

在自动评分研究中,高信度的人工评分是保证机器评分有效、可靠的前提。本研究组织三名有经验的评分员先后进行细致型和简化型评分。细致型评分以“信、达、切”为标准,从语义和形式两个方面分别对译文进行评判。语义评分主要考察“信”,评分员以“翻译单位”为单元,判断每个翻译单位译文的忠实度;形式评分主要衡量“达”和“切”,评分员以句为单位,评价每句译文的语法性、地道性和风格切合度。评分共持续约240小时。

由于第一次评分费时费力,不适应大规模考试的效率要求。评分结束一年后,本研究进一步采用简化型评分,仅对有区分度的评分点进行语义评价。评分点由国内两位翻译研究专家确定,三篇原文中各有33、35、28个评分点,分别占形符数的1/7、1/8、1/9左右。这次评分约耗时32个小时。

表1显示,在三组语料的细致型评分过程中,三名评分员对篇章译文语义评分的相关系数均值都在0.89以上,alpha系数在0.95以上;形式评分的相关系数均值在0.85以上,alpha系数在0.94以上,可见三名评分员具有良好的一致性。在简化型评分过程中,评分员的相关系数和alpha系数也令人满意。

由于第一次评分对译文的语义进行了穷尽性评价,第二次评分大大简化,其有效性取决于它与第一次语义评分的相似程度。统计显示,三组语料中两次语义平均评分之间的相关度分别达到0.924、0.932和0.963,可见基于评分点的评分方法效果良好,也说明以往对评分法的二维划分,即整体评分法(holistic Seoring)和分析评分法(analytic scoring)过于简单。整体评分法只需要评出一个整体印象分数,而分析评分法需要对目标技能的不同组成部分单独评分。已有研究指出,分析评分法的信度高于整体评分法,但是费时、花费高(Weigle,2002:121)。不过,分析评分法可能有不同的“度”,比如本研究中的细致型和简化型评

分;其中,简化型分析评分法不仅信度可靠,还具有较高的评分效率,这与前人的结论不同,也为大规模翻译测试中基于评分点的分析评分法提供了有力的效度证据。

笔者进一步运用多面Rasch模型对人工评分进行了分析。结果显示,各评分员的评分没有出现趋中性;不过,三名评分员的严厉度具有显著差异,这是考试中不应出现的情况。本研究权且采用三名评分员的平均分,降低了评分员差异对评分结果的影响。

2.3.3 特征提取

本研究提取了N元组匹配数量、词对齐数量等语义特征。①N元组匹配数量以最佳译文集为参照,分别检索最佳一到四元组在学生译文中出现的频率。N元组是以词为单位的线性序列,对译文内容进行了最大限度的利用。不过,它不一定是完整的语义单位,没有充分考虑语境因素。②词对齐数量以英汉词典为基准,利用同义词词林扩展版对词典译文进行补充,并考虑了一对多、多对一、多对多等匹配情况,对学生译文中译对的词语进行统计。该变量可以衡量译文的漏译、误译等情况。③评分点对齐数量模拟大型考试阅卷中按采分点给分的方法,将评分点的专家译文和其他正确译文制成词典,在学生译文中进行匹配,对译文质量的区分陛较强。④语义相似度的计算采用潜语义分析法,衡量学生译文与最佳译文集的近似程度。这些变量各有所长,与译文分数显著相关的变量将作为质量预测因子,进入模型构建环节。

3 结果与讨论

本研究的建模方法是,以简化型人工评分为因变量、与该分数显著相关的文本特征为自变量,进行多元线性回归分析。模型的确立需要反复尝试、不断修正,评价模型优劣的标准有三个:第一,进入模型的自变量间相关系数不超过0.8,以免出现共线性(collinearity)。共线性指回归方程中两个或多个自变量高度相关,或者一个自变量解释的方差基本上可以由其他多个自变量解释(Ryan,2009)。第二,模型的决定系数R2达到最大、共线性数据最合理。考察共线性的统计标准主要有容忍度、方差膨胀因子和条件指数(秦晓晴,2003)。第三,自变量的系数正负性与它和因变量的相关情况同向。如果不同向,该变量为“负抑制变量”(negative suppressor),往往与共线性问题联系在一起(Ryan,2009)。

表2所列是经过反复优化的模型,共线性数据都在可接受的范围内,自变量的系数也与它和因变量的相关性一致。限于篇幅,这些数据暂不呈现。

表2显示,在三组语料中,五种训集所构建模型的相关系数都在0.8以上,表明模型中的变量能够较好地解释译文的成绩。在说明文语料中,训集为50篇译文时,模型的相关系数最高;随着训集文本逐渐增加,模型的相关系数整体上呈下降趋势。不过,训集译文越少,模型受具体译文的影响越大,越不稳定,因而不能断定50篇译文能够满足大规模评分的需要。在记叙文语料中,训集为100篇时,模型的相关系数最高;训集减少或增加时,模型的相关系数变化很小。在叙议混合文语料中,训集为50篇时,模型的相关系数达到0.965;训集增加至100篇时,相关系数降至0.935;训集进一步增加时,模型的相关系数差异很小。由此可见,仅根据拟合数据难以确定最佳的训集译文数量,需要比较模型的评分效果。

本研究将验证集中的语义变量代人相应训集所构建的回归方程,获得验证集译文的机器评分。然后,计算机器评分与人工评分的相关度和alpha系数,结果见表3。

表3显示,在三组语料中,不同模型的预测分数与人工评分的相关系数和alpha值都在0.8以上,表明模型都能有效预测验证集译文的成绩。在说明文语料中,训集为50~150篇译文时,验证集人机评分的相关度逐渐上升;训集为150篇时,相关度达到0.862。结合表2可以发现,模型解释的训集分数方差与模型在验证集中的表现并不同步。训集越少,模型对训集分数的预测作用越强,而稳定性也越差,对验证集分数的预测有效性越低。可见,训集需要达到一定的数量,才能保证模型的有效性。在记叙文语料中,训集为180篇时,验证集人机评分的相关度最高,达到0.895。不过,五种模型中人机评分的相关度差异很小。同样,在叙议混合文语料中,训集为180篇时,验证集人机评分的相关度高达0.942。

上述结果优于已有的口语自动评分研究(人机评分的相关度在0.5-0.7之间),但略低于汉译英自动评分模型(王金铨,2008)。在王金铨的研究中,训集为50、100、150篇时,验证集人机评分的相关系数分别为0.870、0.878和0.897,比表3的结果约高出0.03。由于本研究的对象为汉语译文,而汉语为意合语言,自动评分取得如此结果已属不易。与已有的英译汉自动评分研究相比(人机评分的相关度为0.75)(王立欣,2007),本评分模型的效果更好。

本研究进一步采用配对样本t检验考察了人机评分的差异性,结果如表4:在说明文语料中,训集为50和100篇译文时,验证集人机评分的差异均值分别为1.085和1.288,且具有显著意义。当训集增至130篇时,人机评分的差异均值降至0.471,没有统计意义。训集继续增加时,人机评分的差异均值进一步降低,统计意义更不显著。因此,130篇训集译文基本满足机器评分的需要。

在记叙文语料中,各种模型的人机评分差异均值都在0.1左右,都没有显著意义。其中,训集为130篇时,人机评分的差异均值最小(-0.051)。

在叙议混合文语料中,训集为50、130和150篇译文时,验证集人机评分的差异都具有显著意义。训集为100篇时,差异均值降至0.481,没有显著意义。训集增至180篇时,差异均值最小(0.165),此时人机评分最为接近。不过,考虑成本因素,100篇训集译文已能满足评分需要。

综上所述,130篇训集译文基本满足对180篇说明文译文和190篇记叙文译文进行机器评分的需要;100篇训集译文即可满足200篇叙议混合文译文的机器评分需要。后者需要的训集更少,可能因为原文的区分度更合理,且人工评分的信度最高(见表1)。不过这一结论需要在大规模语料中进一步检验。最终确定的评分模型如表5。

表5显示,在三组语料中,评分点对齐数量和一元组匹配数量始终是译文成绩的有效预测因子。并且,评分点对齐数量在三个方程中的标准化系数都最大(分别为0.549、0.679、0.564,限于篇幅,具体数据暂未呈现),对译文语义质量的预测力最强。评分点的内核是翻译单位的简化。由于译者通常从意义出发,将多个词组成的片段作为整体来考虑(Teubert,2002:189-214),翻译单位作为符合句法规则、具有完整意义的多词单位,能够拟合该操作过程,并且较好地考虑了语序、上下文等因素,因而能够比较全面地衡量译文

质量。不过,对齐翻译单位所依据的译文词典需要专业人员的大量工作才能制定,而评分点是具有区分度的词或短语,语言单位较小,数量也远远少于翻译单位,人工介入大大减少。表5表明,评分点对齐数量对英译汉具有明显的预测效果。

数据进一步显示,一元组匹配数量在三个方程中的标准化系数分别为0.279、0.271和0.265(限于篇幅,具体数据暂未呈现),贡献仅次于评分点对齐数量。二元组匹配数量也在叙议混合文译文的评分方程内出现,标准化系数为0.215。该结果证实了N元组匹配法对译文质量的预测作用。Papineni等人(2002:313)指出,与参考译文一元组相同的待测译文往往符合忠实度标准;二元和多元组则能够衡量译文的流利度。N元组匹配法简单易行,且具有区分译文的明显效果。由于一、二元组匹配数量考察学生译文中一两个字或词与参考译文相同的情况,与具有较大区分度的评分点对齐数量互为补充,在本研究中取得了良好的效果。

语义相似度在说明文译文的评分方程内出现,标准化系数为0.146,对译文质量也产生了一定的预测力。该指标是通过潜语义分析获得的、学生译文与最佳译文集的相似度。潜语义分析能够有效消除文本噪音,通过降维揭示文本内潜藏的语义空间,在已有的作文自动评分系统(梁茂成,2005)和汉译英评分系统(王金铨,2008)中都起着重要作用。本研究的评价对象为汉语文本,语义相似度的作用仍然比较明显。

词对齐数量在记叙文译文的评分方程内出现。已有的英译汉自动评分研究采用了基于词典的词对齐,词对齐数量与译文成绩的相关系数约为0.6**(王立欣,2007)。由于缺乏大量高质量的双语对齐语料,本研究也采用了基于词典的词对齐。不过,本文的词对齐更全面地考虑了多种英、汉语对齐情况,最终取得了较好的预测效果。

通过比较可以发现,三种文体译文评分方程内的变量并不完全相同,说明文译文的评分模型内出现了语义相似度,记叙文译文的评分方程内有词对齐数量,而叙议混合文译文的评分模型内有二元组匹配数量。研究者对三种文体的原文和译文进行了细致深入的比较,暂未发现系统性的原因。笔者的初步结论是,本研究采用的变量对译文质量都具有较强的预测力,但由于不同文体、题目的译文在内容和语言上存在差异,这些变量可能会产生不同的交互效果。该结论需要进一步探讨。

4 结论

本研究利用多个领域的知识,创建了适用于大规模测试的中国学生英译汉机器评分模型。研究结果显示,说明文、记叙文、叙议混合文译文所构建的评分模型都表现良好。从人工评分的效率上看,简化型人工评分节省了约五分之四的评分时间,且与细致型人工评分的相关度和一致性很高,表明以评分点为评判依据的方法有效、可行。从评分模型的效果上看,以50、100、130、150、180篇训集译文构建的评分模型都能较好地预测译文成绩,其中,说明文和记叙文译文中130篇训集、叙议混合文译文中100篇训集所构建模型的预测分数与人工评分非常接近,选择此类数量的训集不仅能够节约成本,还能满足大规模测试的自动评分需要。

不过,本研究也具有一定的不足之处。首先,需要使用大规模语料,检验130和100篇训集数量能否在其他文体、题目、数量的译文中产生同样效果。其次,某些特征并不完美。例如,对齐评分点所依据的词典并未穷尽正确译文,区分度较高和较低的评分点也没有进行区别。再次,自动评分模型难以评判少数创造性译文。本研究在这方面做出了一定努力,提取变量时基本上以30篇最佳译文为参照,不过这些译文无法涵盖所有创造性翻译,因此,在人机评分差异较大时,不可避免地需要人工进行干预。另外,文体与模型之间的关系需要进一步探讨。

上一篇:浅谈儿科抗生素的使用 下一篇:高校外语教学网络化题库建设标准研究