《计算机技术、语料库与语言测试》述评

时间:2022-08-18 08:04:51

《计算机技术、语料库与语言测试》述评

一直从事语言测试、计算语言学及远程英语教育教学与科研工作的曾用强先生近期主编了一套《现代语言测试与评估丛书》,本丛书分两个系列:1)语言测试与评估:研究系列;2)语言测试与评估:实践系列。而由其学生王永庆博士所著的《计算机技术、语料库与语言测试》一书是本丛书系列之一,于2014年2月由科学出版社在北京出版发行。此书的出版无疑为我国语言测试界增添了一朵绚丽夺目的鲜花,必将引起国内语言测试界、教育界、外语界与评论界的关注,势将对语言测试的研究与评论产生积极的影响。

1.背景

正式的语言测试起源于中国东汉时期的科举考试,但现代意义上的语言测试却于20世纪中叶诞生于英美等发达国家。20世纪60年代,外语测试作为一门新的学科从外语教学中独立出来,作为语言学、教育与心理测量学、计算机技术等的交叉学科,半个世纪以来,国外大批语言学家在语言测试领域取得了卓越的成就。中国的高考和大学英语考试(CET)虽有数百万考生规模,但在研究方面仍落后于英美等发达国家。至今,以美国ETS开发的TOEFL考试和英国剑桥大学考试委员会主办的IELTS考试为代表的西方国家研究水平仍执全球之牛耳。虽然近些年,国内学者越来越重视外语测试的研究,国内专业期刊如《语言测试》、《语言评估季刊》、《外语测试与教学》等相继出版,但学者们大多关注于测试的开发实践,而对测试理论与实践的研究较少。李筱菊[2](P441-447)按新科技对语言测试的影响把语言测试的发展分为计算机前语言测试和计算机后语言测试。计算机后语言测试又分为五代,第一代称为计算机化语言测试:考试实施开始使用计算机;第二代称为调适性语言测试:考试实施中 使用调适性编程,即计算机会根据考生的做题情况调整试题的难易度;第三代称为多媒体语言测试:应用多媒体技术建立多维度情景,创造真实化交际情境;第四代称为连续性语言测试:测试性质从静态转变为动态,关注测试个人化,注重受试者的学习过程和个人情况;第五代称为智能化语言测试:测试情景化、互动化、智能化。正是在这样的背景下,《现代语言测试与评估丛书》在曾用强博导的主编下应运而生。

2.简介

本书作者认为计算机技术的发展对语料库与语语言测试的发展产生了巨大的影响,得益于计算机技术的普及和进步,机读语料库及其研究和应用开始日益兴奋;对于语言测试,计算机平台带来了巨大的考试变革;语料库对语言测试的发展也提出了新的要求和预期。此书着眼点是计算机技术、语料库和语言测试三者的结合,讨论范围限于计算机和语言测试的交叉点、语料库本身和技术方法在语言测试中的应用接口,以及这三者的综合应用。文中先分别讨论了计算机技术和语料库各自对语言测试的影响和作用,然后探讨这两者的综合应用,最后介绍计算机技术和语料库在语言测试中的具体应用实例:广东高考计算机化英语听说考试的开发和应用,以及基于语义连贯性的计算机自动作文评分系统开发和应用。本书由五个章节和一个附录组成。

第1章旨在指出本书的写作目的和要点。这一章节首先澄清了书中所涉及的主要概念:语言测试主要是指对中国外语学习者所学外语能力的测量和评估;计算机技术的概念包括软件、硬件和网络;语料库主要指现代机读语料库,这类语料库能够在计算机平台上存储和查询。本书的写作目的是为了让读者了解计算机和语料库对语言测试的帮助和作用,同时也介绍这些新技术方法可能存在的局限性,而不是说服读者在语言测试中应用计算机技术和语料库方法,也不是声称基于计算机和语料库的语言测试能够优于传统的笔纸测试。计算机化语言测试的优点包括时间节省、信息收集、数据存储、心理测量、多媒体化和标准化;受到的一些制约因素有:专家匮乏、技术限制和实施障碍。本章节的要点则是对语言测试和计算机之间的相互关系展开论述,同时也对语言测试和语料库的发展进行回顾。

第2章则具体阐述了不同形式的计算机化语言测试,包括听说读写四种主要考试形式在计算机平台上的实现。在本章节中,作者重申了计算机化语言测试的质量评价标准和传统的笔纸考试一样,由效度和信度组成。作者认为即使是一个有较好效度的传统笔纸考试,照搬到计算机平台,其效度也可能发生变化。导致出现这种现象的原因可能是受试者的计算机应用水平差。对于测试的信度而言,计算机化语言测试存在的主要问题是:1)在自适应测试的环境,如何保证受试者重复测试时所接收到的试题具有相同的难度和区分度等标准,而且产生的结果一致;2)考试系统本身(硬件和软件)的稳定性;3)考试的功能是否独立于外部环境,即考试在各种不同的外部环境中都正常使用,而不受地理位置、背景噪声、光线等因素的影响。

第3章从学习者语料库和母语者语料库两个方面介绍语料库在计算机化语言测试中的具体应用。作者先根据语料库的语料来源进行了分类:学习者语料库和母语语料库。前者是收集目标语学习者在学习过程中对目标语使用的记录,后者是目标语的母语者在目标语使用中的记录,这两种语料库的目的和功能不同,并且语料库数据来源也不同。

学习者语料库的主要数据来源是各种不同的语言测试,即采用考试中受试者的语言输出来组织和编辑完成,可随着类似考试的不断进行,不断扩充。从语料库的建设而言,学习者在语言测试环境下产生的语言使用成为语料数据的一个关键来源。反过来,学习者语料库对语言测试的发展也变得越来越重要。这种重要性体现在语言测试的设计、开发和评估等各个方面。母语者语料库的数据来源主要是英语母语国家的广播电视节目和出版物等。在此节中,作者介绍了目前最大型的三个英语母语语料库(英国国家语料库、美国国家语料库、澳大利亚国家语料库)的建立、发展和应用。通过查询英语母语语料库可以较为便捷地了解到某一个词或者词组在英语母语者中使用时的用法和特征。作者同意孔文和邹申(2007)的看法,即母语语料库可以用于试题开发制作、语言测试设计和自动评分系统开发。

第4章讨论了计算机技术和语料库在语言测试中的综合应用,提供计算机技术和语料库在语言测试中的综合应用实例,介绍广东高考计算机化英语听说考试和计算机自动作文评分系统的开发和应用。

高考计算机化英语听说考试的考试时间为30分钟,包含三个部分:模仿朗读、角色扮演和故事复述。评分方式为计算机辅助网上评卷方式,各个部分的评分侧重点不同,但都分三个档次给分。模仿朗读题考查语音语调、语速和内容;角色扮演考查语言和信息;口头作文考查内容、语言、流利度和语音。评分过程要求双评,如果两位评卷老师的成绩相差5分以上,就会有第三位评卷老师加入。每位评卷老师只负责一个部分的评分工作。作者认为这样的考试在考试组织、评分体制和受试者感受方面都有优势:能有效控制试题的安全保密性;能实现“一题多评”,使评分更加公平、合理;能让受试者更加容易把控自身情绪;有利于实现听说任务的公平性。在总结前人的研究后,作者发现涉及模仿朗读和角色扮演这两部分的研究还是空白,并提出这两部分有很多值得深入研究,如模仿朗读的反拨效应、模仿朗读材料的选取,以及角色扮演中对话场景选取和素材的裁剪等。

在计算机自动作文评系统的开发和应用这一节当中,作者先简要回顾了主流计算机自动作文评分系统(PEG、IEA、e-rater)中的连续性分析,然后解释向心理论的主要框架并介绍其在二语写作测量中的应用。向心理论的核心思想是在一个语篇片段中,每个语句都有语义中心,通过追溯各个语句中语义中心的变动可以了解该语篇片段的连续性。向心理论的语句中心分别是:前瞻中心、回指中心、优选中心。基于这三类中心之间的相互关系,向心理论框架中语句中心的过渡类型分四类:延续过渡、保持过渡、流畅转换过渡、非流畅转换过渡。

到底计算机和语料库的应用前景如何呢?在接下来的第5章作者试图回答此问题。在本章中,作者先回顾和展望了计算机和语料库在语言测试中的发展方向,然后对计算机和语料库发展在语言测试领域里的新要求和期望进行了讨论。从宏观角度来看,语言测试的发展不断受到科技发展进步的影响。新技术本身不能够保证考试质量的提升,而是结合相关理论,恰当地应用才能够产生所期望的结果。新技术的应用须着眼于通过测试来了解受试者对于目标语言的使用能力,而不是受试者能够多大程度上适应和应用这类新技术。新技术的应用更不应是导致受试者在测试中成绩起伏的原因,在使用时要结合教学和测试群体和环境的实际情况,尽量避免应用新技术导致测试本身结构效度降低的情况。但是,在语言测试中采用新技术的目的除了提高信度和效度外,也要考虑节约成本和提高工作效率。在此章节中,作者也认同李筱菊老师提出的观点:语言测试是在信度、效度和实施条件三者间的动态平衡,并提出从长远的角度看,语言测试的发展将更加倚重于新技术,在实现提高信度和效度的同时弱化具体测试环境和条件对测试本身的限制和所不希望的影响。

最后在附录中,本书提供了计算机自动作文评分系统开发和应用中各种统计模型的计算结果。

3.特色

本书的最大特色是紧跟新时代社会科技的发展,把计算机技术、语料库、语言测试三者完美地结合在一起讨论。从语言的听、说、读、写四个技能的测试入手结合计算机技术的发展展开讨论。

在计算机辅助听力测试方面,作者提出听力理解考试的设计和开发需考虑三方面因素的影响:多媒体的参与度、任务形式、综合难度。在口语语篇环境中,影响听力理解的因素有语速、口音、音调、停顿、文体特征、受试者自身的背景知识等。在总结多方学者(如:Song,2012; Ginther,2002; Ockey,2007; Coniam,2001; In’nami & Koizumi,2009; Hoven,1999等)在机辅听力测试方面的研究成果后认为我们不应简单地支持或反对多媒体化的听力测试,而应依据实际测试的用途和目的来设计计算机化听力测试试题。

在口语测试方面,作者把口语能力解释为信息口头表达能力,这种能力包含对信息能够实现语义层面的表述(语义完整性)和对信息表达的恰当性(语用完整性)。由于影响口语流利度的因素包括:社会环境、生理的语言生成系统和心理因素,因此,作者认为在口语考试中无法测量到全面的口语能力,而只能测量到口语能力中的一部分。影响受试者表现的因素还有:受试者的个体差异、任务特点、交际者/话语对象、评分员和量表。作者介绍了IELTS和TOEFL的口语考试中测试的侧重点和考查内容,目前的机辅口语考试评分还是以人工评分为主。由于技术原因,计算机自动评分还没有大规模应用,还只是在实验和探索阶段。目前计算机平台的口语测试发展有一个重要特点:尝试引入自动评分系统,以期实现减少口语考试中评分员因素对考试效度和信度的负面影响。作者认同目前计算机自动评分技术的应用并不成熟的观点,计算机对自动口语语义识别还无法做到精确判读,所以无法用于涉及语义的口语测试题型。

对于阅读测试,虽然与机辅考试相比,受试者在笔纸考试中可以很方便地前后浏览和更改答案,但是从总体上来看,传统考试和计算机平台在文本呈现方式上没有本质的区别。作者例举多项研究(如Moore, Morton & Price, 2012; Sawaki, 2001)证明机辅阅读测试和传统阅读测试具有相同的结构效度和预测效度,而且计算机平台还可以让受试者在回答问题的过程中更加便捷而节约答题时间,也更易于老师使用形成性评估,更加便捷地观测学生的阅读结果数据。计算机阅读测试在效度和信度上与传统的笔纸考试拥有基本的对等性,但计算机阅读习惯和传统的纸张阅读有所不同,对此,作者提出计算机平台阅读测试要精心设计用户界面,使其方便阅读。对于不习惯计算机屏幕阅读的群体,提供笔纸考试的选择。

在讨论写作测试时,作者把计算机辅助写作教学和测试放在一起讨论。在对比不同学者对机辅写作测试和笔纸写作测试的观点时,作者较赞同MacArthur(1988)、Bangert Drowns(1993)、Lee(2004)、Li(2006)等学者的观点,即计算机写作能够让受试者写出更好质量的作文,当然前提是他们能熟练地使用计算机。对于作文自动评分的讨论,作者对比了PEG、IEA和e-rater的各自特点后提出尽管这三个系统在人机对比中的评分都达到了一个非常高的准确水平(r0.85),但都基于相同的工作流程:样本训练―统计模型生成―作文评分,而且这三个系统在自动评分时都缺乏对语义的分析和诊断。由此可见,到目前为止,作文自动评分系统更加适合于课堂教学的辅助活动,在大规模考试中替代人工评分员还是不太适宜。

本书的另一大特色是从计算机和语料库与语言测试形成的互动关系角度出发,探讨了把计算机和语料库引入语言测试之后随之产生的新概念和认识,同时还注意到了新技术促使语言测试中出现的新测试形式和方法。新的概念和认识则是对李筱菊老师[2](P451-456)提出的语言测试“消亡”论的详细解读,并明确认同在新技术发展应用的时代背景下,传统意义上的语言测试是必将消失的。在利用新技术所带来的便捷时,作者也提出了需要考虑的现实问题,如计算机设备有可能新旧不一,所使用的操作系统的兼容性问题等。

参考文献

[1]王永庆. 计算机技术、语料库与语言测试[M]. 北京:科学出版社, 2014.

[2]李筱菊. 语言测试科学与艺术[M]. 长沙:湖南教育出版社.1997

上一篇:谈谈怎样才能上好小学科学课 下一篇:浅谈语文教学中教师如何把握提问时机