外语学习评估研究述评

时间:2022-10-14 08:48:47

外语学习评估研究述评

摘要:对学生开展大学英语学习评估是一项不可或缺的教育、教学行为,有助于了解学生的学习状况、学习效果和教师的教学效果。对国内各主要评估体系的优缺点进行对比分析,探讨了评估体系的发展方向,通过定向和定量相结合的研究方法,发现一项成功的测试和多种因素相关,但最主要的因素莫过于效度、信度和区分度三大因素。

关键词:大学英语;学习评估;评价要素

中图分类号:H310.4 文献标识码:A 文章编号:1673-1573(2012)04-0035-05

一、研究现状概述

大学英语学习评估是对学生英语听、说、读、写、译五项基本技能掌握情况的考核和评价。根据资料和调查发现,近十年来,关注大学英语学习评估的人日渐增多。这些研究一般着眼于大学英语评价体系一元化的个案研究,从一个个侧面研究评价的策略和效度等。这些评价体系主要包括:网络性评价体系、动态评价体系、发展性评价体系、多元性评价体系、形成性评价、真实性评价、课堂评价、成就测试与评价、档案袋式评价和四、六级考试的反拨作用等。在这些评价体系中,网络性评价体系根据网络媒体的高度交互性、学生学习自主性和时空分离性等特点,依托网络广泛收集影响网络教学的信息,加以分析整理,对照评价指标进行学习评价,是一种正在被越来越多的人研究、使用的在线评估方式;终结性评价是指教学活动结束后为判断其效果而进行的评价,一般在一个学期结束后进行,侧重考查学生在相对较长时间的学习情况;发展性评价主张把过程性评价与终结性评价结合起来,对学生学习的评价既注重考查学生学习的过程,又注重学生学习的结果,即把学习过程和学习结果结合起来,以发展性的评价手段来评估学生的学习情况;形成性评价则主张评价手段和内容的多样性和广泛性,结合课堂表现进行观察和分析,将学生实际表现出的技能水平和所学习的结果呈现形式作为评价的依据,是一种动态的、连续性的活动。

综观大学英语评估体系的发展过程和趋势,总体呈现以下特点:

1. 客观、公正和与时俱进是评价体系的基础和原则。对学生进行评价的目的就是正确了解学生的学习状况、学习效果,客观、公正的评价对于学生的后续学习以及教师的教学都很重要。社会的发展对教育的要求也在不断改变,与时俱进的评价理论创新体系在评估实践中也得到检验和丰富。

2. 规范化、模型化和系统化程度不断提高。随着信息化在各个高校不断的加强,原本动用大量人力阅卷的现象减少了,大量容易量化的客观题在评估中大显身手。各高校纷纷采用评估量化的模式,这种评估模式深受大学英语四级考试的影响,一般采用标准化试题,考试题型包括词汇、语法、阅读理解、英汉互译、综合填空、单向选择等。由考试内容不难看出,我国高等院校的英语测试偏重于测评学生所掌握的英语词汇、语法等知识性内容,虽然便于操作,但对学生英语应用能力(听、说、译)测评不足。

3. 评估方式上的单一性、片面性。笔试仍然是考试的主要形式,课本内容占了试题的绝大部分。在评估学生的期末成绩时往往把学生的平时成绩考虑在内,平时成绩的测评标准不够明确,其评估缺乏公正性和客观性。另外,期末考试分数在学生的总分中比重较大,占70%~80%,这样会为学生提供错误的观念,导致一部分学生有投机心理,在平时不好好学习,指望期末考试前突击复习一下来通过考试。

4. 评价体系相对稳定,但也随着新的评价理念的产生而修正。多年形成的测评理念,使评价体系相对稳定。新的评价理念对大学英语评价形成冲击,不断在评价中反映出来,丰富了评价的内涵和形式。

从当前大学英语评价体系的实践来看,有其相对积极的一面,如规范化、模型化和系统化的评价可以缩小教师对学生的评价时间,大大减少了工作量,可以在形式上让学生确立公平竞争的意识;评估形式的单一性可以让学生专注于课本的内容,更好地完成课堂上所布置的任务,复习时有针对性。但也要看到,评价体系的缺陷带来的负面效应也较为突出:(1)评价标准上的不确定性,不能较好地体现学习导向,不能较好地体现激励作用和公平性。(2)期末成绩在总成绩中所占的权重较大,不易体现学生学习的发展变化。(3)测试主要采取笔试形式,评估方式上单一、片面,容易造成教师对学生口语训练的漠视。笔试固然有必要,但口试也是语言测试中极为重要的一环,离开口语的测试,对学生的评估很难说是完整和全面的。

二、评估过程和方法研究

学习评估效度是评价的重要核心理念之一,它是指评估手段评价所要评价内容的有效性。美国1985年修订的《教育与心理测量标准》明确指出,效度是一个一元化的概念,效度指的是根据分数所作出的推论在多大程度上得到证据的支持。一元化概念的提出,使效度研究成为一项综合性的研究。效度按不同的侧重点一般分为内部关联效度、结果效度、效标关联效度等。内部关联效度指测试内容对所要推论的评价范围内容的关联程度。而效标关联效度指根据一次测试中学生的表现对下一次测试中学生表现的预测程度。测试和预测的一致程度越高,效标关联效度就越高,反之,就越低。效度同样应该考虑结果效度,即测验评分及其结果。所谓结果效度主要指所评价是否促成了学生行为的改观。结果效度评价的目的在于促进学生的学习、提高学生的学习动力。

评估的反馈。评价要起到相应的促进作用就要及时、准确、完整地反馈评价信息,以便学习者了解自己的学习效果,从而采取相应的措施。单元测试和作业所反馈的是学生阶段性的成绩,加上课堂提问所获得的分数,教师利用这些平时分数以一定分值加上期末成绩以相应分值相加作为学期总成绩来加以量化,缺点是学生难以从这些分数和成绩中得到对其学习有益的指导性建议。大学英语四、六级考试委员会提供的考生信息也只是通过率、优秀率和不合格率,以及一些单项题型所获分数的数据,并没有对学生所犯的错误和这些错误的原因等作出详细的分析报告。另外,这些单项数据一般只能到达学校的教务部门以及相关院系领导手中,很少能到从事具体教学的教师手中,教师也因此无法根据这些数据为具体的教学服务,自然无法服务于学生的学习。

要构建科学的大学英语学习评价体系,必须做到:

1. 详细、具体并具有可操作性的大学英语评估标准的制定。评估考核的标准制定应注重学生的综合英语素质和跨文化交际能力的全面培养,其核心须以人为本,注重培养学生听、说、读、写、译五项基本技能的能力,注重学生可持续发展能力的培养,为学生的终身学习和未来发展打下坚实的基础。在教学上,一般应以“3S”为中心,即以学生(students)为中心,根据学生的实际水平制定相应的教学策略,尊重学生的个性和需求,积极引导学生根据不同阶段的学习状况采取不同的学习策略来完成学习任务;以社会(society)需求为中心,学生学习的内容应和社会需求相适应,注重所学和所用的统一性和一致性,避免所学内容和社会需求脱节;以主题(subject)为中心,注重课堂语言输入材料的主题性,所有的材料都要与该主题有密切的关系,围绕该主题开展一系列有助于课文理解的活动,使学生理解并融会贯通相关内容,提高教学效率,便于实施英语学习评估,激励学生学习英语的欲望和兴趣。

2. 根据不同时段、不同对象采用不同的评价方式和评价方法或多元评价方式和方法相结合。学生学习的阶段和学习的状况不同,测试的目的也不同,一般从开端到中间和结束阶段要分别采用诊断性评价、形成性评价和终结性评价。诊断性评价一般要在开始教学前实行,以了解学生的英语水平,从而在教学中做到因材施教、因人施教,以确保有针对性的教学策略和学习策略。形成性评价属阶段性测试,是动态的、连续性的活动。终结性评价要着重测试语用能力(包括词法、句法、连贯性和组织等)、社会语言能力(包括文化内涵、非字面的修辞、语域、语境和地道程度等),这些能力实际上就是语言交际能力,语言交际能力的培养是英语学习的终极目的之一,这和Taylor(1988)提出的语言能力、语言水平和语言运用的三分法是相符的。在学习过程中,除了单元测试和阶段性测试外,应加上非测试性评价。要客观、科学地评价学生的学习的状况,可以使用以下非测试性评价形式:课堂提问、日记、课外作业、问卷调查、面谈、小组讨论等方式。这些非测试性的评价方式的使用,有助于建立反映学生综合掌握大学英语的学习评估模式。这些非测试性评价既可以作为形成性评价,也可以作为诊断性评价来实施,是对终结性评价体系和网络性评价体系等的有益补充。灵活具体地运用不同的评价形式有助于及时发现问题,调整评价标准与体系指标,从而提高教学的效率和评价的效度。期末测试和课程结业测试可考虑采用终结性评价。考试内容方面,不宜过多地采用客观标准化题型测试,尽管这种题型有助于教师阅卷,减少阅卷的误差。应加强英语语言、社会实际和学生生活经验的联系,重视考查发现问题、分析问题和解决问题的能力,应多考查实践语言的能力和创新思维,少考查记忆性内容、语法方面的内容(其实记忆性内容和语法已经贯穿在考试中了)。加大主观性测试的内容和权重,减少或淡化期末考试的分量,使测试服务于教学,服务于学生,服务于社会的需要。

3. 运用多媒体技术评价学生。网络媒体的广泛普及极大地促进了大学英语学习,丰富了大学英语学习手段,也有助于运用多媒体技术来动态地评价学生。多媒体测试不仅适用于课堂,还可以在课外测试,学生也可以对照评价指标进行自我学习评价。这也是大学英语学习评估值得关注的发展趋势。

4. 评价内容、评价手段和评价目的要相匹配。毕竟,相匹配是评价内容的关键,正如Hutchinson和Watershed(1987:97)所说的那样:“评价从根本上是一个匹配过程:将需求与现有解决手段相匹配。”离开匹配的评价,无法产生真实的结果,评价也就失去了意义。

5. 确定客观、科学的评价结果,注重信度和效度。把学生的平时表现以一定的分数加以量化,和期末成绩分别以一定的权重相加,适当加大平时成绩在总成绩中的比重,一般以不低于30%,不高于50%为宜。

三、衡量评估成功的若干要素

Heaton(1988)通过研究发现,效度和信度是衡量测试成功与否的标准。一项高质量的测试和多种因素相关,具体来说,最主要的因素莫过于以下三大因素:

1. 评估效度。评估效度是测试的前提和出发点,也是衡量测试是否成功的要素。抛开评估效度来谈评估无异于背离了评估的初衷。评估效度是指评估结果与目前或未来教师与学生教与学的关系(或其他与教、学有关的成果,如通过四六级考试的人数,研究生的录取率,学生的科研成果等等)。效度的大小是决定是否采用该评估方式的最重要的指标。如果一个评估方式不能提供有力的效度证据反映学生将会有怎样的学习表现,该评估方式则毫无价值。一般来说,效度主要包括内部关联效度、结构效度、效标关联效度。内部关联效度指测验内容对一定时间或一定范围内的评价内容的关联程度。而结构效度则是各种效度之本,结构效度决定整个测试的性质,决定测试属于哪个体系。结构效度能否准确验证与整个测试的成败有重要关系。效标关联效度指一次测试中学生成绩对下一次测试中学生成绩的预测关联程度的大小。效度的高低是衡量一项测试成败的最重要的指标,或者说是一项测试的出发点。一项效度比较低的测试是很难测试出教学效果和学生的掌握程度的,没有多少意义。可以从以下几个方面来验证一项测试的效度大小。(1)表面效度(face validity),又称为外行效度(layman validity),也就是外行根据直觉所作的评价。在评估中,学生作为被评估对象参与评价过程,教师同时也在被评估,学生在完成评估后,会对测试的表面效度有一个总体印象和评价。他们会就测试是否完整展示其学习效果做出主观判断。(2)内容效度(content validity),指测试是否符合大学英语考试大纲的规定,是否覆盖了一定时期所学的主要内容,或者说考试的内容能否代表它所要测试的主要目标。内容效度一般被认为是非经验性效度,因为它是由专业人士来分析判断的。内容效度具有稳定性特点,这和被试者的多种多样性形成了鲜明对比,这是它的局限性。它的另一个局限性体现在,只能根据被测试对象的做题情况看出其能做什么,无法看出其不能做什么。测试内容要涉及面广泛并无法由受试者预测,这样才能较好地体现内容效度。(3)结构效度(construction validity),指的是项目分数和测试分数的关联程度,这需要进行一定的逻辑分析和实证调查。如果逻辑分析和实证调查后该测试所测的东西与测试目的或测试理论相吻合,那么这个测试的结构效度就是成功的。反拨作用是考察结构效度的重要指标,是它的一个组成部分(Messick 1996)。(4)效标关联效度(criterion-related validity),也有人把它分为预测效度(predictive validity)和共时效度(concurrent validity)(Heaton,1988,171-173),主要考量其评估结果与实际学习表现和预期结果三者之间的因果联系。如果三者之间的关联度比较高,那么效标关联效度就高。一个卓有成效的效标应该具有可靠性、客观性和实用性。追求内容效度和结构效度的统一是近几年来的一个趋势。

2. 测试信度。测试信度(test reliability)是评价一项测试是否成功的重要因素之一。信度一般指测试结果具有可靠性、一致性和稳定性。信度系数愈高,表示该测验的结果愈可靠、一致和稳定,换而言之,用同一份试题对同一班甚至同一年级的学生实施两次或以上测试,如果结果一致,或没有大的出入,说明该测试的信度较高。这种信度传递了双层含义:同一阅卷者在不同时间段阅卷,所得分数应该大致相同;不同的人阅卷,分数也没有大的出入。需要注意的是,随机误差可能导致不一致性,从而降低信度。

检测测试信度就是依据效度理论,对某一测试结果的使用、解释以及根据结果所作的推断提供参考。检测测试信度的方法大致有以下几种:第一种是考后复考法(re-test method),用同一套试题,在考后的较短时间内对参加过该测试的学生重考,然后对比两次测试的结果,分析其相关性。目前不少高校对大一新生进行的入学测试就属于这一种,不过,有的高校直接采用了当年的高考英语试题,有的则另外出题测试,性质是一样的。第二种检测法就是所谓的试题分半法(split-half method),用同一种试题进行测试,不过,把试题的题号打乱。考后计算两半题目学生所得分数,从高到低进行排列,了解其关联性。国内进行的大学英语四六级测试就属于这一类。还有不少高校在期末英语测试中也采用这一类试题。第三种是平行形式测试法(parallel forms method),就是拿出一套题型与难易度和原试题大致相当的试题,让同一班学生或同一年级的学生在极短时间或连续时间内做完这两套试题,根据两次成绩高低排列计算出彼此的关联性。关联度越高,信度越大。

3. 试题区分度。试题区分度(test discrimination)是指试题区分不同学生学习和掌握知识的能力程度。一个班级、一个年级甚至每个学生学习兴趣有强有弱,学习习惯各异,学习策略不同,基础水平和掌握、理解知识的能力有高有低,导致学习水平参差不齐,反映在测试结果上也必然不同。如果同一道题,成绩好的学生答对率高,成绩差的学生答对率低,这道题的区分度就很强;反之,如果水平高的学生和水平低的学生答对率都很高或很低,那么该试题的区分度就很差,需要进行相应的修改。为了确保整个测试有较高的区分度,测试中最难和最易的题目都应该涵盖,最难和最易的题目在总量中所占的比例以占50%~60%,即各25%~30%为最佳。除此之外,试题是否便于使用,包括学生答题、教师阅卷等,以及测试对教师教学和学生学习是否具有反拨作用、反拨作用的大小等因素都应该考虑在内。语言测试的反拨作用指的是语言测试对语言教学和学习所产生的影响(Alderson & Wall 1993),反拨作用有正面的也有负面的(Hughes 1989),前者指测试促进了教学,后者指阻碍了教学。反拨作用和反拨作用的大小对一项测试具有重要意义。正如Swain(1985)指出,测试要取得最佳反拨作用。如果测试没有反拨作用或反拨作用太小,考试也就失去了意义。

四、结语

大学英语学习评估方式和方法是一项复杂的系统工程,随着测试技术和社会需求的变化发展而不断发展完善。国内很多人对此进行了研究,从实证研究到理论研究,从定量到定量和定性相结合,多元化的测试模式在逐步形成,测试者需要了解掌握系统性的评价标准,本文正是基于这一点,对各评估主要内涵进行了分析,总结了评估成功的若干要素。考试采取什么样的测试方式和方法,还要取决于测试目的。

参考文献:

[1]Alderson J & Wall D.Does washback exist? [J]. Applied Linguistics,1993,(14):115-129.

[2]Harris Michael&Paul McCann.Assessment[M].Oxfmd:Macmillan Heinemann English Language Teaching,1994.

[3]Heaton.J.B Writing English language Tests[M]. Longman Group UK Limited,1988:171-173.

[4]Hughes,A.Testing for Language Teachers[M].Cambrudge: Cambridge University Press,1989.

[5]Hutchinson,T. What`s underneath? An interactive of materials evaluation[A].London:Modern English Publications,1987:97-98.

[6]Messick,S. Validity and washback in language testing[J].Language Testing,1996,13/3:241-256.

[7]Swain.M Large-scale communicative testing[A].In Y.P.Lee,C.Y.Y.Fork,R.Lord.& G.Low(eds),1985:42-44.

[8]Taylor,D.The meaning and use of the term competence in linguistics and applied linguistics[J].Applied Linguistics. 1988.9/2:148-168.

[9]王华,富长洪. 形成性评估在外语教学中的应用研究综述 [J].外语界.2006,(4).

[10]邹慧民,蔡植瑜.实行形成性评价,改革现存大学英语课程评价体系的研究[J].江西师范大学学报 (哲学社会科学版),2006,(1).

[11]刘书亮,李萍.大学英语教学中的形成性评价分析[J].教育与职业,2005,(35).

[12]陈玉琨.教育评价学[M].北京:人民教育出版社,2001.

[13]郭茜.利用形成性评价促进大学英语教学中学习者自主性的培养[J].西安外国语学院学报,2004,(2).

[14]聂建中,汤晓媚.试论结构效度的发展演变[J]. 山西大学学报(哲学社会科学版),2006,(3).

The Commentary on Study Evaluation of the Foreign Language

Li Xuejin

Abstracts: It is indispensable activity of education and teaching to perform study evaluation to the students, which can contribute to understand students' learn condition, study effect and the teachers' teaching efficiency. Based on the comparative analysis of the advantages and disadvantages of different evaluation systems, we can analyze the development direction of the evaluation system. Through the research technique combined the directional and quantification method, we found that a successful evaluation is linked to many factors, but the most important factors are validity, reliability and discrimination.

Key words: college English; study evaluation; evaluation factors

上一篇:重视生态文明 建设美丽中国 下一篇:1830 —中国“银荒”危机之传染路径探析