语言学习者评价:国外近期发展研究综述

时间:2022-07-02 08:53:38

语言学习者评价:国外近期发展研究综述

摘 要:语言学习者评价一直是国外语言学界探究的热点话题。本文从课程标准运动对第二语言学习的影响、大规模基于学科内容的评价检测模式对英语学习者的影响、基于学校层面的二语课堂评价研究以及学术性语言技能的评价研究等方面对国外语言学习者评估的研究进展进行综述,旨在更好地服务国内的外语教学。

关键词:语言学习者;评价;综述

中图分类号:H 030 文献标识码:A 文章编号:08-273(2008)04-0046-05

一、引言

近年来,国外对语言学习者的评价研究基本上是圃于与语言课程相关的系列主题展开的。Broadfoot (1996) 从事评价研究的主要目的是引导合理竞争,掌控个体的学习状况,操控整个学习体系的运行以及落实教育问责等。Coombe 和Hubley等人(2003)所从事的评价研究触及的是对课程的反馈、课程项目进展中的评价、课程项目终结性的评价等层面。综观国外近年来对语言学习者的评价方面的研究,不难发现,研究者们的研究兴趣和尝试已呈现出清晰可辩的方向和领域,研究方法和思路既真实(real),又有一定的可实现性(accessible)。笔者试图从第二语言或外语学习者的评判视角出发,将这些方向和领域综述如下。

二、研究的现状回顾

1.课程标准运动对第二语言学习者和教师的影响

80年代以来,新自由主义思潮盛极一时,提高高科技水平和经济的国际竞争力已成为追求教育卓越性的直接目标。欧美国家普遍推崇一种新自由主义教育管理模式(neo-liberal management of education)。当时美国总统里根和英国首相撒切尔夫人上台都推行一系列新自由主义和新公共管理主义政策。欲将公共行政僵化的官僚体制转变为弹性的市场为基础的竞争机制,为学校的发展注入活力和效益。以美国为首等欧美国家纷纷加入到一场“基于标准的教育改革运动”(standard-based education reform movement)中来。

1)课程标准的内涵界定及其现实意义标准是一种基于某种结果的达成课程目标的成就水准(attainment levels)和检测标尺(bandscales)。它包括内容标准(content standards)(描述学习者应该知道什么和能够做到的)和表现标准(performance standards)(检测学生在多大程度上达到内容标准的要求)。“这场轰轰烈烈的改革一旦贴上‘基于标准’的标签,就意味着我们首先对学生要知道什么和能够做什么――标准――达成协议,根据其掌握内容的情况取舍和决策其升学和毕业情况”(Jennings, 1998)。以美国为首的欧美国家政府在这场基于标准的改革中,他们实际上是将金融界所倡导的“管理主义”(mangerialist)模式和法则移植到这场改革中来。其主旨是:①在州、学校和学习者之间引入竞争机制;②将内容抽象泛化的课程简化成易于实施、检测和可操作目标;③检测学习者达成目标情况,奖优罚劣。

2)课程标准对第二语言教师和学习者的影响20世纪80年代末期,美国、英国及新西兰等国推行了大规模的教育改革运动,推行统一的课程和标准、实施较为严格的评估措施。关于这场声势浩大的课程标准运动对第二语言(外语)学习者和教师所产生的影响,国外研究者进行了大量的调查研究。2001年1月《教育周刊》发表了全美的一项调查结果,78%的教师认为强调标准“是必要和可取的”、“是向正确的方向前进了一步”,大多数教师还报告学生在课堂里读得更多、写得更勤,并实现了更多的期望(Matthew& Vranek, 2001)。《2000年目标:美国教育法》(Goal 2000:Educate American Act)明确外语为七门核心课程之一,语言课程标准的正式立法确立了外语在学习者生涯中的中心地位。1996年《外语学习目标:为21世纪做准备》(Standards for Foreign Language Learning Preparing for the 21st Century)制定了所有核心课程语言项目的总目标。各州据此纷纷颁布符合本地发展的语言课程标准和框架,设计者们为英语学习者(English Language Learners)制订出应达到的语言技能标准,并通过大规模的测试和绩效评估来检测学生达成标准的情况。标准整体上起到了评价教育质量,作为培养教师和评价教科书的依据,以及作为设计考试试卷的重要参考(赵中建, 2001)。1994年颁布的“改进美国学校法”(IASA)要求各州每隔3个学年要对学生进行一次考试,但实际上,一些州甚至要求每个学年都要进行测试。在澳大利亚,所有初中新生都将参加全国语言读写标准测试(literacy standard test)。研究表明这种与标准挂钩的州或全国性考试制度的建立使教育质量的提高和标准的落实的目标得以较好的贯彻。但是研究者通过对澳大利亚学生第二语言技能现状深度调研分析时发现,由于测试强调的是英语为母语的人读写能力,因而对少数二语学习者的学习进步的轨迹尚缺少足够的描述(Davison & Mackay, 2002)。在澳大利亚不少州,许多孩子从幼儿园到小学三年级阶段就不得不重复学习为标准化测试作准备的语言课程,这种严格的检测程序有悖与儿童早期所倡导的个性化教学和评价原则。许多二语教学研究者们主张开发一套二语(外语)学习者所特有的课程标准(Butler & Stevens, 2001;Davison & Mckay, 2002 )。一些第二语言课程标准(ESL-specific standards)在澳大利亚纷纷出台,Davison 以及Williams(2001)等对教师在课堂中运用这些二语标准的情况进行了跟踪式调查发现, 无论在概念和标准架构(Frameworks)的理解上,还是在个人情感与固有评价程序的整合方面,教师们的心理和行为都经过了全方位的“调适”(accommodation)和挑战。

语言学习者评价: 国外近期发展研究综述

3)课程标准的信度和效度研究以美国为首的这场“基于标准”改革历时并不长,研究者关注的视线逐渐从其产生的背景、功能和文本特点等转移到标准的落实和实施效果上,如标准本身的质量和教师对标准的把握等问题。表现性标准是学习者在内容标准达成的过程中逐步制订的,是内容标准中要求达到的结果的明确阐释,或对宽泛语言课程中的不同阶段的技能水准的界定。如美国伊利诺斯州外语学习标准(Illinois Foreign Language Learning Standards )(伊利诺斯州教育理事会)和澳洲国家语言及识字研究所的二语标准(National Languages and Literacy Institute of Australia ESL Bandscales )就是上述两种情况的代表。研究者对这种基于语言技能(proficiency-based)的表现性标准在制订前后的效度予以极大的关注。澳洲国家语言及识字研究所的二语标准是在教师的实践基础上写成的,但却经历了一系列的甚为严格的验证阶段,如对学生的作业样本和表现进行分析,召集核心执笔人员随时进行调整,访谈教师以及对教师的课堂评价实践进行实地观察等。调查表明,教师们的经验、信心和对标准的态度、教师课堂中对评价操作层面的把握将直接决定表现性标准的信度。同时,教师对语言学习者需求的反应以及对他们的语言技能现状的掌握对提高标准的信度和效度尤为关键。 鉴于此,澳大利亚的Davison 和Williams(2001)以及英国的Cameron 和Besser (2004)等学者对学生英文写作中的语言能力发展状况的本质特点进行了深入的研究。Liddicoat (1997)给外语教师们提供一些标准评判的样本和范例;Mckay(1999)通过对一些语言样本评价是否有效进行分析,提高教师对标准的准确把握度。Arkoudis 和O’Loughlin(2004)等对英语作为第二语言的课堂调查发现, 影响标准信度和效度除了使用者自身的因素外,某些标准本身的效度也受到质疑,如标准表述过于模糊、罗唆且缺乏条理,标准的数量过多等都会成为标准践行中的阻碍和混乱的源头。决策者期望标准保持灵活,为教师留有自由把握的空间,然而教师和学校并未得到迫切需要的工具支持和培训指导。因此,未来几年对标准本身的效度研究,教师和评估者在运用标准时如何有效选择测试类型、任务类型以及作出决策,课程标准的实施会给语言教师的。

2.大规模的基于学科内容的评价模式对二语学习者的影响

新课程标准的成功不仅依赖于严格明晰的课程标准的出台,还需要体现标准精神的测试和评价制度的紧跟匹配,二语学习者运用不太娴熟的语言技能参与了大规模的基于学科内容的评估和测试。

1)大规模基于学科内容的评价方式对语言学习者的影响美国最新的联邦政府法案规定,所有学生都应参加所在的州和学区制定的评价项目中去,从而获得学业进步方面的可比性信息。Butler 和Stevens(2001)就这种大规模基于学科内容的评估和测试进行综述时发现,由美国全国教育进展评估组织(the National Assessment on Educational Progress, 简称NAEP)在康涅狄格、肯塔基、北卡罗来纳和得克萨斯等州率先组织了阅读和数学等大规模的测试和评估中,取得了显著的成就。弗吉尼亚州在1999-2001年的3年间通过坚持实行州测试也取得了十分明显的效果。这些州均是标准及其大规模测试行动最早和最坚定的支持者。但随着大规模测试的渐进式推广,测试的信度和效度开始受到研究者们的怀疑。Gonzalez 在德州的奥斯丁独立学区(Austin Independent School District)(Gonzalez, 1999) 搜集了大量英语学习者的课堂表现和大规模测试对学习者的影响等方面的实证数据,并撰写了调研报告。Katz等人(2004)对旧金山联合学区(San Francisco Unified School District)学生测试结果进行了分析,力求找出基于内容的大规模测试与学生的英语语言技能之间的相关性,他们还对加尼弗尼亚州的英语语言技能测试(English Language Proficiency test)进行了辅研究,他们的研究结果表明,英语语言技能测试一旦脱离具体情景,那么教育工作者对学习者何时接受语言教学和评价等是无法作出明达的选择,而且大规模的语言测试结果似乎并未准确反映学习者课堂里的真实表现。Butler 和 Stevens(2001:417-421) 等人的研究发现,一旦语言课堂里学习的内容与测试的内容不相匹配,就会给教师的教学和学生的学习内容等发出了错误性的导向和信息,建立在这些评价之上的数据就无从谈其信度和效度。 何时对语言学习者进行标准化的基于内容的评价是适宜的?评价中如何体现问责性(accountability)和公平性等,他们也提出了自己的困惑。Katz等认为,在整个二语习得研究过程中,究竟从哪一视点切入对语言学习者进行标准化施测才能让教育工作者对测试的效果感到满意,将成为未来几年语言研究者们倾情追踪和探究不衰的热点话题。

2)大规模评价方法和策略的研究 因大规模测试信度和效度受到人们的质疑,于是,以Butler 和Stevens为代表的一些研究者认为,应在大规模测试的基础上运用多元评价方法(multiple-assessment approach)来评判学校的教学工作。专家学者们力荐一种能用多种不同于传统标准化测验的手段获得学生学习表现的所有方法和技术,且能替代传统的标准化测验的全新评价方式,即称作另类评量(或替代传统性测试的评价法)(Alternative assessment)(Genishi & Brainard,1995)。他们认为,这种以背景化操作评量作为其核心,让学生在背景中真实复杂地为应用语言知识作好准备。Hasselgren(2000)对挪威教育部和卑尔根大学(University of Bergen)联合发起的另类评量运动进行了调研发现,由于不受传统等级评分的限制,学生和教师能积极轻松地参与到评估中去,该运动在挪威小学里取得了令人满意的效果。Gottlieb (2003)等人主张,在语言学习者的初级阶段,即尚未步入大规模的测试阶段,如果教师能为学生制订出适合其年龄身心发展的标准蓝图,搜集到基于这些标准的语言样本素材(秋季开学时建立的起点情况,学年中期的进步情况;学年末的成长记录),将其存放在学生的档案中,那么完全可采用一种类似于大规模测试的教师主导评价法(Large-scale teacher -based assessment)。由于二语(外语)学习者在美、英等英语国家里均被界定为是英语技能有限(Limited English Proficiency, 简称LEP)的学习者,Butler 和Stevens 等提出在对其进行大规模的测试评估时,可采用一些辅策略,以提高评价的效度和公平性,如用第一语言(母语)对他们进行测试;使用适度的考试辅助策略(简化语言的复杂程度、提供视觉支持、添加额外考试时间、中途暂停、用母语进行口头提示等)。但这些调适辅助策略是否给二语学习者的测试结果带来重大影响,结论依然是模糊的(Gottlieb,2003)

3.基于学校层面的第二语言(外语)课堂评价研究

近年来,国外教育评价领域里的前沿课题无疑是基于课堂的评价研究。90年代以后,越来越多的学者将注意力聚焦在形成性评价对语言课堂教学的影响上,认为它作为一种新的评价理念和方法,以及时、有效的过程性反馈,逐渐成为一种倍受推崇的促进语言教学健康发展的课堂评估手段。

1)形成性评估在课堂教学中的研究发展现状与终结性评估相比,形成性评估彰显出其众多的优势在研究者中已有共识。1998年,著名的评估杂志Assessment in Education 第一期专刊讨论了评估和课堂学习。Biggs, Sebatane,Black & Wiliam 等人的撰文均认为,形成性评估是教师和学生采取的可以获得反馈信息,调节并指导教学的行为。面对形成兴评价不易操作的困惑,国外众多学者从理论和实证等方面探索出适用于不同评估目的的形成性评估方法和策略。1994年Weir & Roberts 在Evaluation in ELT一书中列举了包括观察、日记、访谈等13种评估方法和其实施步骤;Genesee & Upshur 在Classroom― based Evaluation in Second Language Education中阐释了课堂观察、学生档案和日记等方法及其功能,并通过实证提供了这些方法在具体环境下的实施方法和策略。对第二语言形成性评价中信度、效度及后效影响等研究也悄然出现了新的思维视角。Mc Millan 认为,当评价结论是学生进步更大,参与更多,其结论无疑具有较好的信度。Smith (2003)指出,形成性评价不宜过分强调信度,因为教师的目的是知晓学生的任务完成得有多好,不是与他人相比完成了多少。他认为关注形成性评价给教学带来的影响,如怎样使评价与教学交融、评价对学生的学习有何影响等是十分关键的。不少研究者对课堂中形成性评价的本质特点和问题也进行了反思和质疑。Leung(2004)认为教师在评价中应慎重思考的问题是:①教师在评价中做了什么?②教师的评价意图是什么?③教师在判断和决策时用了什么理论和“标准”? Rea-Dichins &Gardner则认为教师应反思的问题:是:⑴如何界定评价中的“质性”因素?⑵评价能为学习者提供学习的机会和语言学习的证据吗?⑶教师能找出学习者语言学习、特殊需求和课程等不同要求之间的差别等(Rea-Dichins,2001)。

2)形成性评价实施过程中面临的困惑和问题在形成性评价实施的过程中,国外研究者也提出了一些令人困惑的现实问题。Leung (2004)对教师能否在评价中将所有预设标准中所包纳的关于学生的学习情况、参与活动方式和学习策略等方方面面涵盖在内提出质疑。而且课堂活动的不易把握且具有动态和无法预知的特点也使评价变得较为困难。在英语作为外语教学的香港,Morris, Lo,Chik 和Chan (2000)对香港教师在目标为本的课程(Target Oriented Curriculum)评价调研中发现,教师普遍抱怨评价使他们负担过重。而且政府如果对学校工作没有制订长期连贯性策略,且对学校的评价倾注强有力的支撑和坚定不移的信念,评价工作将难以长效维持。研究还表明,评价中的数据和报告体系尚不健全,教师对评价角色的理解和获得专业援助明显不足。Gatullo(2000)在意大利进行了为期2年的评价实验,发现教师们并未充分有效地利用形成性评价中获得的信息资源,而且很少运用提问和协商性策略来提高评价的实效性。

4.关于学术性语言技能的评价

学术语言技能(Academic Language Proficiency)被界定为一种社会语言能力和学术成就的融合(Margo Gottlieb), 或者指运用在课堂或学术情景中与学习密切相关的语言技能(Bailey & Butler,2002)。为了使二语学习者在基于学科内容的测试和主流课堂学习中获得成功,美国国家评价、标准和学业测试研究中心(National Centre for Research on Evaluation, Standards and Student Testing, 简称NCRESST)一直从测试开发的目的出发,对学术语言技能的本质特点进行了追踪研究(Bailey & Butler,2003)。Butler 和同行们详细描述了他们是怎样对课堂标准、选用的教材以及课堂录象样本进行分析和研究的,从而搜集到在高中科学和数学课上所要求使用的语言类型的情况。他们找出了这些学术语言的语法和文本的篇章结构等特征,教材中选材的种类以及学术文体的文本和语言特色等。他们还对课堂话语的特色进行了分析。研究者根据搜集到的信息,草拟出了学术语言技能测试的设计规格(specification)和样板题型(prototype tasks)。在美国,对学术语言技能的研究依然进行得如火如荼,其研究的根本目的是要找:出:a) 学生在主流课堂上成功参与活动所必须具备什么样的语言能力?b)测试的题型如何确立?c) 英语学习者应具备什么知识才能在学校教育和测试中获得成功?加拿大对刚入大学的且用英语来学习专业课程的新生研制出了一套学术英语语言技能评价体系(The Canadian Academic English Language Assessment , 简称CAELA)。该体系以对测试者进行高风险测试为载体来检测学生的用英语进行学术研究和交流的水平。它是一种综合的,基于主题的(Topic-based)且以标准为参照的(criterion referenced)表现性测试(Wendy Fraser:6)。

三、 分析与展望

综上所述,国外语言和评价研究者就如何利用课程标准运动评价和促进语言者学习,如何开发基于标准和内容的测试和评价体系来检测学习者的语言水平,如何在课堂中开展形成性评价的策略和方法,如何在课堂和学术环境中评价学习者的学术性语言技能的发展状况等进行了较为广泛的研究,并取得了一些阶段性研究成果。这些成果必将带动和促进语言学习者的评价实践活动,使评价结果能够更真实地反映学习者的语言水平,从而较好地指导国内语言教学和评估的研究和发展。由于目前学术界对二语习得的规律和本质特点的描述尚不尽相同,因此对语言(尤其第二语言或外语)学习者的评价标准的界定有较大差异,也使评价的真实性和普通性受到一定的限制。另外,如何使评价与语言学习相互交融,实现评价与学习之间无缝隙的对接依然面临不容乐观的态势。因此,今后有关语言学习者的评价研究将亟待解决和探究的主题是:1)利用影响语言学习者习得的认知、情感、文化和社会等因素,从事经验信息的获得和理论框架的建构,研制和开发适用特定二语(外语)学习的课程标准;2)评判语言学习者在真实环境中理解和运用语言进行逻辑推理的能力;3)研制技术可信(technically sound),符合心理测量、语言特点、文化差异和可持续发展的(pychometrically, linguistically, culturally and developmentally appropriate)的评价工具;4)制订教师、管理者和政策制订者的职前和在职培训体系,了解和掌握二语习得的知识、科学理解和解释评价中获得的数据和信息。

参考文献:

[1]Arkoudis, S. & K. O’Loughlin. Tensions between validity and outcomes: Teacher assessment of written work of recently arrived immigrant ESL students[J]. Language Assessment Quarterly, 2004, 1(3):284304.

[2]Bailey, A. L. & F. A. Butler. An evidentiary framework for operationalizing academic language for broad application to K12 education: A design document [R]. Los Angeles: University of California, National Center for Research on Evaluation, Standards, and Student Testing (CRESST), 2003.

[3]Butler, F. A., & R. Stevens. Standardized assessment of the content knowledge of English language learners K12: Current trends and old dilemmas[J]. Language Testing, 2001, 18(4): 409427.

[4]Cameron, L., & S. Besser. Writing in English as an additional language at Key Stage 2[R]. Leeds: University of Leeds, 2004.

[5]Davison, C., & P. McKay. Counting and discounting learner group variation: English language and literacy standards in Australia[J]. Journal of Asian Pacific Communication,2002, 12(1):7794

[6]Genishi, C., & M. B. Brainard. Assessment of bilingual children: Dilemma seeking solutions[C]// In E. E. Garcia & B. McLaughlin (Eds.). Meeting the challenge of linguistic and cultural diversity in early childhood education. New York: Teachers College Press, 1995: 4963.

[7]Gottlieb, M. Large-scale assessment of English language learners. Addressing educational accountability in K12 settings[J]. TESOL, 2003(2).

[8]Hasselgren, A. The assessment of the English ability of young learners in Norwegian schools: An innovative approach[J]. Language Testing, 2000, 17(2): 261277.

[9]Jennings, J. F. Why National Standards and Tests―Politics and the Quest for Better Schools[J]. SAGE, 1998,(6).

[10]Katz, A., P., Low. J., Stack. & S.-L. Tasang. A study of content area assessment for English language learners. Final Report prepared for Office of English Language Acquisition and Academic Achievement for Limited English Proficient Students[R]. U.S. Department of Education. (Contract No. T292B010001). Oakland, CA: ARC Associates, 2004.

[11]Matthew,G & J. Vranek. Standards: Here Today, Here Tomorrow[J]. Educational Leadership, 2001, (1).

[12]McKay, P. The effectiveness of work samples as elaborations of profiles: Some comments based on the ACT LOTE Work Samples[J]. Journal of the Australian Federation of Modern Language Teachers Associations Inc, 1999, 34(3):2125.

[13]Rea-Dickins, P.Mirror, mirror on the wall: Identifying processes of classroom assessment[J]. Language Testing, 2001, 18(4):429462.

[14]Smith, J. K. Reconsidering reliability in classroom assessment and grading[J]. Educational Measurement: Issues and Practices, 2003, 22(4):2634.

[15]Wendy FraserCAEL Assessment Testing OfficeCarleton University Ottawa,Ontario[EB/OL]. http :// www. google. Cn / search ? complete =1 &hl =zh CN &q =the +role +of +reflection +in +the +Canadian + Academic +English +Language +Assessment &btnG =Google +%E 6% 90% 9C% E7% B4% A2 &met

[16]赵中建. 美国基础教育课程改革的动向与启示[J]. 全球教育展望, 2001(4).

上一篇:英汉“视觉”词的“思维”义 下一篇:王佐良翻译美学思想述评