国际大规模教育评估的影响力

时间:2022-07-28 05:50:00

国际大规模教育评估的影响力

全球化浪潮推动教育在比较中发展,国际大规模教育评估(International Large-Scale Assessment in Education)应运而生。在其代表性项目――“国际学生评估项目”(Program for International Student Assessment,PISA)中,上海学子2009年夺冠震惊全球,中国的教育体系遂成为各国竞相探究的标本。PISA2012结果已于2013年年底公布,上海学生又是第一,而且,PISA将可能在国内更大范围推广,我们有必要从影响力的视角来审视国际大规模教育评估。

三项主要的国际评估

针对基础教育阶段学生素养的国际大规模教育评估主要有三项。① 一是由经济合作与发展组织(OECD)主办的PISA。它检测临近义务教育尾期(15岁)学生的阅读、科学和数学素养,自2000年起每隔三年循环一次,九年为一个周期,每届主测一个素养,另两个素养辅之。鉴于上海学子2009年首度参与PISA便在全球65个经济体中拔得头筹,对这项评估国内学界已熟知,在此不再赘言。②以下重点介绍另外两项国际大规模教育评估――“国际中小学生数学与科学素养进展”(Trends in International Mathematics and Science Study, TIMSS)③与“国际小学生读写素养进展”(Progress in International Reading Literacy Study, PIRLS)。④这两项评估皆由国际教育成就评价学会(International Association for the Evaluation of Educational Achievement,IEA)发起并组织、美国波士顿学院(College Boston)统筹,旨在为单个教育体系制定政策与实施教学提供学生相关素养的国际基准与数据。

1.国际中小学生数学与科学素养进展测试

TIMSS自1995年起四年一届,测试四年级与八年级学生的数学与科学素养。TIMSS原名为“第三届国际数学和科学研究”(The Third International Mathematics and Science Study),2003 年更名。

2011年开展的第五届TIMSS(即TIMSS 2011),全球共有63个教育体系参与,另有14个教育体系作为基准参与者,涉及近万所学校的60多万名学生、16万余名家长和约13500名教师。可任意选择四年级或八年级来评估或二者皆选:2/5的教育体系与7个基准参与者评估四年级学生;45个教育体系与14个基准参与者评估八年级学生。此外,还有部分教育体系参加针对高中毕业生的“TIMSS扩展板”(TIMSS Advanced)。我国香港从TIMSS启动伊始便全线参与,我国台湾2003年加盟四年级的TIMSS,之前仅参与八年级的TIMSS。

TIMSS围绕两方面展开,即内容与认知。内容指的是可以用数学进行测量的特定领域或科目。数学评估内容包括三大块,即计算、测量与数据处理,四年级和八年级分别设175和217道题目;科学评估内容有三项,即生物、物理/化学、地理,四年级和八年级分别设172和217道题目。认知是指学生在处理数学问题的思维过程,由习得、使用和推理组成。四年级与八年级学生的评估内容不一,但认知过程相同。

TIMSS 2011报告于2012年12月10日正式。报告显示,东亚国家和地区傲立榜首。四年级数学评估前三甲为新加坡、韩国与我国香港,我国台湾与日本紧随其后;八年级数学评估中,韩国、新加坡、我国台湾、我国香港与日本位居前五。四年级科学评估冠亚军是韩国与新加坡,排位其后的是芬兰、日本、俄罗斯与我国台湾;新加坡、韩国、我国台湾与日本分享八年级科学评估前四。

2.国际小学生读写素养进展测试

PIRLS自2001年起五年一轮,测试四年级学生的读写素养。2011年开展的第三届PIRLS(PIRLS 2011),全球共有49个教育体系的近万所学校约32.5万名学生接受测试。我国香港地区与台湾地区分别从第一届和第二届开始参与PIRLS。

PIRLS评估四项读写素养:锁定并获取特定信息;简单推论;复杂推论,解释并整合观点与信息;检测和评估内容与语言使用。测试时,学生须完成给定的文本阅读(包括不连续文本),每篇文本配13-16个问题。文章均附有彩图,以提高学生兴趣。

与TIMSS 2011报告同步的PIRLS 2011报告显示,我国香港、俄罗斯、芬兰、新加坡和北爱尔兰领跑排行榜;我国台湾进步18分,排位第九,提升13个名次,首次跻身前十;欧洲则显现衰退迹象,连续两届倒退的教育体系几乎都来自欧洲,如保加利亚、立陶宛、荷兰以及瑞典。小学生的读写素养,我国香港比欧盟和OECD至少超前半个学年。但欧洲毕竟根基雄厚,仍停留在高均值水平。

此外,PIRLS 2011还在原有的学生问卷、家长问卷、校长问卷、教师问卷基础上增添了课程问卷,这些问卷有助于掌握学生的阅读背景状况,涉及约26.5万位家长和1.4万位教师。值得一提的是,四年一届的TIMSS与五年一轮的PIRLS恰好在2011年偶合,这无疑为同时采集四年级学生的读写、数学与科学素养提供了绝佳机遇,而且这也便于专家联合开发问卷及其量表。

三方面影响力

如今,PISA、TIMSS与PIRLS的实施业已成为全球公共事件,尤其在临近每届报告公布时间节点时,全球可以说是翘首以盼。国际大规模教育评估对当今基础教育改革与发展的影响力与日俱增,呈现在三个方面:

1.设定了人才培养的国际基准

国际大规模教育评估以在读学生的关键性素养为考察对象,通过素养测试来评估教育整体发展水平。TIMSS与PIRLS把当今学生必备的胜任力分为五个等级,由高到低分别是五到一等。这五个等级由四条国际基准线(Benchmarks)来划定,分别是卓越、优秀、中等与低等。胜任力的四条国际基准线的内涵各异。在PIRLS 2011,达到这四条国际基准线的国际学生平均比例分别是8%、44%、80%和95%,我国香港是18%、67%、93%和99%。四条国际基准线不仅规范了学生参与全球化所必备素养的内涵,同时使各教育体系认识到人才培养的国际差距。

对于课程与教材,国际基准成为一根标杆,指引着课程与教材建设的方向。为调查测试内容与相关课程的匹配程度并作出决策,各个教育体系须设置首席专家席位,即国家研究协调员(National Research Coordinator)。测试内容须涵盖50%的官方课程,以保障评估公正、数据客观,由此也可判断本土课程在多大程度上满足国际社会对学生胜任力的要求。我国台北学子在TIMSS 2011表现非凡,很大程度上仰仗于评估内容与官方课程高度吻合,或者说,官方课程的国际化程度颇高。这是国际基准作用于某一教育体系官方课程的一个典型案例。

国际大规模教育评估设置的国际基准还可以推动其他各类全球教育指数的出台。英国知名媒体《经济学人》(Economist)2012年11月27日的一份题为《学习曲线――国家教育成就的教训》(The Learning Curve. Lessons in Country Performance in Education)的报告,⑤展示了40个经济体在两大指数上的教育表现,以及教育投入、教育产出和社会经济环境三大向度共65个指标之间的相关性,有助于各界专家确定劳动力所需知识和技能与经济体可持续的全球竞争力之间的关联因素,旨在构建一个教育绩效的国际比较基准――“认知能力和教育程度全球指数”(The Global Index of Cognitive Skills and Educational Attainment)。这份报告的主要数据来源便是PISA、TIMSS和PIRLS,各经济体的官方统计数据辅之。欧盟委员会教育、视听教学及文化执行署(Education,Audiovisual and Culture Executive Agency)2007年开展了题为“改进校长工作,提高学生学业成就”(Leadership Improvement for Student Achievement,LISA)的校长领导力研究,其缘起以及展开二次分析所采用的数据均源自PISA与TIMSS。⑥

2.比较了两个不同的教育体系

囿于文化传统与制度架构,各个教育体系迥异,比如在联邦制国家德国,16个联邦州形成16种教育体系,难以协调,遑论间隔万里的两个国度之间的教育差异。

TIMSS与PIRLS至今仅在中国港台地区展开,中国内地仍缺席。其实,早在2003年,TIMSS便初访中国内地。起因是,中国学生必须在本国接受一年以上的大学教育方能具备资格申请入学德国高校――因为德国基础教育年限比中国长一年。2002年,就德国高校针对中国留学生设置的入学条件,中国驻德国大使馆向德国联邦政府提出质疑,认为中国高中毕业生完全能够胜任德国高校入学条件。就此,德国联邦教科部委托TIMSS德国首席专家、汉学家博斯(Wilfried Bos)于2003年对在读高三学生开展了数学素养测试,在上海、辽宁、河南和新疆四个省区各抽取样本782份、625份、624份、516份,总量为2547份。30道试题来自于1996年第三届TIMSS的试题库,通过“项目响应理论”模式(Item Response Theory)实现数据的分布与衔接。

结果显示,辽宁、上海和河南位居前三甲,新疆紧跟在欧洲尖子国荷兰、瑞典和挪威之后,几乎所有上海学生都达到胜任力最高等级。整体看来,中国高三学生的数学素养平均比欧洲学生超前约两个学年,而且,数学素养分化程度在上海最不显著,这意味着,上海基础教育均衡化水平最高。⑦翌年,博斯向德国联邦教科部递交了一份题为《中国与德国中学毕业生质量的比较测量》的研究报告,但未公开,直到2009年12月1日博斯做客上海师范大学时才首次。⑧尽管这项研究因受制于种种因素而无法转换为政策,但是,这不仅是国际大规模教育评估初次登陆中国内地,更重要的是,以国际大规模教育评估为手段,实现了地球两端两个教育体系之间的比较。

3.提供了政策完善与制定的证据

国际大规模教育评估对教育体系展开比较,其实施必然依赖于各个教育体系的教育行政力量的支持――政策支持、人力支持、财力支持、物力支持等。

德国2000年起参加PISA,自2001年和2007年分别加盟PIRLS与TIMSS。推动德国教育体系积极投身于国际大规模教育评估的,是作为德国教育政策最高决策机构的德国各联邦州文教部部长联席会议(KMK)。KMK于1997年10月24日了《康斯坦兹决议》,该决议敦促各联邦州教育行政部门全力支持参与评估。同时,KMK还与联邦教科部签订协议,共同承担三项评估的成本。

对于参与国际大规模教育评估的教育体系来说,评估数据可以用于诊断甚至缓解教育体系现存的问题与不足,并向教育政策制定者和学校发展研究者提供线索,以便把握哪些领域有待完善以及如何进行干预。⑨其教育政策也将会更新以弥补自身教育的不足,以适应教育发展的国际趋势。例如,2000年的PISA结果在德国引发巨大震惊,因为对于这样一个政治、经济、文化强国来说,其PISA成绩竟然未能超过OECD均值。⑩德国教育体系脸面丧尽,国内一片哗然,政界的争论尤为激烈。这迫使德国各级政府及时应对,教育标准2004年随之出台,同年还设立了教育体系质量发展研究院(IQB),11为检验达标程度所设置的教育监测(Education Monitoring)也相继问世,并在KMK于2006年出台的文本《教育监测全局战略》中锁定。该战略由四大支柱组成:以PISA、TIMSS和PIRLS为代表的国际大规模教育评估;小学、初中、高中水平考试的州际比较;基于教育标准的学校评估州际比较;两年一度的《国家教育发展报告》。小学、初中、高中水平考试的州际比较可以说是国际大规模教育评估的翻版,即由国际比较转向国内比较,两者均为抽样测试,其结果可以用来辨别乃至消解教育体系现存的问题与不足,并向教育政策制定者和学校发展研究者提供反思、干预和完善的线索,12在很大程度上提高了德国在国际大规模教育评估中的表现。当然,各个教育体系更关心的是胜任力等级在某一阶段学生的分布,这些研究成果有助于政府启动有针对性的促进措施或重点项目。13

症结与功效

尽管国际大规模教育评估呈现出上述三方面的影响力,但却无法包治百病。最大症结在于方法论,即学生的学业成就在多大程度上具有可测性。《学习曲线――国家教育成就的教训》报告坦言,教育投入与教育产出之间的关联高度复杂,甚至可以说是一个黑箱;报告进而强调,信息的收集与处理,技能的测评以及教育制度国际比较,这些研究工作相对容易,更高难度的则是评估文化因素。仅看一次测试结果而不顾及所在国家和地区的文化传统与制度架构,必定难以准确评价某一国家或地区的教育表现,PISA 2009在上海获得的结论便存有这个硬伤。14

通过在全球范围定期对义务教育阶段学生必备的读写、数学与科学素养展开测试,国际大规模教育评估敦促各个经济体在跨文化比较的棱镜中审视各自的教育体系,助推单个教育体系寻求自己的全球定位,进而制定学生发展基准与教育政策。15博斯就TIMSS初次登陆我国内地所得的结果评论道16:“这个结果最好还是作为提示而非例证来阐释。”同样,就在获悉香港排名PIRLS 2011全球第一之后的第10天,2012年12月19日,香港特区教育局局长吴克俭在香港《文汇报》发表署名文章指出,17“国际评估的结果其实是一个参考指标,协助我们进一步了解香港学生的长处和优势,以及仍有不足的地方,从而加以巩固和改进。举例说,香港小四学生的‘阅读表现’全球排行第一,但在培养兴趣方面,我们仍须努力……”

其实,国际大规模教育评估的最大功效在于力促教育体系迈向均衡而卓越。就此,PISA上海中心主任、教育部国际教育研究与咨询中心主任张民选提出八点期待18 :①对教育公平的理解更加深刻;② 提高所有人的学业成绩;③ 普及的教育不是廉价的,而是更加均衡的教育;④ 潜能发展的理念;⑤“学会共处”的国际理解成为基础教育的新内容;⑥ 责任意识让教育拒绝平庸;⑦ 技术越来越受到关注;⑧ 培养终身学习的能力和态度。

芬兰模式可谓是迈向公平而卓越的基础教育的经典样本。芬兰虽为偏处一隅的北欧小国,却在前三届PISA中鹤立鸡群。芬兰成功的“一个重要因素便是芬兰所拥有的9年制综合教育,其已历时40余年,充分体现了教育公平性……这种接纳所有学生的教育决不可放弃。现实证明,我们的坚持是正确的,因为我们所获得的成就,尤其是PISA的荣誉,令人欣慰。”芬兰国家教科部国务秘书塔佩欧・柯苏宁(Tapio Kosunen)在接受专访时进而指出,19“我们从来不是为获取排名而参加PISA,而是为了个体的发展。”因而,“没有必要把PISA当作衡量教育的标准或者测试的标准化程序,教育也没有必要按照PISA的一些评估标准去执行。芬兰的教育原则是,每所学校都应该是优质学校。PISA让我们发现学校之间的差距,并利用这些数据进一步缩小学校之间的差距。事实上,芬兰学校之间的差距已经很小,但是我们力争让差距更小。”

公平而卓越是基础教育改革与发展的旨归。国际大规模教育评估呈现的诸多影响力若能聚焦于此,那么,它便可跨越文化传统与制度架构之鸿沟,真正指向地球村每位学生的终身发展。

参考文献:

①⑨ Bos, W., Gebauer, M. M..大规模学生评估的影响力与重要性[J].复旦教育论坛,2010(4).

② 张民选,陆.专业视野中的PISA[J].教育研究,2011(6).

③ Mullis, I. V. S., Martin, M. O., Foy,P., Arora, A.. TIMSS 2011 International Results in Mathematics[M]. Chestnut Hill: Boston College, 2012; Martin, M. O., Mullis, I. V. S., Foy, P., Stanco, G. M. TIMSS 2011 International Results in Science [M]. Chestnut Hill: Boston College, 2012.

④ Mullis, I. V. S., Martin, M. O., Foy, P.,Drucker, K. T. PIRLS 2011 International Results in Reading [M]. Chestnut Hill: Boston College, 2012.

⑤ Economist Intelligence Unit. The Learning Curve. Lessons in Country Performance in Education. London: Pearson, 2012.

⑥ Visser, S. S. LISA2009: The Leadership Cocktail. A Highly Contextual Mix[R]. Netherlands: 1:1 Marketing Communicatie, 2009.

⑦16 Bos, W., Gebauer, M. M., Henze, J.,Voss, A..基于国际大规模学生评估的中国高中毕业生质量研究[J]. 外国中小学教育,2010(8).

⑧ 俞可.破解中国高中毕业生入读德国高校的难题[J].世界教育信息,2010(1).

⑩ 俞可.德国教育:危机四伏[J].上海教育,2004(2B).

11 俞可.揭示教育改革的惰性 [J].上海教育,2009(01A).

12 俞可.德国《发展报告》[J].上海教育,2010(9A).

13 俞可.大规模评估与中国教育[J].世界教育信息,2011(6).

14 Yu, K.. Monster Mom, Monster Nation? [J]. Politisches Lernen. 2012(1/2).

15 俞可. 全球教育领导直面三大矛盾[J].校长,2011(1).

17 吴克俭.巩固实力 寻求进步 追求卓越[N].文汇报,2012-12-19.

18 沈祖芸.从PISA看上海义务教育均衡发展[N].中国教育报,2011-02-18.

19 俞可,黄金鲁克.不是一种竞争,但结果很重要[N].中国教育报,2012-10-12.

(本文系2014年度上海市教委科研创新项目〔编号:14YS035〕研究成果)

(熊建辉单位系教育部教育管理信息中心外国教育信息研究室,俞 可单位系上海师范大学现代校长研修中心)

上一篇:财政局管理中的统计信息开发与利用 下一篇:留一只眼睛给自己