心理计量学在台湾的发展回顾与展望:1991~2011

时间:2022-10-08 01:25:57

【前言】心理计量学在台湾的发展回顾与展望:1991~2011由文秘帮小编整理而成,但愿对你的学习工作带来帮助。笔者在此,再次扼要地重点回顾该次大规模文献评阅的结果与心得如下,以作为本文的引言:(1)测验理论派别:两大一小。测验理论分古典测验理论(classical test theory,CTT)与试题反应理论(item response theory,IRT)等两大派学说理论,以及一派较小规模的推论力...

心理计量学在台湾的发展回顾与展望:1991~2011

摘 要:该文从书目计量学的观点,回顾二十年来心理计量学的出版文献在台湾发展趋势,并从中分析、说明发展变化情形,与展望未来。

关键词:心理计量学;试题反应理论;测验与评量;测验与统计

中图分类号:B841.2 文献标识码:A 文章编号:1003-5184(2012)05-0466-07

1 序言

笔者(本文第一位作者)于公元1991年6月回到台湾,在政治大学教育学系服务。旋即于《测验与辅导》与《研习信息》(1991a,1991b)期刊上,投稿发表留学美国的简短学习心得《测验理论的发展趋势》,以介绍当代心理计量学(psychometrics)在欧美国家的发展状况。后来,由于受到重视,复应邀在训育委员会委托政治大学心理学研究所承办的“心理测验之学术及实务研讨会”学术会议上,正式进行详细的论文宣读(1992)。

笔者在此,再次扼要地重点回顾该次大规模文献评阅的结果与心得如下,以作为本文的引言:(1)测验理论派别:两大一小。测验理论分古典测验理论(classical test theory,CTT)与试题反应理论(item response theory,IRT)等两大派学说理论,以及一派较小规模的推论力理论(generalizability theory,GT)。前者的使用人口较广,理论较被熟悉,相关研究文献较多;而后者的接触人口较窄,理论较为陌生,相关研究文献较少。

(2)代表人物及其著作。Gulliksen(1950,1987)的专著是古典测验理论之始;Cronbach,Gleser,Nanda和Rajaratnam(1972)的专著是推论力理论之起源;而Lord(1980)的专著则是试题反应理论的滥觞。其实,上述各家学派理论的发展,并不是断然没有交集,至今,他们仍然是并存的。

(3)两本重量级的经典作品。一为美国加州 Annual Review 公司所出版的《心理学年度评论》(Annual Review of Psychology)年刊,另一为美国心理学学会(American Psychological Association,APA)所出版的《教育测量》(Educational Measurement)。前者,约每隔四至五年,即针对过去几年间有关心理计量学领域的某个研究主题文献,进行整理和评阅,并提出该主题的研究发展现况与趋势之说明。后者,乃有心理计量学食谱(cook book)或百科全书(encyclopedia)之称,约每隔二十年,即针对过去二十年来整个心理计量学的重要领域研究文献,进行整理和评阅,并提出发展趋势的回顾与展望;第一版于1951年发行,第二版于1971年发行,笔者毕业(1991)时,则刚出版第三版,由Robert L.Linn教授所主编(Linn,1989),而最近一版是第四版,则由Robert L.Brennan教授所主编(Brennan,2006)。

(4)两个发展趋势。在该次学术会议上,笔者归纳文献后,提出测验理论有两大发展趋势的看法,那就是:理论的发展愈趋向数学化,理论的应用愈趋向计算机化。

(5)三个发展方向的未来建议。笔者亦于当时提出心理计量学未来可朝下列三个方向发展下去:1)建立多向度试题反应模式(即multidimensional item response theory,MIRT)及其参数估计所需的计算机程序;2)计算机化适性测验(computerized adaptive testing,CAT);3)结合认知科学的研究,往认知诊断测验或评量(cognitively diagnostic assessment,CDA)领域发展。而此三个领域,正是当前(从公元1991年~至今)心理计量学领域中,正发展得如火如荼的研究议题与方向。

上述重点评论,后来均被收录引用在笔者的专书著作《教育测验与评量:成就测验与教学评量》(1997,2002,2011)及《试题反应理论(IRT)及其应用》(2009)里。笔者根据有关测验与评量发展史的文献评阅结果,归纳提出近百年来有关测验与评量的发展趋势如下:

(1)能力或成就的评量观点,已由传统重视单一心智能力或成就评量的纸笔测验,逐渐走向强调多元心智能力或成就评量重要性的实作评量;

(2)命题、测验编制,及施测方式,则由原本盛行的人工化复本测验,逐渐走向题库式的计算机化适性测验;

(3)测验结果的解释与做成决策,则由原先强调常模参照测验的用途,逐渐趋向重视效标参照测验的应用;

(4)测验理论的发展与应用,亦愈发趋向重视数学化和计算机化的结合。

本文的目的,即在序文的背景下,评阅近二十年来(从公元1991年笔者回台至今),心理计量学文献出版数量在台湾测验学界发展情况的回顾与展望,以作为海峡两岸学术交流的信息桥梁。

2 相关文献资料的检索

为了进一步探索这二十年来,心理计量学的研究在台湾的发展情况,笔者检索台湾现行的两大研究文献信息检索系统:一为台湾期刊论文索引系统,另一为台湾硕博士论文索引系统。前者为国家科学委员会所出资建置,后来统一委由国家图书馆负责管理,后者则为国家图书馆所出资建置并负责管理。从这两个信息索引系统中,最可以窥见这二十年心理计量学领域的学术研究在台湾的发展情形。

由于每位作者所使用的关键词未必一致,甚至对论文主题的归类,也有译名不一、类别不一、甚至到了众说纷纭的程度。因此,笔者依据书目索引的表达方式,将心理计量学列为待检索的关键词(key words),并将其相关的译名及可能归属的类别名称,如:测验与评量、教育统计、试题反应理论(IRT)、测验与统计等,凡出现在所检索的论文标题、关键词,及摘要等范围里,通通列为检索的对象。兹分别针对上述两个信息索引系统进行检索,并将检索结果呈现在表1和表2以及图1到图4里,笔者再于后续文章里针对此检索结果进行说明。

2.2011年度篇数偏少,可能是尚未完整上传建档所致。

3.检索日期:2012.8.12.

2.国家图书馆于公元2010年,将中华民国期刊论文索引系统改版,分为台湾期刊论文索引系统和HyRead台湾期刊论文数据库。

3.检索日期:2012.8.17.

从表1和表2所示可知,心理计量学在台湾学术发展的情况,确实有逐年成长的趋势。然而,相对于二十年来,整体研究人口的成长趋势来看,心理计量学还是属于相当冷门的学科。所谓的冷门,即是指这领域的研究人口,相对于整体研究人口的成长数量来看,比例是相对偏低的。由于可能撰写有关心理计量学领域的学术论文者,多半是毕业自教育学门或心理学门的人才,表3所示即为二十年来相关学门毕业的硕博士研究人口的成长情形。若以表1和表2的数据相较于表3来看,可知学位论文或期刊论文的产出比例(以每年度的硕博士学位论文数或期刊论文数,除以每年度毕业的硕博士人口数之比例)是相当低的,因此说,心理计量学在台湾算是一门冷门的学科。

2.心理学门包含在社会及行为科学学门里计算,没有单独列成一类。

3 对过去的回顾

中国测验学会算是台湾历史悠久的学术团体之一,所出版的学术性刊物《测验学刊》,至今(2012年)已历时五十九年,可说是历史久远的学术性刊物之一。该刊物算是目前台湾心理计量学领域论文的主要出版园地,但由于论文归属的分歧,心理计量学一词在台湾并没有统一的译名与界定范围,因此本文所检索的关键词就包含了其它可能归属的名称,如:测验与评量、教育统计、试题反应理论(IRT)、测验与统计等。所以,本文采用较为广泛的检索方式,凡出现在所检索论文的标题、关键词,及摘要等范围里的论文篇数,统统列为检索的对象。虽然这种检索方式无法做到十分精确,但长远看来,却也反映出长期的发展趋势。

一门学术领域的发展,若能配合政府施政政策的推动,将能如火如荼地进展与发展茁壮;以美国为例,当布什政府推动“带好每一位孩子法案”(No Child Left Behind Act,NCLB法案)时,即带动心理计量学的学术蓬勃发展,并且造成这方面人才供不应求的情形,即为明显的一例。回顾这二十年来,台湾有一项考试方式的变革,与心理计量学的发展最具有息息相关,那就是台湾教育部在2001年推动国民中学基本学力测验(简称国中基测)的升学考试变革政策,但该政策的推动结果,却没有获得如美国推动NCLB法案那般促进心理计量学发展的效果。

国中基测是台湾近二十年来,为改进高中升学考试方式所建置发展的大型测验题库(余民宁,2004)。原先即以效标参照测验(criterion-reference testing,CRT)观点设立,并以Rasch模式作为建置与计分的理论基础,初期建立各考科为1分至60分的量尺分数,现在已改为1分至80分的量尺分数。这种考试方式的变革,虽然启用了新式的测验理论(即IRT中的Rasch模式),但却缺乏全面引用欧美的专业测验制度与配套措施(如:试题回收,不再公告题型与答案等),而仅将传统100分制的考试得分,透过beta binominal transformation计分公式变成60分制或80分制的特定量尺分数,而不是采用国际上常用的量尺分数(如TIMSS或PISA等大型数据库的学业成就评比所使用者——以250分为平均数,标准差为50分的量尺分数),结果一来徒增民众认知与习惯上的困扰,二来却没有达到当初教育改革的目标之一:降低学生的考试压力,却反而增加升学的考试压力。因此,在下一轮的教育革新中,教育部拟于2014年起推动十二年国民基本教育时,即实行免试升学的方式,届时,推动十余年的国民中学基本学力测验将转型成国中毕业会考(各学科的学习成就仅分成三等级,不再使用量尺分数),不再是国中毕业生升学高中或高职的考试依据之一。国中基测的升学考试方式,届时将再由现行的常模参照测验(norm-reference testing,NRT)做法,转变回到原先预设的效标参照测验方式。

笔者省思评估此一考试方式的变革,无法像美国推动NCLB法案一样,一举推动让心理计量学成为台湾测验与评量中的主流学说,其原因有下列几点:

(1)台湾民众被传统的考试习惯所左右,认知观念已经积重难改。例如,传统的考试习惯是:考试完毕即公布试题和答案,且采用百分制计分,答对几题可以得到几分是大众可以自己计算得知的事。然而,心理计量学是一门很专业的学问,尤其是IRT的理论和应用更是如此,像国中基测如此的新式测验方式,其考题的研发系将定锚试题(anchor items)透过严谨的等化(equating)与衔接(linking)设计程序,将不同校准过(calibrated)试题参数的考题,建立在一个相同量尺上的测验题库后,再抽题组卷成当年度使用的考试题目;如此严谨、复杂、专业的作业程序,已远远超过传统考试制度的做法。但考试传统上考试完毕即公布试题和答案的做法,却正好危害到该题库的安全性与专业性,造成它在题库试题逐渐用罄之后,已成为与传统考试没有两样的测验方式。

(2)补习班及报章杂志的宣传广告、家长们对子女升学的看法,与明星学校的光环等价值观的扭曲,反映出民众认为考试不是一件专业工作的认知,这才是造成心理计量学发展的真正瓶颈所在。由于学校考试频繁,补习班、学校、出版社所出版的测验卷价格低廉,测验试题多半是剪辑自坊间的考试参考书、过去的考古题,或教师不用心命题的题目,且多半都是依据古典测验理论且采用传统百分制计分方式的考试,这些举动造成民众对心理计量学专业形象的误解,间接认为考试不是一件专业工作,不需要像IRT那么复杂的理论依据与专业做法,也可以把考试工作办好。所以,愈发强化民众对考试传统习惯作法的认知,造成新兴的测验理论(如IRT)甚难在台湾的测验与评量领域中生根与发展。

(3)考试方式变革的目的与手段不一。当初国中基测的设计目的,是在评估教育部推动九年一贯课程教育改革是否有达成既定的目标成效,因此是立基于效标参照测验观点所建置发展的,而不是在作为升学考试之用;因此,才会引进严谨的Rasch理论模式,作为建置题库、测验,与计分的依据,并以此作为教学诊断、补救教学,与改进课程纲要参考之用。然而,因为推动此方案的部长过于鞠躬尽瘁而死于任内,后继的部长不明原委,乃将它拿来作为改良式的升学考试之用,实施十余年下来,结果造成学生的考试压力不降反升的现象,台湾民众对此政策措施的批评声浪不断。

除了国中基测是政策性推动的考试变革之外,二十年来,台湾的高等教育虽然也蓬勃发展,攻读心理计量学领域的人口也有缓步增加的趋势,但专责考试业务的机构(如:大学入学考试中心、四技二专入学考试中心、考选部举行的各种国家考试等)多半仍以古典测验理论作为主流的传统考试方式,致使专攻当代测验理论(如:IRT)的人才就业状况不胜理想,且民间企业对此领域人才的需求量又不大,这也都是间接造就此领域成为冷门科学的原因之一。

由于上述几点原因可知,心理计量学在台湾的发展,已然错过许多可以成长茁壮的机会。现行考试方式在台湾的推行,可说是根深蒂固很久了,心理计量学学者在短短二十年间的努力,即想引进与推行西方新式的考试方式,可能不是那么容易做到,这还需要时间去倡导与教育民众,以及耐心的等待才行。

4 对未来的展望—代结论

在全球华人的地区,甚至受儒家文化思想影响下的亚太地区(包括:中国大陆、韩国、日本、台湾、香港、新加坡、东南亚及美加的华侨地区等),华人家长都把“接受教育”当作是促进子女往上层社会流动的一大关键所在。重视教育,是全球华人家长的共识。而如何评估子女的学习成就好坏,相较而言,当然只有诉诸于较为客观、公平、公正的考试制度。因此,全球绝大多数华人子弟的成长岁月,从小到大即是在读书与考试中度过的。华人对考试制度和精神的认知和熟识程度,俨然已融入成为中华文化的一部分,甚至已融入每一位华人的血液里,DNA里,想要一夕变革,谈何容易。

然而,心理计量学在欧美西方国家兴起,也不过才百余年的事。西方人藉由科学探究的精神,百余年来,已将考试方式变成是一门科学,虽然心理计量学对西方人来说也是一门冷门科学,但近二十年来,仍朝着笔者所说的数学化与计算机化趋势继续发展下去,这不得不令人佩服西方人探究学问的精神与做法!凡是主修心理计量学的人都知道,一项专业化的考试,从组成考试委员会,邀请专家命题,修审试题,分析试题,等化与衔接,题库建置,到最后的组卷施测等过程,都是相当严谨、繁复、专业化的程序,也都是在一群专家代表(含:学科专家、测验专家、资讯工程专家、行政官员、一般教师等)负责规划、监督,与执行之下,才能顺利完成的作业。但是,华人(甚或是亚太地区的人民)的想法可不是这样,他们对考试的传统看法,已经太过根深蒂固了,想要他们尝试不同的新方式做法,恐怕还需要一段时间才能适应、调整得过来。

兹举一例如下,即可说明此现象。过度重视考试与要求考试完毕即公布试题和答案的看法和做法。民众呼吁说“人民有知的权利。不公布考题的话,民众怎知考题的对错与好坏?”,这句话听起来似乎是没有错、很有道理,让考试主办单位很难拒绝考生这项要求。但这样的看法和做法,就不容易使考试成为一项专业工作,当代的新兴测验理论(如:IRT)便无法派上用场,考试就仍停留在原始的传统做法上。殊不知民众的这种呼吁,其实是以邻(愈晚参加考试的学生)为壑——也是造成学生考试压力不减反增现象的来源之一。历届考题都公布了,愈晚参加考试的学生所需准备的考古试题就愈多,花费在准备考试的经费、时间、压力就愈大,未来的考题为避免与考古题重复,便会愈出愈叼钻、愈偏离考试与评量的原本目标——最后倒霉受害的,还是愈晚参加考试的学生莫属。结果,读书与考试即消磨掉大半年轻学子的学习热忱与探究学问的精神,难怪国际数学与科学教育成就趋势调查(Trends in International Mathematics and Science Study,TIMSS)的国际评比结果显示,参赛的亚太地区代表(包括:韩国、日本、香港、台湾、和新加坡,除新加坡外)学生数理成绩表现优异(包办国际评比成绩的前五名),但却相对缺乏对学习数理科学的兴趣与热忱(Mullis,Martin,Gonzales,& Chrostowski,2004;余民宁,韩佩华,2009)。这种现象都是由于过度重视考试的结果,学校的考试太过频繁,且每次考试之后都公布答案和试题,考题的命题已然愈趋叼钻,考试已偏离评量的原始目的,造成学生应付考试的能力很强,但却无法体会学习与考试(评量)的目的为何,更不用说能否体会出学习的乐趣与培养出探究学问的精神与热忱为何,这些现象都将不利于未来人才的培育。

考试制度是中华文化的千年传统,说要变革,以全盘引用新式的测验理论观点,谈何容易。因此,展望全球华人的地区,想要把考试方式变成像西方国家一样的专业测验方式,可能还需要透过长期的教育和倡导,才能教化民众未来能够接受更专业、更科学、更效率化考试方式的变革,而这才是心理计量学未来能在华人地区蓬勃发展的契机所在。

致谢:本文的撰稿,笔者拟感谢行政院国家科学委员会101年度补助大专校院奖励特殊优秀人才之奖励经费的支持(补助文号:国科会101年7月30日台会综二字第1010050707号函)。参考文献

教育部统计处.(2012).2012年08月01日,取自http://www.edu.tw/statistics/content.aspx?site_content_sn=8956.

余民宁.(1991a).测验理论的发展趋势.测验与辅导,109,2186-2188.

余民宁.(1991b).试题反应理论的介绍(一)——测验理论的发展趋势.研习信息,8(6),13-18.余民宁.(1992).测验理论的发展趋势.国立政治大学心理学系研究所承办“心理测验之学术及实务研讨会”的学术会议论文宣读.台北:国立政治大学.

余民宁.(1997).教育测验与评量:成就测验与教学评量.台北:心理.

余民宁.(2002).教育测验与评量:成就测验与教学评量(第二版).台北:心理.

余民宁.(2004).从调查数据回顾基本学力测验的实施.中国测验学会主办“2004年年会暨教育与心理测验学术研讨会”木铎奖得主专题演讲及论文宣读.

余民宁.(2009).试题反应理论(IRT)及其应用.台北:心理.

余民宁,韩佩华.(2009).教学方式对数学学习兴趣与数学成就之影响:以TIMSS 2003台湾资料为例.测验学刊,56(1),19-48.

余民宁.(2011).教育测验与评量:成就测验与教学评量(第三版).台北:心理.

Brennan,R.L.(2006).Educational measurement(4th ed.).Washington,DC:American Council on Education.

Cronbach,L.J.,Gleser,G.C.,Nanda,H.,& Rajaratnam,N.(1972).The dependability of behavioral measures:Theory of generalizability for scores and profiles.New York:John Wiley & Sons.

Gulliksen,H.(1987).Theory of mental test.Hillsdale,NJ:Lawrence Erlbaum Associates.(Originally published in 1950 by New York:John Wiley & Sons)

Linn,R.L.(1989).Educational measurement(3rd ed.).New York:Macmillan.

Lord,F.M.(1980).Applications of item response theory to practical testing problems.Hillsdale,NJ:Lawrence Erlbaum Associates.

Mullis,I.V.S.,Martin,M.O.,Gonzales,E.J.,& Chrostowski,S.J.(2004).TIMSS 2003 international mathematics report:Findings from IEA’s Trends in International Mathematics and Science Study at the fourth and eight grades.Chestnut Hill,MA:Boston College.

Review and Expectation of Psychometrics Literatures in Taiwan from 1911 to 2011

Yu Min-Ning Chen Po-Lin Syu Jia-Jia Chao Pei-Ching

(Department of Education,National Chengchi University,Taiwan 11605)

Abstract:The purpose of this paper is to review the developing trend of psychometrics literatures in Taiwan from 1911 to 2011.Besides,it is also to look forward to seeing future development through analyzing,disclosing,and expecting the test reform occurred in Taiwan.

Key words:psychometrics;item response theory;testing and assessment;testing and statistics

上一篇:《可能性》教学设计与说明 下一篇:浅谈以问题为核心的数学课堂教学