高校考试形式改革:从纸笔测验到计算机自适应测验

时间:2022-08-06 02:56:09

高校考试形式改革:从纸笔测验到计算机自适应测验

摘要: 本文介绍了当前国内外采用的考试形式,国外以自适应测验为主,国内以纸笔测验为主。计算机自适应测验相对于纸笔测验有很多优点,其中最重要的是自适应测验的测验结果在不同测验中具有可比性、有基于认知诊断的自适应测验,而纸笔测验不能提供被试测验进一步的信息。自适应测验是未来测验的发展方向。

关键词: 高校考试形式 改革 计算机自适应测验

一、概述

在美国的教育测试中,计算机自适应测验(Computerized Adaptive Testing,CAT)已经得到了普遍应用。大型计算机自适应测验的具体实例包括美国研究生院入学测验(GRE)、美国商学院研究生招生测验(GMAT)、美国护士执照测验、美国军事职业倾向测试(ASVAB)等。计算机自适应测验的理论经过几十年的发展,也日趋成熟。而在我国计算机自适应测验基本上还处于研究阶段,大部分行业使用的还是纸笔测验,这里面有客观原因,也有主观原因。

计算机自适应测验与传统纸笔测验(Paper and Pencil Testing,PPT)截然不同。参加计算机自适应测验,相当于给每位被试一份独特的试卷。而在传统纸笔测验的模式下,每个人答的都是同样的一套项目。事实上,计算机自适应测验的主要目的就是要为每一位被试量身打造一份试卷,从而对被试的水平(θ)进行更变精确的测度。具体的做法就是依据被试的答题情况,从题库里连续选取最接近被试实际水平的项目让其作答。换句话说,项目难度是与被试的能力水平(θ)相匹配的。这样一来,水平较高的被试就不必回答过多的简单考题,而水平相对较低的被试也不必回答太多难题。因此,计算机自适应测验能通过较少的考题就对被试的水平(θ)做出更加有效的测度[1]。这是它较之传统纸笔测验的优势之一。

近几年来,随着认知诊断(Cognitive Diagnosis,CD)[2]理论的兴起,计算机自适应测验有了新的发展,出现了带认知诊断功能的自适应测验[3]。广义的认知诊断是指建立起观察分数和被试的内部认知特征之间的关系。这种认知诊断既包括在心理学理论建构中的应用,也包括在教育教学领域中的应用[4]。认知诊断理论被视为新一代的心理与教育测量理论的核心,认知心理学与心理测量学是实现认知诊断的两大基础。认知诊断的一个非常重要的任务就是对被试按照其细粒度的知识掌握情况进行分类。具有认知诊断功能的自适应测验是未来测验的发展方向。

二、传统的纸笔测验存在的问题

我国自古就用考试来选拔人才,一直发展到今天,已经形成了一整套完整的理论。目前纸笔测验在我国还十分流行,主要是因为纸笔考试在国人心里已经根深蒂固,并且有完善的考试制度和机构。

传统的纸笔考试采用纸和笔的形式,应试人员利用笔在纸质试卷上作答。传统考试思想是面向试卷,或者说是面向试题的。在这种考试中,每次考试以固定的考题考核每个考生,考试考卷单一,出题方便,对于每个考生而言,题目中只有一部分是符合自己真正能力的,其余的题目要么简单,要么过难。所测出的被试水平的准确性受到怀疑。并且对同一个被试来说,两次不同的考试之间基本上没有可比性。

随着计算机技术和考试理论的发展,纸笔测验已经越来越不能满足要求了,主要表现在以下几个方面:考查的项目较多;考试时间必须固定;数据分析十分不方便;不同测验的测验分数没有可比性;不能提供被试更具体的知识掌握情况;由于被试笔迹等导致的测验误差较大;阅卷不方便,效率不高,导致测验结果公布不及时。

三、计算机自适应测验

计算机自适应测验是相对于传统的纸笔考试及基于计算机的测验(CBT)来说的,它与传统的纸笔考试截然不同,参加计算机自适应测验,相当于给每位被试一份独特的试卷。计算机自适应测验的好处也正在于此,计算机自适应测验的主要目的就是要为每位考生(被试)量身打造一份试卷,真正做到“因人而异”。它像“因材施教”那样“因人施测”,高能力水平的被试作答难度大的试题,低水平被试作答容易的项目,不同能力水平的被试作答不同难度的项目,从而对被试的能力水平进行更为精确的测量,真正开创了测验领域的新天地。而在传统的纸笔考试模式下,每个考生答的都是同样的一套试题(也称项目),是一种“千人一卷”的模式,没有针对被试的水平来设计测验,测验的效率较低。

计算机自适应测验的理论基础是项目反应理论(Item Response Theory,IRT)。项目反应理论是一种新兴的心理与教育测验理论,是在分析与克服经典测验理论(Classical Test Theory,CTT)的局限性的基础上发展起来的[5]。CAT是建立在IRT基础上的,从题库的建设、参数的估计、项目的选择再到最后的评分,都是以IRT为指导进行的,可以说IRT是CAT的核心,甚至有人说,计算机加上IRT就是CAT。基于IRT的测验模型称为IRT模型。IRT模型是一种数学模型,定义了被试对项目的作答反应和潜在能力特质之间的关系。IRT的模型有很多,可在实际需要的时候选择最合适的模型。计算机自适应测验利用了最先进的工具:计算机,因此,自适应测验的优点大多和计算机有关,比如:实时阅卷,被试当时就可以知道测验成绩;被试测验数据分析方便;测验长度较短,测验误差小;由于被试能力与项目难度是定义在同一个量表上,因此测验成绩具有可比性,等等。

认知诊断研究是近年来发展迅速的一个方向。具有认知诊断功能的自适应测验是未来测验的发展方向,因为它不但提供被试的测验分数,而且提供被试详细的知识掌握情况,为教师的教学提供指导,也为学生今后的学习提供参考。

四、高校考试形式的改革势在必行

目前,我国各高校里采取的考试形式主要是纸笔考试的形式,前面已经谈到,纸笔测验有很多缺点,并且纸笔测验不能很好地保证测验的公平性,同一被试不同测验的测验分数没有可比性,纸笔测验不能提供认知诊断功能,这些都是造成纸笔测验逐渐被自适应测验所取代的原因。计算机在我国已经平民化,已经有了实行计算机自适应测验的物质基础。随着计算机技术和考试理论的发展,高校考试形式有必要进行改革――实行计算机自适应测验,并且将来实行带认知诊断功能的自适应测验。当然,进行大规模考试形式的改革必须有相应的国家政策支持,出台相关的文件。我国的大学生英语四、六级测验有望率先实行自适应测验,相信在不远的将来,自适应测验在我国将蓬勃发展。

参考文献:

[1]Weiss,D.J.Improving measurement quality and efficiency with adaptive testing.Applied Psychological Measurement[J].1982,(6):473-492.

[2]Jacqueline Leighton,Mark Gierl.Cognitive Diagnostic Assessment for Education:Theory and Application[M].2007.

[3]林海菁.具有认知诊断功能的CAT的研究与实现[D].江西师范大学硕士论文,2005.

[4]刘声涛,戴海崎,周骏.新一代测验理论――认知诊断理论的源起与特征.心理学探新[J].2006,(4):73-77.

[5]漆书青,戴海崎,丁树良.现代教育与心理测量学原理[M].高等教育出版社,2002.

上一篇:试题信息该带学生走向何方 下一篇:职业院校英语后进生成因分析及对策