基于数理统计的试卷质量分析

时间:2022-02-28 12:56:38

基于数理统计的试卷质量分析

摘 要: 试卷质量对反映教师的教学水平,以及学生对知识技能的掌握程度具有重要的意义,选择科学的试卷质量测评方法是有效地分析试卷质量的关键。本文运用数理统计的方法对试卷质量进行分析,通过对原始分数的处理和解释,力求能对试卷的质量作出较科学的比较和评价。其中包括对试题的项目分析,试卷的难度、区分度和总体分析,着重分析了试卷的信度和频数分布。

关键词: 试卷质量 数理统计法 分析

考试是教学工作中的一个重要环节,通过考试教师既能了解学生的学习效果与教学效果,又能为教学管理提供信息和依据。在考试结束以后,教师对试卷进行分析,不但可以对试卷和考试作出适当的评价,为试卷的编制积累经验,提高编制试卷水平,为修改试题和给题库遴选试题提供依据,而且有助于充分地获得考试提供的教学反馈信息,为改进教学提供依据,为考试讲评准备材料。因此,对试卷质量的检测与分析,是教学管理不可忽视的课题。本文根据教育测量学的有关理论,运用数理统计法对试卷质量进行了分析。

1.项目分析

项目分析就是根据试测结果对组成测验的各个题目(项目)进行分析,从而评价题目质量,对题目进行筛选。

项目分析的目的是对考试结果进行统计分析,估计试题的难度、区分度。

1.1试题的难度分析

试题的难度是表示试题难易程度的指标。在能力测验中,需要一个能够反映难度水平的指标,通常用P来表示,其计算方法是以学生答对某题的比率来进行的。一般试题可分为两种情况:像选择题、填空题这样只有答对和答错两种情况的,我们不妨称其为二值题;还有像计算题及证明题这类需要分步得分的试题,我们可以称其为多值题。这两种试题的难度计算方法如下表:

值得注意的是,这样算出的难度是得分率难度,越容易的题“难度”越大。对难度的评价可见下表:

一般来说,试题的P值应以0.2―0.8为宜。由于P值无等距性,因此无法对试题的难度差异作精确比较,也不能用于计算平均难度,为了对各试题作比较,通常要把P值转换成标准难度Z,使之等距化。设U为与答错率Q(Q=1-P)相对应的标准分数,标准难度的计算公式是:Z=4U+13。具体做法如下:

1)求出试题的答错率Q。

2)由Q值对照“正态分布函数表”,查出Q对应的标准分数U。

3)将查到的数据带入Z公式计算。

当P>0.5,Q<0.5,U<0,则Z<13;当P=0.5,Q=0.5,U=0,则Z=13;当P<0.5,Q>0.5,U>0,则Z>13。当Z=13时,试题的难度属于中等水平。

1.2试题的区分度分析

试题的区分度也是评估试题质量的重要指标,通常用D来表示。考试的目的是为了将不同知识和能力水平的考生加以区分,每一试题都对考生有所区分,试题的区分度正反映了这种区分能力的大小。区分度高的试题能将不同水平的考生区分开来,也就是说,试题的区分度高,水平较高(总分较高)的考生该题的得分也较高;反之,区分度低的试题不能对考生进行很好的鉴别,使得水平高和水平低的考生得分差不多。因此,区分度的高低意味着试题对于学生能力的强弱是否能很好地鉴别。在实际教学中,两端分组法是一种简单普遍的求区分度法,它把总人数分出高分组和低分组(比例各占25%―33%),其计算方法见下表:

除了两端分组法之外,通常还可以采用弗拉南根查表法:根据占总人数27%的高分组的答对率P和占总人数27%的底分组的答对率P,从专门的表中查得题目的区分度。

例如对某一题,高分组的答对率为94%,低分组的答对率为70%,那么,由弗拉南根查表可查得,其区分度为0.4。

对区分度的评价见下表:

一般来说,当D<0.20时,试题的区分度太低,必须淘汰或加以修改;当D≥0.40时,试题的区分度就非常好;通常试题的区分度在0.2―0.4之间。影响区分度的因素较多,其中最主要的是难度。难度太大或者太小,都可能使区分度变小;只有难度适中时,才可能有较高的区分度。

2.总体分析

试卷的质量不仅与试题的质量有关,而且与试题的选取、编制等因素有关。通常可用信度、考生成绩的统计分布状态来反映试卷的总体质量。

2.1试卷的信度分析

测验和考试是测量受试者知识、能力、技能等方面的重要手段。凡测量必有一定的误差,而误差的大小,决定了测量结果的可信程度。如果误差超出了规定的范围,测量的结果就不可信了。试卷的信度就是衡量试卷可信程度的指标。如果用同一试卷测验同一组学生,几次测试的分数相差悬殊,那么这份试卷的信度就低;相反,如果几次测量的分数相差甚微,那么,这份试卷的信度就高。试卷的信度有再测信度、等值复本信度和分半信度,下面我们逐一来看。

2.1.1再测信度

用同一份试卷相隔若干天后对同一组学生重测,计算两次测试分数之间的相关系数,即得再测信度。再测信度能够提供关于试卷的测量结果是否随时间变化的信息。两次测验分数的差异主要来自测验条件与受测者身心状况的变化。再测信度高,说明试卷受学生状况和测验环境变化的影响小,可以认为该试卷是稳定的。但再测信度容易受到记忆的影响,所以,前后两次施测的时间要适当。间隔时间太短,学生对第一次测验记忆犹新;间隔时间太长,则学生的身心发展与教学效果等足以改变测验分数的意义,所以,前后两次施测的时间要适当。

2.1.2等值复本信度

用两份等值平行的试卷测量同一组学生,再求得两次测验的相关系数,就得到等值复本信度。当两次测验同时连续施测时(为了抵消施测顺序的影响,可以使半数学生先做A卷后做B卷,使另一半学生先做B卷后做A卷),两份试卷分数的差异主要来自于两份试卷在取样上的差别,即两份试卷的等值程度。如果两份试卷在不同的时间施测,则分数的差异与两份试卷的稳定性和等值性都有关系,这时所得的信度称为再测等值复本信度。等值复本信度的局限在于,由于复本之间的相似性,记忆的影响仍然不能完全消除,而且编制两份完全等值的试卷也比较困难。

2.1.3分半信度

在测验没有复本且只能实施一次的情况下,可将一张试卷分成难度、题型、分值完全对等的两部分,两部分得分的相关系数即为分半信度。计算分半信度先要对试卷分半,不同的分半法可能会得到不同的信度值,为了使两半基本等值,可将试题按由易到难的顺序编号,然后按奇数和偶数序号将试题分半。由于分半信度实际上是半张试卷的信度,试卷越长,试题越多,两半分数的相关系数就越高,所以要用斯皮尔曼―布朗(Spearman-Brown)公式对信度值进行校正:试中r1为两半分数的相关系数,r为校正后的分半信度。

现将信度估计的几种方法在下表小结:

影响信度的因素有很多,比如测验长度(测验越长,题量越大,信度越高)、试题难度(难度为中等,有利于提高试卷信度)、样本大小(样本越大,分数分布越广,信度越高)、试卷内容的复杂性(试卷内容同质性高,信度也高;试卷内容越庞杂,信度就越低)等。还有,学生参加测验时的情绪状态也会对测验结果产生不同影响,所以试卷的信度不会达到1,但是,高质量的试卷可以最大限度地减少误差,从而提高信度。

2.2试卷成绩的频数分布分析

频数分布分析主要通过频数分布曲线以及集中量数和差异量数来描述数据的分布特征。下面介绍它们的意义和优缺点,以利于试卷质量分析的普及和推广。

2.2.1分数的频数分布曲线

根据统计学的中心分布定理,只要考生足够多,他们的水平一般应接近正态分布。判断考试成绩是否近似正态分布,最直观和最有效的方法是作出考试成绩的频数分布曲线,看其是否接近正态。具体做法如下:

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

A.将成绩按百分制划分为十个分数段(一般将5分作为一个分数段)。

B.在全部分数中确定各分数段人数。

C.分数为横坐标,各个分数段的实际人数为纵坐标,建立坐标系。

D.描点、作图。(如果90―100有6人,则可在坐标系中作出点(95,6))

E.将诸点连成光滑曲线即得成绩分布曲线。

F.观察分布曲线是否为正态。

依上法作出的曲线若为正态分布曲线,则成绩统计分布较为正常。但如需深入了解和准确描述分数分布的特征,则必须进一步整理出原始分数并计算出描述分数分布特征的各种统计量数。

2.2.2集中量数

集中量数是描述一批分数的集中趋势的量数。集中量数可用于参加同一考试的不同班级之间的比较。集中量数包括有平均数、中数和众数。

平均数就是平均分,即原始数据的算术平均数。均数具有严密、可靠、容易计算的特点,其缺点是易受极端数据的影响,从而所损害其代表性。

中数,是指把所有考生从高到底排序时,处于之间位置上的那个分数(如果考生人数为偶数,那么中数取处于中间两个数的平均值)。中数具有意义明确,不受极端数据影响的优点。当均数由于极端数据的存在而失去代表性时,中数可以作为这批数据的代表数值。中数的缺点是缺乏灵敏性,不如均数可靠,不能用代数方法计算。

众数是原始分数中出现次数最多的分数。它只有在考生人数较多,且有明显集中趋势时才有意义。在考生人数较少的情况下,可能会没有众数,也可能会出现两个或两个以上的众数。然而,这些情况出现的几率会随着考生人数的增加而减少。众数的特点是用频数的多少来反映集中趋势,不受极端数据的影响,其频数在总体中所占地比重越大,其代表性也就越强;其缺点是在反映集中趋势上不如均数可靠,而且不能用代数方法准确计算。

2.2.3差异量数

差异量数是描述一批分数的差异程度或离散趋势的统计量数。集中量数是一个点,表示各分数围绕该点而分布;差异量数则是一段距离,表示各分数与某一量数或与中心点间相差的统计距离。只有知道了差异量数,才能了解集中量数的代表性。差异量数越小,集中量数的代表性就越大,反之亦然。差异量数包括有极差和标准差。

极差是包含全部分数在内的最小区间长度,即一批分数中最高分数与最低分数之差。极差在一定程度上反映了这批学生在学业上的最大差异。因此,如果最高分等于满分,或者最低分为零分,又或者两者同时成立,则表明这份试卷无法测出考生水平的最大差距。要适当调整部分试题的难度,才能测出考生真正的极差。极差具有计算简单,意义明确的优点,其缺点是完全取决于最高和最低这两个极端分数,而没有反映出处于两者之间的各分数的差异情况,因此,用它来描述离散趋势的代表性是不合适的。

标准差也被称为方差,是最为常用的、非常优良的差异量数。它是一批分数中每个分数与均数之差的平方和。如果极差和标准差都很小,有两种情况:第一,它表明考生水平接近既没有拔尖的,也没有太差的;第二,表明这份试卷未能测量出学生在该学科水平上的实际差距。一般对于有数十或更多人参加的考试,第一种情况是十分罕见的。因此,若发现差异量数过小,首先应从试卷上找原因,调整试卷的难度。如果极差和标准差都很大,就表明学生的发展不平衡,水平较高和水平较低的考生为数不少,相对而言,处于均数(平均分)附近的考生较少,这时要注重对落后学生的培养。

通过对试卷的分析,从而发现教师、学生与命题等方面的成功与不足之处,并针对存在问题提出改进意见,提高教学效率,这也是本文的目的。

参考文献:

[1]魏宗舒.概率论与数理统计教程.北京:高等教育出版社,1983年10月第一版.

[2]沈永欢,梁在中,许履瑚.实用数学手册.北京:科学出版社,1992年8月第一版.

[3]刘锦萼,杨喜寿,俞纯权,房俊岭.概率论与数理统计.北京:科学出版社,2001年8月第一版.

[4][美]M.R.斯皮格尔,J.希勒,R.J.斯里尼瓦桑著.孙山译.概率与统计.北京:科学出版社,2002年第一版.

[5]潘承毅,何迎晖.数理统计的原理与方法.上海:同济大学出版社,1993年10月第一版.

[6]王孝玲.教育统计学.上海:华东师范大学出版社,1986年.

[7]夏阳.试卷质量分析初探.www.省略.

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

上一篇:二本院校艺术\体育类专业期末试题统计分析 下一篇:英语应用能力考试解题技巧