主观考试信度的计算方法

时间:2022-09-15 06:48:29

主观考试信度的计算方法

摘要: 信度是衡量考试质量的重要指标之一,由于主观考试受评分员因素的影响很大,因此其信度研究备受测量界的关注。本文主要介绍了几种主观考试信度的计算方法及其适用范围,以帮助测量使用者根据需要更好地选择使用。

关键词: 主观考试信度 评分员信度 计算方法

考试从其本质来说是一种测量工具,用来考查被试的某种知识和能力。按照评分方法,考试可分为主观考试和客观考试。主观考试是指在评分过程中需要评分员根据评分标准作出判断的考试,作文、口语、听写等开放式反应项目都是典型的主观考试。主观试题由于能提供更多有关被试的信息,因此应用范围越来越广,但由于评分员的评分存在差异,有关主观考试信度的研究一直倍受测量界广泛的关注。不论采用哪种形式,不论使用什么样的操作程序,对主观考试信度作出最终评价的依据总是某种形式的数字,因此,本文主要探讨几种主观考试信度的计算方法。

1.主观考试信度

由于主观考试无固定答案,评分时,评分员需根据评分标准作出自己的判断,因而评分受评分员主观因素的影响很大,评分员给出的分数并不总是稳定的。因此,主观考试的信度主要指评分员信度或评分员一致性。评分员信度又可分为评分员间信度和评分员内信度。评分员间信度指两名或两名以上评分员对相同试卷评分取得的一致性;评分员内信度指同一评分员在不同的时间对相同试卷评分所取得的一致性。

2.经典测量理论(CTT)计算评分员信度的方法

经典测量理论有以下几种方法计算主观考试信度。

2.1斯皮尔曼-布朗估计法(Spearman-Brown Prophecy Formula)

主观考试一般由两名或两名以上的评分员进行独立评分,其评分信度可用计算这几名评分员评分的相关来表示。其公式如下:

2.2积差相关估计法

如果两名评分员都以原始分数评分,其评分信度可用积差相关系数表示。其计算公式(张凯,2002)为:

2.3等级相关估计法

如果两名评分员以等级分数评分,其评分信度可用等级相关系数表示。其计算公式为:

2.4肯德尔(Kandall)和谐系数估计法

当两名以上(K名)评分员以等级分数评分,其评分信度可用肯德尔等级相关系数表示。其计算公式(张厚粲,徐建平,2003)为:

评分之和的平方和。

2.5 α系数估计法

当两名以上(K名)评分员采用连续评分时,其评分信度还可用α系数表示。其计算公式(王孝玲,2004)为:

3.概化理论计算主观考试信度的方法

由于经典测量理论不能从多方面考查影响被试语言表现的误差来源,当测量涉及较多侧面时,其测量误差的估计方法有重大缺陷。如评分者信度、测量结果跨时间的稳定性系数、跨不同测验版本的等值复本信度等都需要分开逐个处理(杨志明、张雷,2003)。从上文我们也可以看出,考查评分员信度的方法只是求两个或多个评分员独立评分的相关。但相关法并不一定能提供证据证实变量之间的概念关系,完全不相同、不相关的概念也可能具有很高的正相关(Jackson & Maraun,1996)。因此,用相关法考查评分员信度,无法估计评分员的系统误差。但在CTT基础上发展起来的概化理论(generalizability theory,GT)则不存在类似的问题,它通过引进方差分析技术可以将测验总误差分解,因而可以详细地探讨分数总误差的来源,分析不同来源的误差在总误差中的大小(杨志明、张雷,2003),从而估计不同的误差对测验分数的影响(Brennan,2001),比如估计评分员评分变异对被试分数变异的影响,这些都是对分数作出正确解释的基础。

这里我们主要介绍基于概化理论的Longford(1995)评分员信度估计方法。

部分实现。评分时,不同评分员的个体特征如年龄、性别、经验、个人喜好等会导致他们对同一篇作文的评分有所不同,评分员的一些临时状态,如情绪波动、外界环境影响、疲劳程度等也会影响评分的准确性。考虑到这些因素,Longford提出了一个基本的加法模型来表示被试的观测分数:

也叫残项(residual terms)。它指除了评分员严厉度以外的任何影响评分差异的因素。

将影响被试能力的误差总来源分解后,评分员间信度可以用不同评分员给同一篇作文所评分数的方差来表示,其公式为:

如果同一名评分员对同一篇作文进行两次独立的评分,那么,其评分员内信度也可用他两次评分的方差来表示:

另一种估计评分员信度的方法是计算评分员评分的均方误差MSE。MSE越小,评分信度越高。如果对同一篇作文评4.结语

在计算评分员信度时,对于相同的材料,我们可以采用不同的算法。本文介绍了经典测量理论中几种有关评分员信度的估计方法,以及一种新的Longford计算评分员信度的方法。Longford方法能分解评分总误差,探讨不同的误差来源,但由于没有现成的计算软件,运用该方法需要评分员自己编制运行程序,因而对评分员提出了更高的技术要求。虽然经典测量理论越来越受到测量界的批评,人们也在不断地研发和尝试新的方法以代替经典测量理论中估计评分员信度的方法,但其计算方法相对而言还是要简单得多。在新的测量技术和方法得到推广之前,经典测量理论仍将被继续使用。我们也期待既有理论上的突破,计算的误差更小,评分员信度更高,又运行简便的方法早日问世。

参考文献:

[1]Brennan,R.L.Generalizability theory[M].New York:Springer-Verlag Inc,2001.

[2]Henning,G.语言测试指南:发展、评估与研究[M].北京:外语教学与研究出版社,2001.

[3]Jackson & Maraun.The conceptual validity of empirical scale construction:the case of sensation seeking scale[J]. Personality and Individual Differences,1996,(21),1.

[4]Longford,T.Models for Uncertainty in Educational Testing[M].New York:Springer-Verlag New York,Inc.,1995.

[5]王孝玲.教育测量[M].上海:华东师范大学出版社,2004.

[6]杨志明,张雷.测评的概化理论及其应用[M].北京:教育科学出版社,2003.

[7]张厚粲,徐建平.现代心理与教育统计学[M].北京:北京师范大学出版社,2003.

[8]张凯.语言测试理论与实践[M].北京:北京语言大学出版社,2002.

校级科研课题:项目编号SK0746

本文为全文原貌 未安装PDF浏览器用户请先下载安装 原版全文

上一篇:新课程背景下江苏高考历史命题趋势及备考策略 下一篇:超声波的特性应用