考试质量分析总结范文

时间:2023-11-28 04:47:19

考试质量分析总结

考试质量分析总结篇1

[关键词]考试结果分析 教学管理 教学质量

现代教育理论认为,教学效果的反馈是提高教学质量的关键。课程考试是对课程教学效果进行测量与评价的重要手段,课程考试的结果蕴含着大量有用信息。因此,运用考试理论和教学理论进行科学的试卷分析,为改进教学工作、提高教学质量提供反馈信息是教师必须认真完成的一项重要任务。规范试卷分析工作,强化教学质量管理,也是学校教学管理部门的一项重要职责。认清试卷分析的作用和意义,明确试卷分析的内容和要求,对于完善教学管理、提高教学质量有着十分重要的意义。在当前高等职业教育发展由规模扩张向以提升质量为核心的内涵建设转变的过程中,如何加强试卷分析、完善教学效果的反馈与控制,也是一项重要课题。

一、试卷分析的作用与意义

考试目前仍是评价学生学习成绩和检验教学质量的一个重要手段,考试对教与学有着巨大的指挥作用。在日常教学的考试中,不少教师往往只满足于评分,而忽略了正确地分析解释考试分数及卷面得失状况,以致丢失大量有益于改进教学、有利于改进考试的信息,造成考试的功效大打折扣,对教学的反馈控制出现断裂,可谓功亏一篑。学校的管理部门如果忽视了对试卷分析的要求与管理,则在教学质量管理过程中会出现职能缺失。

考试应当在某种意义上评价着教育目的的实现程度,判定着教学效果的好坏,客观地向教与学双方提供反馈信息。

对于教师,考试的意义在于通过对学生学习质量的测量和评价来检查教师的教学效果,从而改进和调节今后的“教”。

对于学生,考试是对其学习质量的评价尺度,同时也是学生自我评价的基本指标。考试对于学生的学习积极性、学习方法、思维方法及发展方向等方面都有很强的引导作用。

考试为教学提供反馈信息,从而成为既是指导控制教学过程的手段,也是促进学生发展的手段。应该强调的是,考试的上述功能必须以测量的客观性、正确性为前提。要充分发挥考试的积极作用,不断提高考试的客观正确性,必须认真做好试卷分析工作。

在试卷分析工作中,运用考试理论和教学理论,对考试结果进行分析研究,可以从中挖掘整理有用信息,用于促进我们对教学过程的反思,进而找到下一步工作的方向和改进的措施。通过试卷分析对教师的“教”进行反思,从考试结果反思整个教学的得失,教学目标实现的状况,教学设计的成功与缺陷,教学过程的薄弱环节等等。通过试卷分析对学生的“学”进行反思,从考试结果明确学生的基础和能力的状况,学生的学习特点和规律。

在试卷分析工作中,运用考试理论和教学理论,对考试结果进行分析研究,还可以检验命题和考试本身的质量,采用的测量工具、测量方法和测量过程是否合适,考试的效度和信度是否足够高,试卷命题的结构、份量、难度和区分度是否恰当。从中可以得出今后改进考试和试卷命题质量的观点和建议。

试卷分析不是可有可无,不是走形式,而是完整的考试环节的内在要求和必备内容。通过对试卷的定量统计与定性分析,一方面对该课程教与学的效果进行分析和判断,发现“教”与“学”方面存在的问题,提出改进教学的意见和建议,不断提高教学质量;另一方面对试卷质量做出科学鉴定和总结,检测试卷能否真正达到考核目的,命题是否与人才培养目标及课程的要求相符合。学校相关部门也可通过试卷分析报告全面掌握学校教风、学风和教学质量的现状。因此,试卷分析是学校教学质量管理工作的重要环节,对于指导教学工作、提高教学质量有着十分重要的意义。

二、试卷分析的内容与要求

1.课程考试基本情况说明

(1)考试类型

主要包括:考试、考查;开卷、闭卷;笔试、口试、操作考试;考教分离;年级统考、全院统考、校际统考等。

(2)命题方式

主要包括:任课教师命题、他人命题、试题库出题等。

(3)阅卷形式

主要包括:本人阅卷,他人阅卷,多人阅卷,流水阅卷等。

2.试卷命题质量分析

(1)试题有无错误,将错误之处列举。

(2)试题的覆盖面分析。分析考试内容覆盖课程章节的比重与教学大纲或考核大纲的要求是否一致,是否合理。

(3)试题的难易度分析。质量好的试题应当难度适中并能较好地区分应试者知识能力的不同水平。

3.学生考试结果分析

(1)从各个分数段学生人数分布情况看成绩是否符合正态分布规律,如不符合,分析其原因。

(2)分析学生对知识点的掌握情况,对于学生失分较多的题目和失分较少的题目,分析其原因。

4.对该门课程教学及考核的建议

由任课教师根据期末考试情况,总结教与学、考试命题和阅卷评分过程中存在的问题及有待改进之处,重点提出。

(1)教师在今后教学中应注意的问题及需要改进和加强的方面。

(2)教师对学生学习该门课程应加强哪些方面进行引导和指导。

(3)教师在今后命题过程中应注意的问题,有什么意见和建议。

三、试卷分析常用的定量指标

在试卷分析中,定量统计用到的指标有:每个考生的总分和标准分,试卷的平均分、最高分、最低分、标准差、全距、组数、组距、及格人数、不及格人数、优秀人数、及格率、不及格率、优秀率、信度指数、效度指数、试题的难度系数和区分度系数等。现择其中几个解释如下。

1.标准差。设有一组共n个数据χ1,χ2,…,χn,x是它们的平均值。称

(1)

为这n个数据的标准差。标准差是用来衡量一组数据波动程度的一个重要指标。若用χ1,χ2,…,χn,分别表示一个班级全部n个学生在一门课程考试中的成绩, x表示他们的平均成绩,则由(1)式计算得到的标准差反映这个班级n个学生在此门课程考试中成绩的波动情况。标准差从一个侧面反映考试试卷的水平。

2.难度系数。难度分析是对试题及试卷难易程度的分析,对应的难度系数是衡量试题和试卷质量的重要指标参数之一,其计算公式为:

难度系数 ,难度系数越高,说明试卷越难。

3.区分度系数。区分度反映试题区分不同水平受试者的程度,即对不同受试者的水平的鉴别程度,其计算公式为:

区分度系数= 高分组平均分-低平均分试券总分,

其中高分组指将班级学生按成绩从高往低排序后,前27%的那一部分;低分组指后27%的那一部分。

在试卷分析中,定量统计分析工作可以按照教育测量学的原理与要求,编制或采用现成的试卷分析软件,以便使试卷分析的定量统计分析工作变得快速、准确、便捷。

四、结束语

做好试卷分析,完善教学信息反馈,提高考试命题质量,使考试充分发挥促进学生学习和改进教学效果的作用,对于促进人才培养质量的不断提高,具有重要意义。教师及学校教学管理部门都应充分重视并认真做好。

参考文献

[1]袁振国.当代教育学.

[2] BS布卢姆.教育评价.

[3]黄河水利职业技术学院教务处.教师手册.

考试质量分析总结篇2

摘要:学生成绩分析是教师了解教学效果,了解学生对知识的掌握程度、试卷的难易程度与合理性的重要方法,通过成绩分析及时发现教学中存在的问题并及时改进,对于提高教师的教学水平,提升学生的学习效果都具有重要的意义。

关键词 :高职教育 成绩分析 学习质量

考试只是检查学习效果的手段,通过考试成绩可以了解学生对知识的掌握程度、学生的知识层次、整体水平。那么用什么方式能使学生的知识层次、知识结构能在后续教学中得到很好的调整?那就是成绩分析。

一、成绩分析的类型

一个完整的成绩分析包括学生的成绩单、成绩分布曲线图、试卷分析。成绩分析的类型主要有成绩分析系统软件、学校自主设计的成绩分析图表等。

二、成绩分析的作用

1.对学校的作用

通过不同专业课程的成绩分析、试卷分析,教学部门可以掌握各门课程的成绩分布情况、试卷的难易程度,了解当前的教学情况,以便教务管理部门能够更加准确地进行教学安排,促进教学质量的提高。

2.对教师的作用

(1)评估考试的质量。通过成绩分析能及时发现教学中存在的问题,成绩分析是为了评估考试的质量,评估考试的成绩是否可靠、是否达到考试大纲的要求,只有通过成绩分析才能够得到解决。

(2)提高试卷命题的质量。分析试卷能够为改进命题提供大量的信息。如成绩分布情况、试卷难易程度、试题的覆盖率、试卷题量的多少等内容,通过这些信息.教师可以了解本次试卷的结构是否需要改进,从而提高试卷质量。

(3)促进教学工作。学生成绩分析是任课教师对本课程的教学效果、教学内容、教学方法、学生学习情况、试卷难易度等进行的总结和分析。学生的试卷分析为教师的试卷命题提供了依据,成绩分析为教师的教学工作提供参考。在成绩分析中,通过成绩分布曲线,教师可以了解学生成绩分布情况,了解学生对于知识点的掌握程度,从而优化教学内容,改进教学方法。

3.对学生的作用

学生最关心的事莫过于考试成绩,通过试卷分析能反映出学生对知识点的理解、识记、综合运用等情况,发现学生在学习能力方面的差异状况与学习过程中存在的薄弱环节,为提高教学质量及时进行经验总结和分析,帮助教师提高专业水平,帮助学生提高学习能力。

4.对家庭的作用

学生的教育、成才需要学校、家庭、学生三者之间共同努力,密切配合才能完成。学校对学生进行引导、教育、培养;家庭需要在学校的指导下,对学生进行监督;学生则要配合学校与家庭的工作,完成自己人生世界观的形成以及职业能力的锻炼。

三、存在的问题

1.学生对于考试成绩认识不够

“及格万岁”是现在绝大部分高校学生对考试成绩的要求。学生缺乏学习的主动性,没有良好的学习习惯,对知识的重要性认识不够,最终导致学生在工作中知识欠缺。

2.缺乏完善的制度

成绩分析、试卷分析如何操作,教师只是按照自己的理解,各行其是,没有统一标准。因此,统计的结果可想而知。

3.对成绩分析不重视

部分教师对成绩分析走形式、走过场,甚至有些数字没有经过计算,只是估计,不能准确反映客观事实,造成错误的结果。

四、采取的措施

1.建立完善的制度

课程考试是检验教学质量和学生学习效果的重要方法之一,为了提高学生课程考试的质量,除了严格、科学、合理的命题,严格考场纪律外,考试成绩分析必须制定相应的制度,如课程考试中不同部分所占的比例、成绩分析的要求、不同科目考试的形式等内容。

2.建立健全的激励制度

如果没有科学、合理的激励制度,自然会影响到教师工作的积极性。现在大部分院校的课程考试都是考试结束这门课就结束了,至于考试的结果对于教学有什么影响、知识结构是否合理等问题,很少有人关注,因此,必须建立完善的激励措施,提高教师教学的积极性。

3.采用多种形式的成绩分析

—般的成绩分析,往往按照常规数据统计,按照平均分、分数段对各班各学科进行分析评价。实际上还应包括各班级各科优良率、及格率、标准分、标准差及差异系数,单科分析和多科总分分析,排名分布分析,个人名次等形式进行分析,以便更透彻地了解学生知识状况,为后续教学打好基础。

五、小结

教学质量是学校生存的基础,是衡量教学的重要标准。成绩分析是衡量教学质量好坏的重要标准,涉及学生、家长、教师多方面人员共同参与,因此,成绩分析应从深层次、多角度、多方面来分析。通过成绩分析客观地评估教与学的现状,肯定成绩的同时找出问题,并弄清问题产生的原因,制定出有效可行的改进措施,从而达到提高教学质量的目的。

考试质量分析总结篇3

关键词: 经典测量理论 信度 难度 区分度

一、引言

教育测量与评价是教育研究领域中重要的组成部分,是学科教学活动中科学管理的有效手段。《国家中长期教育改革和发展规划纲要(2010-2020年)》明确把提高教育质量作为教育改革发展的核心任务,并多次强调与教育质量的监测和评价相关的内容[1]。显然,在当前教育制度下,各种笔试仍是一种重要而有效的教育质量定量评价方式。试卷质量自然影响对教育质量的正确评价,因此,针对笔试试卷的质量分析显得尤为重要。

试卷质量的分析一般是利用经典教育测量理论(CTT: Classical Test Theory)和项目反应理论(IRT:Item Response Theory)进行分析。

经典测量理论又称为真分数理论,假定观察分数X与真分数T线性相关,即CTT的数学模型为X=T+E,其中,随机误差E服从均值为零的正态分布。该理论最重要的四个指标正是反应试卷是否真实可靠、准确有效、难易适中、鉴别力强的信度、效度、难度和区分度等测验质量指标[2]。当然,由于其比较依赖样本、信度估计精度不高、难度和被试水平没有定义在同一参照系上,同时,无法回答总分相同的考生的真实能力有无差异等问题,该理论也存在一定的局限性[3]。

项目反应理论是一种新兴的心理与教育测量理论。该理论的前提假设非常严格,主要包括单维性假设和局部独立性假设[4]。主要方法是在利用参数模型的基础上,利用项目特征曲线、试题信息函数进行探讨,同时利用EM算法,用边际极大似然估计方法寻找项目参数的一致估计[5]。

本文主要利用南宁市某中学2013年秋季学期数学期末考试成绩,在经典测量理论(CTT)范畴下探讨该次期末考试数学试卷的信度、效度、难度、区分度和成绩分布情况。通过试卷“四度一分布”了解试卷质量,并反馈教学效果情况。

二、基于CTT的试卷质量情况分析

1.成绩分布情况

一般而言,一份好的试卷考试的成绩都服从或近似服从正态分布,因此,考试成绩的正态性是考察试卷质量的一个首要指标。检验正态性的方法很多,常见的是利用直方图和卡方检验、K-S检验。从参加本次考试的872人中随机抽取387人的成绩进行检验,结果如图1所示:

图1 学生成绩的直方图

正态分布的K-S统计量显著性概率P值为0.095>0.05,因此,这次考试学生成绩服从正态分布。

2.信度

中学试卷中,选择题分数可简化为0,1得分情况来解释,解答题和填空题可以看成非0,1记分的项目。因此,选择题信度主要采用折半信度[斯皮尔曼-布朗(Spearman-Brown)公式、卢隆(Rulon)公式、弗拉纳根(Flanagan)公式]和库德-理查逊(Kuder-Richardson)信度(K-R20、K-R21公式)进行分析[7]。填空题和解答题为非0、1记分的项目,采用克龙巴赫系数进行统计,结果如表1所示。

表1 试卷信度分析结果

结果表明,每种方法计算的选择题信度都接近0.7,信度系数处于尚可使用范围之内。研究表明,对于标准化的大型测试题目信度要求一般要在0.9以上,而学校期末考试的信度在0.6以上即可接受[1]。选择题、解答题的克龙巴赫系数为0.905,可以认为填空题和解答题的信度非常好,综合考虑,试卷整体信度是可信的。

3.效度

效度(validity)是指测验结果的有效性或准确性,即通过测验能够正确测量出它所要测量的属性的程度[5]。测量的效度的种类很多,其中基于专家和教师对试题与所涉及的范围进行符合性判断的逻辑判断法的内容效度使用较多。内容效度是指测验内容对所要测验的全部内容的代表性程度。但一次考试很难包含学生所学课程的所有内容,因此只能选择具有代表性的试题进行考核,来了解学生的知识技能掌握情况[8]。

根据测量的目标与内容的双向细分表,经过该校7位一线数学教师(其中高级教师4位,中教一级2位,中教二级1位)不记名反馈信息来看,本次考试所设计的试题覆盖了所要测内容的主要方面,考查目标清晰明确,题型和分数结构合理恰当,总体符合考试大纲和教学要求。

4.难度

试题难度是反映考题难易程度的指标,一般而言是按照答对人数的百分比确定的,是衡量试卷质量的最主要的数量性指标,简单来说可以利用测验分数的分布情况和特征进行观测,例如考察测验分数的全距、零分、满分、众数、平均分数等相关指标进行定性的判断,也可以根据不同的情况,利用有关公示进行精确计算。

一般而言,难度的取值范围在[0,1]之间,取值越大,难度越小。难度在0.7以上的为比较容易的题,在0.4-0.7为中等难度的题,在0.4以下的则为较难的题或是难题。在实际教学中试卷难度水平的选择,应取决于测验的目的和试题的形式。如果测验是用于区分学生水平,那么应该将试题或试卷的难度系数控制在0.5左右,各试题难度值在0.2-0.8,同时各题平均难度值在0.5左右是比较适宜的[5]。

对于采用0,1记分的选择题,用通过率P、平衡猜测的校正公式CP和极端分组法计算各个试题的难度。

表2 选择题的难度

对于非0,1记分的填空题、解答题和总分,用难度系数和极端分组法计算各个项目的难度。

表3 填空题、解答题的难度

结果显示,就选择题而言,三种计算方法的计算的难度差异不大,整体趋势较一致,从三种公式的难度均值看,第1、2、5、6、7、8、9属于难度较小的题目,3、4、10、11、12属于难度中等偏上的题目,其中第4题难度最大,10,11,12三题难度也较大,选择题总体难度为0.767,属于比较容易,从试题编排上看,除个别题目外,整体趋势是容易的题型放在前面,中等难度试题放在题型中间,较难试题放在题型后面,较合理。

对填空题和解答题而言,题目难度显然大于选择题,填空题总体难度均值为0.499,难度中等,解答题总体难度均值为0,472,属于中等偏难程度,8道解答题的难易程度也和题目顺序基本一致,越难的题目越在后面,符合数学试卷的一般规律。

从考试成绩来看,难度系数为0.548,综合选择题、填空题、解答题三种类型的难度均值,整张试卷难度均值为0.579,和总分难度系数接近,因此,可以判定该份试卷总体难度适中。

5.区分度

区分度是反映试题效用的一个主要参数,同时也是试题对考生实际水平的鉴别能力,将不同层次的考生区分开来的统计量。若试题的测试结果是水平高的学生答对或者得高分,水平低的学生答错或者得低分,则认为试题的区分能力强。一般而言,区分度在0.4以上为最佳效果,在0.3~0.39为合格,修改会更好,在0.2~0.29为勉强,仍需耍修改,区分度在0.19以下为差,必须淘汰[6]。

对于0,1记分的选择题,利用极端分组法、点二列相关计算各个试题的区分度。

表4 选择题的区分度

对于连续记分的主观性试题填空题、解答题和总分,用极端分组法和相关法计算各个项目的区分度。

表5 填空题、解答题以及试卷的区分度

注:试卷区分度是将各题区分度进行加权平均计算的。

结果显示,对于选择题而言,总体看来,整个选择题中大部分题目的区分度都在0.4以上。通过极端分组法和点二列相关系数计算的区分度在大部分题目中相差不大。极个别题目有明显差异,主要在于两种方法考虑的视角不一致,就第1题而言,极端分组法的区分度指标0.093,是利用高分组和低分组之间差异进行计算的,两者差异很小,说明该题无论是高分组还是低分组都能完成,就区分能力而言属于应该淘汰的题目,但正是由于该题目在高低分组中完成率都较高,和总分的相关性自然就大,因此,点二列相关法计算出来该题的区分度较高。两种方法计算的试卷区分度均在0.6以上,说明该试卷区分能力强,区分效果佳。

三、有关结论

事实上,该次试卷为全市统一考试题目,从一定程度上说属于“较大的标准化”考试题目。从上述分析可知,本次考试成绩的分布直方图并未凸显畸形特征,基本上呈正态分布,单峰,稍微右偏。就四度而言,填空题、解答题的信度很好,但选择题的信度适中。常见的提高测验信度主要有以下方式:一是适当增加试题量;二是提高质量,试题难度要适中,区分度大;三是调整试题编排顺序,尽量做到先易后难。

测验的效度采用学科专家通过逻辑分析法进行分析的,根据测量的目标与内容的双向细分表,了解到试题覆盖了所要测内容的主要方面,考目标清晰明确,题型和分数结构合理恰当,总体符合考试大纲和教学要求。

试题的难度较合理,大部分选择题难度偏低,其中第4、10两题难度最大。而最后一道解答题的难度系数则过大。这和数学试卷利用最后一题作为压轴题有密切关系。

试题的区分度方面反应较好,但选择题第1、2题和解答题最后一道题在两种计算方法中差异很大。可能的原因在于第1、2题属于难度很低的送分题,因此区分度也不高,最后一道压轴题属于难度最大,很多学生放弃作答,因此存在这方面的问题。

四、结语

考试是衡量教学效果的必要手段。随着统计学及经济计量学边缘的不断扩张,对于教学结果的评价越来越依赖于科学的理论和方法。教育评价技术方法中教育测量理论就是应用教育统计学方法实现的,成为测评学生能力、考核教育效果的重要措施。利用SPSS测度考试的难易度、区分度、信度、效度等指标,不仅可以直观、便捷分析考试结果,发现考试中的重要信息和规律,还可以为教学效果评估提供重要的考核指标和模式。目前在教育教学及科研领域,人们采用科学的测评方法测度试卷科学性的尝试并不多,尤其是一些规模较小的考试,这不利于教学质量和教师素质的提高,亦不利于考试学研究者开启新的研究视域。应该加强对试卷科学化测度的研究及实践,使考试这一重要的教学环节日益走上科学化和规范化的轨道。

通过试卷质量分析,不仅可以了解试卷情况,更可以利用试卷科学性测评的方式了解教师的教学效果,同时也可以通过建立试题库、制定命题双向细目表等方式,提高试卷质量。

参考文献:

[1]《国家中长期教育改革和发展规划纲要》关注教育质量监测[N].基础教育质量监测信息简报,教育部基础教育质量监测中心,2010,1.

[2]郭熙汉,何穗,赵东方.教学评价与测量[M].武汉:武汉大学出版社,2008.

[3]杜洪飞.经典测量理论与项目反应理论的比较研究[J].社会心理科学,2006(6):15-17.

[4]Christine DeMars.Item Response Theory[M].London:Oxford University Press,2010.

[5]何穗,吴慧萍.基于教育测量理论的中学数学试卷质量评价研究[J].考试与招生,2012(08):49-53.

[6]Robert L.Ebel.Measuring Educational Achievement [M].Englewood Cliffs,N.J., Prentice-Hall,1965.

[7]吴慧萍.基于教育测量理论的中学数学试卷质量评价研究[D].华中师范大学硕士学位论文,2012.

考试质量分析总结篇4

【关键词】高考 体育测试 成绩 评析

青海省体育加试是根据“青海省普通高校体育专业招生体育考试评分标准与办法”中的考试要求与评分标准对考生进行考试。 体育加试的径赛项目使用手动计时器对其进行计时,而田赛项目则采用人工测量 。体育加试成绩数据是作者从青海省考试管理中心获取,分析青海省2007体育加试基本情况,对青海省体育加试考生进行全面了解,并试图发现体育加试过程中不足之处和存在的问题,为改进和完善我省高考体育测试工作提出一些可行的改进措施。

1研究对象与方法

1.1研究对象

2007 年我省实际参加高考体育测试的考生共 635 人,比去年增加了268人,增长36.6% (报名人数732人,缺考97人)。

1.2研究方法

采用SPSS统计分析对 2007 年青海省体育高考测试数据库中的报考人数、性别及测试成绩等进行统计分析并和近年青海省高考体育测试数据库进行比较。

2结果分析

2.1青海省体育加试考生报考情况分析

2.1.12007年青海省报考体育人数总数为732人,其中女生为 180人,男生为552人 ,比去年增加了268人,增长36.6%人。改革开放以来,国家经济取得突飞猛进的发展,而全民健身计划的实施,及体育相关娱乐活动的增加,学生课外体育运动的时间也增加了,学生身体素质增强,身体素质较好,使得近年报考体育的人数也逐渐增加。另外,近年来社会竞争越来越激烈,各方面素质要求的逐渐变高,报考体育同样增加了竞争的机会。

2.2青海省体育加试成绩的分布情况

2007年青海省体育加试的办法和往年大概相同,同样是考五个身体素质项目。总分为100 分, 每项满分 20 分; 女生考试平均总分X=67.56,S = 10.365。男生的平均总分为X=68.9,S =9.672;经t检验p > 0.05 ,这说明青海省体育加试男女生考试的标准是合理的。

五项测试的区分能力一般,因为区分度值在0.27-0.55之间,区分能力最好的是女子原地推铅球D值为0.55,区分能力最差的是男子800M跑的D值为0.27。五项测试的难度在0.15-0.24之间,其难度相对较小,男女难度相对大的是立定跳远,男女P值为0.24,难度最小是女子100M跑和男子原地推铅球。为何如此,笔者觉得: 从1986年开始青海省体育高考身体素质考试项目一直就是这五项,多数考生为应付考试,单独在这五项上下苦功夫,导致考试的难度降低,考生身体素质的全面发展在一定程度上受到了限制。体育专业的考生高考时文化课水平要求较低,许多考生看考好学校无望,文化课又还可以就“半路出家”,转为训练体育能让自己考上一个不错的学校。文化素质的提高对体育教育专业考生是极其有利的,可是也有一些弊病,专业素质较差的考生,在专业素质方面是个严峻的考验。

反映考生力量素质的项目是原地推铅球项目,女生为11.32,男生平均得分为11.5,通过t检验进行显著性检验,显著性差异p

反映考生速度耐力的项目是800Μ项目,女生为11.2,男生平均得分为12.63,采用t检验进行显著性检验,显著性差异p

反映考生速度素质的重要项目是100Μ跑项目,女生为12.65,男生平均得分为10.51,通过t检验方法进行显著性检验,显著性差异p

反映考生灵敏素质的重要项目是5Μ三向折回跑项目,男生平均得分为6.87,女生为13.69,通过t检验方法进行显著性检验,显著性差异p

3小结

3.1小结

(1)作为考试评分标准,男女生成绩得分不应该有显著差异,但是同类素质项目男女生在成绩上有显著差异。

(2)速度、力量、耐力和灵敏可以通过五项素质代表各自素质的基本属性和特征,考生的身体素质状况能较全面地反映出来,这些指标作为测试身体素质的是有效的。

(3)考试采用了人工计时和测量,对考试的客观性和精确性有一定影响,而且人工计时和测量要投入较多的时间和人力,重点是有些人为因素不能有效排除,从而使得考试的精确性、科学性和公正性影响较大。

(4)青海省高考体育加试从 1986 年开始将全体考生集中在一个点,从考试总分统计结果表明,成绩的分布基本上呈正态分布。通过t 检验男女生的总成绩平均分不存在显著差异,而男女生的5项素质总分均值和专项成绩均值存在差异。

【参考文献】

[1]刘涛等. 体育统计学[M] .北京: 北京体育学院出版社,1991:36.

[2]张明立等. 多元统计分析方法[M]. 北京: 北京体育学院出版社,1993:10-65.

考试质量分析总结篇5

关键词:试卷分析;难度;区分度;信度;考试质量

中图分类号:G642.3 文献标志码:A 文章编号:1674-9324(2017)01-0096-03

随着高等教育的大众化发展,高等教育质量成为社会关注的焦点之一,而本科生的课程和教学改革则是大学发展的中心任务。在目前的大学教学制度下考试是衡量教学效果的主要手段,更是对学生进行学业成绩测评的工具。考试成绩不仅在一定程度上可以反映学生对相关知识的理解和掌握程度,而且可以比较教师的教学水平,对于教与学都有很好的促进作用[1]。考试不应该是一门课程教学过程的终结,通过对考试过程和考试成绩的分析与反思应该是教、学双方可持续发展的契机,以此来促进学生的成长和教师的发展。

田间试验与统计分析,简称生物统计,是石河子大学农学类各专业的一门专业必修课,主要包括田间试验中常用的、基本的试验设计方法与统计分析方法两部分,是农学院各专业学生进行专业课程学习、完成毕业论文以及今后从事科学研究等相关工作须掌握的一门课程。“生物统计”这门课程相对比较抽象,往届学生反映在其学习过程中感到枯燥难懂,导致学习兴趣不高,期末考试成绩两极分化严重,因此,如何提高课堂教学的有效性,提高教学质量,采用何种考试方式以及考核哪些内容以促进学生的自主性学习是笔者一直思考的问题。为此,作者对我校农学院2013级林学和种科专业的87名学生的《生物统计》考试卷面成绩进行了统计分析,并做出考试质量评价,为今后的生物统计学教学改革提供依据。

一、对象和方法

(一)对象

测试对象为我校农学院2013级林学和种科专业的87名学生,采用普通高等教育“十二五”规划教材,明道续主编的《田间试验与统计分析》(第三版),由同一名教师授课。试卷命题由授课教师根据教学大纲和教学内容安排,按章节内容所占学时比例分配不同章节的分值,以教学要求的分级(掌握、熟悉、了解)和教学目标(记忆、理解、应用)来确定分数的分布,由专职教师从题库中抽题组出二份试卷分别为A、B卷,并由我院专门负责课程考试的教师随机选一份试卷作为学生考试试卷,另一份作为考试备用卷。学生考试安排由学校教务处统一组织,采用一人一桌,考试时间为120分钟,由专职教师监考,考试类型为闭卷。本门课最终总成绩由期末卷面成绩(70%)+平时成绩(30%)构成。本文主要针对期末卷面成绩进行分析。

(二)方法

根据教育测量学和教育统计学原理,将测试的87名学生的卷面成绩以及每道题的答题情况输入设计好的Excel表格,利用Excel和SPSS13.0统计软件进行数据整理和统计分析。考试质量分析的内容主要包括成绩分析、试题质量分析和试卷质量分析。成绩分析主要侧重在考试的综合水平,评价指标有最高分、最低分、平均分、及格率、标准差、分数段分布等。试题和试卷质量分析指标,主要包括区分度(D)、难度(P)、信度(α)等指标[2-3]。区分度(D)是试题对考生水平的区别能力。难度(P)试题难度是评价试题质量的重要指标之一,计算为各题学生得分平均值和各题满分的比值,通常记为P。信度值是试卷可靠性、一致性、稳定性的反映,本文中将各题得分标准化处理后采用Alpha系数计算信度值。

二、结果

(一)试卷构成

《生物统计》考试试卷及分值构成为公式10小题,满分15分;名词解释10小题,满分15分;填空题20空,满分20分;简答题2小题,满分10分;计算题4小题,满分40分。其中公式、名词解释和填空题为客观题,主要考察学生对重点基础知识的理解和识记。简答题和计算题为主观题,考查学生对相关的试验设计方法及其数据统计分析的应用和理解。

(二)学生考试成绩分析

考试成绩的总分为100分,最高分95分,最低分26分,全距为69分,平均成绩为72.41分,标准差为13.59,及格率为89.8%,优秀率(90―100分)为5.68%。各分数段频数分布表明,70―79分之间频次最高,总体基本呈正态分布。

(三)试题质量分析

试题难度是评价试题质量的重要指标之一[4],计算为各题学生得分平均值和各题满分的比值,通常记为P。根据P值的评价范围,《生物统计》考试各试题的难度系数及评价如下:(1)公式,0.7268,较易;(2)名词解释,0.6877,中等难度;(3)填空题,0.7736,较易;(4)简答题,0.6379;中等难度;(5)计算题,0.6963,中等难度。其中公式和填空题主要考察学生对统计分析中重要知识点和公式的识记和应用,各水平学生均能答,主要为教学大纲要求掌握的知识。简答题和计算题为主观题,难度中等。

题目区分度是题目区别学生实际水平的量度,记作D。它是考试项目有效性的指标[3]。如果高水平学生在考试题目上能得高分,低水平学生在考试题目上能得低分,则该考试题目区分学生水平的能力强。如果高水平学生和低水平学生在考试题目上得分没有差异,则该考试题目区分学生水平的能力弱。本文中区分度的计算方法为:先将分数排序,P1=27高分组的难度,P2=27低分组的难度,区分度D=P1-P2。根据D值的评价范围,《生物统计》考试各试题的区分度系数及评价如下:(1)公式,0.4174,很好;(2)名词解释,0.4493,很好;(3)填空题,0.3174,良好;(4)简答题,0.7283,很好;(5)计算题,0.4370,很好。除填空题外,各题型的区分度值都大于0.4,评价结果达到很好水平,填空题的区分度稍低,但也已经达到良好水平,表明该试题的整体区分度很好,基本上无需淘汰。

信度值是试卷可靠性、一致性、稳定性的反映[5]。本文中将各题得分标准化处理后采用Alpha系数计算信度值,Alpha信度系数为0.7365,根据信度的评价范围,该试卷的信度较高。

三、讨论

试卷质量分析表明,本次考试的试卷总体上具有良好的难度、信度和区分度,考试成绩呈正态分布,能够比较真实地反映学生的学习质量。本校农学院的学生一般在大二暑期进行毕业论文试验,大三上学期学习生物统计课程,在此基础上,从课堂的师生互动反映出学生对田间试验设计方法的理解较好,但大多数学生会将毕业论文的写作放在大四第二学期,因此尽管已经完成了论文实验,但数据的整理、分析却在一年多以后进行。从本课程第四章假设检验开始,因为涉及众多公式及其应用,学生普遍感觉枯燥难懂,这在总分为40分,而卷面成绩全距却为33分,标准差为7.38分的计算题部分也显示出来。因此,从此方面,建议毕业论文老师在学生做完试验后能督促他们尽快分析和处理数据,不仅能尽快发现和弥补试验中的问题,也利于提高学生对本课程的学习兴趣。此外,充分利用我校大一、大二年级的大学生研究训练计划(SRP),鼓励学生积极申报,让学生尽早接触科研活动,在本课程的学习中能够带着自己的问题、自己的数据独立分析,让学生能切身体会到“学有所用”,在解决问题的过程中享受成就感,培养学生的分析能力和逻辑思维能力,提高学习本课程的兴趣,并能将理论和实践结合起来,在科研活动实践中培养学生的创新意识和解决问题的能力。

根据美国心理学家布卢姆提出的分类方法,把人的认知水平从简单到复杂分为识记、理解、应用、分析、综合、评价六个层次[6],本课程试题设计也是按照教学内容(章节或部分)的教学时数和重要程度确定不同的权重;再按教学大纲要求、教育目标分类进行试题类型和难度等方面的权衡。试卷中公式、名词解释以及部分填空题主要为识记和理解,各水平学生均能答,试题较易,因此平均得分较高。部分填空题、简答题和计算题主要考察学生对主要知识点的理解应用及其综合评价,尽管试题中设计的试验已经考虑到运算量的问题,但平均得分较低,其中计算题得分两极分化严重,说明部分学生对本课程的学习还停留在死记硬背的阶段,分析和解决问题能力比较差,因此如何在有限的学时内,让学生具备扎实的基础统计知识的功底并且能够灵活应用是摆在授课教师面前的一个挑战。此外,考试中笔者还发现一个问题,有些同学对于基本知识点和概念的记忆非常准确,作答和课本上的表述完全一致,但是在知识点的具体应用上却存在问题,不会变通;而有些同学的情况却与此相反,记忆类题目回答不是很好,但是理解和分析类题目得分较高。说明学生的学习风格和考试的适应性之间密切联系,这就要求授课教师在教学过程中给与学生更多的人文关怀,积极进行教与学的互动,了解学生,关注学生学习风格的差异,积极引导,培养学生的综合能力,同时在试题构成中要综合考虑学生的学习特点和考试适应性,使考试成绩能反映学生真实的学习水平,提高考试对于学生发展评价的公正性。

从理论上讲,一般考试成绩呈现正态分布表明试卷的难度适宜,如果呈现偏态分布,则表明试卷的难度偏高或偏低。本次考试卷面总成绩呈较好的正态分布,说明试卷难度适意。但全距为69分,标准差为13.59分,说明学生的两极分化现象较严重。尽管试卷质量分析表明,本次考试的试卷总体上具有良好的难度、信度和区分度,但笔者认为,还应分析各题型得分是否为正态分布。以本课程考试为例,计算题主要考查学生对相关的试验设计方法及其数据统计分析的应用和理解,是本课程的重点,其分值占卷面总成绩的40%,但是学生得分分布却为偏态分布,意味着计算题部分整体难度偏低。这也引发我们对当前大学考试质量的思考。目前课程考试主要以教研室为单位作为命题小组,试卷的编制一般由任课教师自主决定,在这种情况下试卷难度一般很难把握,教师一般是按照自己对课程的把握和对学生学习过程的了解自行确定考核内容和难度,但是其中隐藏着某种程度的“分数信任危机”甚至可能引发“教学质量危机”[7]。降低试卷难度,可以保证绝大多数学生通过,平均分较高,看似学生对课程知识点掌握很好,但是分数的含金量越来越低,导致分数信任危机,降低教学质量。由此说明,试卷中任一题型的检测和区分功能是有限的,整套试卷的题型选择以及同一题型的数量及其所预检测学生的认知层次的高低和范围还需试题编制者认真思考。

每次考试之后,我校教学管理部门都会要求各任课教师对该课程的学生考试成绩进行以下统计:(1)期末综合成绩频数分布;(2)平均分和标准差;

(3)最高分、最低分和全距。如果是多班级共同的专业课程要分别提供课程和各班级的平均分、标准差、全距、正态性情况,同时提供平时成绩和总评成绩的各项指标。但是忽略了期末考试本身所具有的评价教学的功能,而只把考试当作评价学生学习的工具,建议教育管理者和教师在进行考试成绩分析的同时也要重视试卷质量的分析,设置合理的试卷效度、信度、区分度以及难度。避免为提高及格率,降低试卷难度和区分度,拉高平时成绩提高总评成绩等影响学生学习的积极性,不利于提高教学质量的现象。

本次《生物统计》考试分析充分体现了教学改革的必要性。本课程作为我校农科类专业的一门基础课,具有很强的实践性和应用性,随着计算机发展的日新月异,统计分析在各领域的作用日趋重要,统计软件的应用已经成为培养高质量专业人才的需要和科研工作者必备的技能之一。尽管本课程的48学时中包含有8学时的上机训练,以及本院开设的另外一门选修课《计算机数据处理》,但是学生在进行论文数据分析过程依然表现出统计知识的欠缺,因此建议本课程的考试能将笔试和机试结合起来,适当提高试卷的区分度,同时引导学生积极进行自主学习,提高学生分析问题,解决问题的能力。

参考文献:

[1]代红,陈刚,肖建修,程江洲.“电机学”课程教学改革的探讨[J].中国电力教育,2010,(33).

[2]戴海崎.心理与教育测量[M].广州:暨南大学出版社,2004:117-118.

[3]刘新平.教育统计与测评导论[M].北京:科学出版社,2003,(6):148,162-163.

[4]裴利华.SPSS统计软件在试卷分析中的应用探析[J].新课程学习,2011,(2):17-18.

[5]张h.SPSS软件在英语试卷质量分析中的解析及应用[J].职校论坛,2013,(7):320-325.

[6]戴洪萍.高校专业课程考试质量的分析与探讨[J].南通大学学报(教育科学版),2007,(2):86-89.

[7]曹中平.考试分析与教学反思:以一门课程为例[J].大学教育科学,2004,(2):38-42.

The Analysis and Interpretation Based on the Examination of "Biology Statistics"

LI Chun-Yan,LI Cheng,GONG Jiang,SHI Pei-Chun

(College of Agriculture,Shihezi University,Shihezi,Xinjiang 832000,China)

Abstract:In order to improve the teaching quality of the course of "Biology Statistics",the Excel and SPSS 13.0 software were used to analysis the examination score of "Biology Statistics". The results showed that the average score was 72.41. The distribution of score was mainly concentrated between 70 ~ 70 and showed the normal distribution. The evaluation of test paper quality indicated that the degree of difficulty of paper is moderate. The partition degree of the five question was good,respectively. The reliability of the examination paper was high. It was suggested that we should pay more attention to the quality of test paper analysis and the examination paper structure. Furthermore,we should focus on the learning characteristics of college students and make useful exploration on examination reform.

考试质量分析总结篇6

论文关键词:开放教育,命题,质量评价,试卷分析

1.电大考试命题与试卷分析中存在的问题

由于教师很少有教育评价理论培训的机会,对教育评价的手段和方法等不能系统掌握,具体体现在命题与试卷分析上,表现为“四差”:命题适切性差;命题能力差;作业和试卷质量差;作业和试卷评析效果差。

1.1命题适切性差

命题不符合成人特点。就电大的考试来说,由于测试的对象基本是在职工作的成人,因此,命题应该符合成人特点。但由于电大长期借鉴全日制普通高校教学模式,在考试与命题方面也无不打上普通高校模式的烙印,如死记硬背的内容过多,题型过于复杂,题目陈旧、不新颖等等。

1.2命题能力差

教学参考资料让教师失去了设计作业的基本能力,大量的网上试卷让教师基本上不会命题,甚至终结性考试的题目是直接“复制”来的。有些省开课程的试题,基本来自中央电大往届试题或者从网络搜索而来,在难易题搭配、题型结构等方面都不认真考虑,组卷不合理。

1.3作业和试卷质量差

“照搬”来的作业题、考试题,由于没有充分考虑电大学情,针对性不强;形成性考核册不能与教材发行同步,排版不合理;试题不规范,缺乏科学性。

1.4作业和试卷评析效果差

教师普遍不注重作业评讲和试卷评析,很难发现教学中存在的问题,教学设计方案一成不变。如,有的教师直接把作业答案提供给学生,作业批改只是为了应付上级检查。试卷分析只是简单统计及格率和各试题的得分率,不能做数据统计分析。

2.命题质量评价

命题在一定程度上决定了考试能否真实地反映出教学、学习的实际情况,因而命题是决定考试成败的一个重要因素。命题质量的好坏,可从适切性、科学性、整体性、独立性、全面性、合理性、简明性等七个方面来进行评价。

2.1命题的适切性

命题既要突出成人记忆力减弱而理解能力较强的特点,又要与电大学员的实际水平相符合。在题型上,象填空这类过于依靠死记硬背的题,学生往往失分较多;而由于他们的基础较差,一些过于灵活的分析题,也同样往往让他们不知道从何下手。在命题的内容上,理论性过强,学生也不容易把握,而与他们的工作实践紧密相联的内容,则相对要易于掌握。

2.2命题的科学性

试题和答案本身是准确的,无歧义和差错,不出现人为编造、无实际根据和无实际意义的试题,答案明确无误、没有争议。

题型科学。题目满足所使用题型的内在要求。客观性题目的答案是确切的、唯一的。研究性、讨论性问题研讨方向明晰,即使学生可以使用不同的方法,但所要解决的也是同一个问题。

2.3命题的整体性

试题内容的整体性:内容的选择紧扣考试目的和教学大纲,不同层次的试题对应不同层次的认知水平,能全面反映考生实际水平。

试题组织形式的全局性:试卷有一个好的结构,试题的布局由浅人深,起点低,终点高,具有明显的难度梯度。

2.4命题的独立性

试题内容彼此独立。试题的内容不相互牵连,一个题目考察的内容,与其它题目没有任何形式的重复。

题目之间不可相互暗示。一个题目要求解决的问题不会由其它题目找到线索。

2.5命题的全面性

重点与一般的关系:考试的内容既突出教学大纲规定的重点,又兼顾较广的覆盖面。重点内容和一般内容比例恰当。

知识与能力的关系:既考查学生对学科基本原理、概念、技能掌握的准确与牢固程度,也考查学生综合应用所学知识的能力。

理论与实践的关系:除检测课堂教学环节的效果外,也注重对教学实践环节效果的考查。

2.6命题的合理性

试题难易适度;题量合理;评分标准合理:合理地制订评分标准,力求使评分简便、准确,且在分数的分配、给分的标准方面科学合理;合理的区分度;考试成绩近似正态分布。

2.7命题的简明性

试题语言表述:题目语义清楚,文句简明扼要。

试题作答要求及提示语:有正确、有效的指导语,言简意赅、简洁明了。

3.试卷分析

为了更好检验命题质量,阅卷结束后要进行试卷分析。一是整体分析,是对学生学习质量的统计分析,分析考试分数的分布、平均值及方差(标准差),考试成绩是否近似服从正态分布。二是从难度、区分度、效度、信度等方面对命题质量进行统计分析。

3.1学生学习质量的统计分析

学生学习质量的统计分析可以从以下几个表格来反映。

参数

份数

平均分

标准差

最高分

最低分

极差

平均分反映了学生掌握该课程知识的一般程度,标准差说明了学生成绩波动情况。还可从学生考试成绩的频率分布,来进一步说明此次考试成绩是否比较理想。

分数段

[0,50)

[50,60)

[60,70)

[70,80)

[80,90)

[90,100]

累计

频数

频率(%)

还可以将各题平均得分及其正确率做成表格,由表格可直观看出,学生对哪种题型不太适应、做得不好,在哪些题目上得分比较高,可判断是否基本反映了电大学员的实际状况。

题 号

满 分

平均得分

正确率

(%)

3.2命题质量的统计分析

从难度、区分度、效度、信度等方面来对命题质量进行统计分析,更能对命题及考试情况进行科学、合理地解释。

3.2.1难度

难度是评价试题难易程度的指标。

试题的难度P=或P==得分率

试卷难度P=

当P值愈大,该题平均得分率就愈高,则该题愈容易。一般认为,当0.55≤P≤0.75时难度适宜,当P<0.55或P>0.75时,则说明试题偏难或偏易。

3.2.2区分度

试题的区分度是试题甄别能力的指标。

试题的区分度R=

试卷的区分度R=

区分度是指试题对于不同水平的学生加以区分的能力。区分度高的题,好的学生得分高,差的学生得分低。一般区分度R不能低于0.3。

但电大考试总的来说区分度不是太高,这可以从以下几个方面来分析:

(1)学生程度比较整齐,不走极端。

(2)试题难度的坡度不明显,导致区分度不明显。

(3)受考风等其它因素影响。

3.2.3效度

试题的效度是反映试题有效性的指标。

试题的效度D=,其中n=考生数;y=该题满分数;H=该题高分组的考生人数(取人);L=该题低分组的考生人数(取);X=考生该题的得分数。一般当D>0.4时,试题质量较高;当D<0.2时,试题质量较差。

3.2.4信度

试卷的信度是反映试卷考试结果的可靠性指标。

试卷的信度C=,其中K=试题数;=各试题考生得分数的方差之和;=考生全卷得分数的方差。

信度高说明用它检查学生实际水平,反映学生学习成绩是稳定的、可靠的,受偶然因素影响较小。

4.总结

一份好的试卷,难度适中,区分度好,有较高的效度和信度,能客观反映学生的实际水平,学生的成绩呈现正态分布。在编制试题时,可按布卢姆教学目标分类,将试题分为知识、了解、应用、分析、综合和评价等6大类,建立各级难度、各级区分度的试题库,每套试卷注意学习内容的典型性、代表性,也要注意题目的难度、梯度和题目类型的多样性,尽量选用新材料、新背景、新话题的原创题。考试后与实际水平作比较,以总结经验,不断提高试卷质量。

考试质量分析总结篇7

关键词:八年制医学生;外科总论;麻醉学;试卷分析

麻醉学是一门集临床麻醉、疼痛诊疗、重症医学、体外循环及相关教学和科研于一体的二级学科[1],在整个临床医学中发挥着重要的作用。麻醉学在八年制临床医学专业外科学总论中作为独立章节进行讲解。众所周知,考试是教育测量的具体形式,不仅可以评价学生学习情况,而且还是检查教师教学水平和教学质量的重要手段之一。然而,只有坚持试卷分析,才能更好地发现教学中存在的问题,从而提高教学水平和质量。本研究旨在通过对北京大学医学部2012、2013级八年制临床医学专业外科学总论麻醉学试卷进行分析,以提高外科总论中麻醉学教学质量。

一、研究对象与方法

(一)研究对象

研究对象为近2年八年制临床医学专业学生外科学总论考试试卷,其中2012级46份,2013级49份,参考学生考前均已完成14学时的麻醉学理论学习及1周的麻醉学见习。

(二)研究方法

1.分析试卷成绩总体情况及每种题型的得分情况。2.试卷难度:考试难度系数计算公式如下:Dc=1-A/T,Dc:难度系数,A:考生平均得分(如计算总体难度系数,则为全卷平均分;如计算单题难度系数,则为单题平均分),T:满分,理想的难度系数以控制在0.2左右为宜。3.试卷区分度:区分度反映试题区分不同水平受试者的能力,即能否考出学生的不同水平,把优秀、一般、差三个层次的学生真正分别开。先把成绩从高到低排序,前50%的考生为高分组,后50%为低分组,其计算公式为:D=2(XH-XL)/W,其中,D为区分度,XH为高分组平均分,XL为低分组平均分,W为试卷总分。区分度一般在0—1之间,值越大区分度越高。区分度高的考试,优秀、一般、差三个层次的学生都有一定比例,如果某一分数区间学生相对集中,高分太多或不及格太多,则区分度偏低。试题的区分度在0.4以上表明此题的区分度很好,0.3—0.39表明此题的区分度较好,0.2—0.29表明此题的区分度不太好需修改,0.19以下表明此题的区分度不好应淘汰。

二、研究结果

(一)题型分析

外科学总论试卷100分,其中麻醉学内容占30分,由6个英汉互译题、14个单选题及1个病例分析设3个简答题组成,三种题型各占6分、14分和10分。其中记忆类、掌握类、客观类题目占比较大,其次是理解应用类、熟悉类、主观类题目。

(二)考试成绩总体情况

2012、2013级考生最高分分别为27、28.5分,最低分分别为15、16.5分。

(三)试卷质量分析

1.区分度。2012级、2013级外科总论麻醉学部分试题的总体区分度分别为0.283、0.246。每种题型及全卷的区分度见图1。2.难度系数。2012级、2013级外科总论麻醉学部分试题的总体难度系数分别为0.247、0.237。

(四)错误率超过

50%的题目分布情况错误率超过50%的题目主要集中在英汉互译题和简答题。

三、讨论

考试质量分析总结篇8

关键词:教学质量分析;数据挖掘;数据预处理;描述性数据汇总

中图分类号:TP393 文献标志码:A 文章编号:1673-8454(2017)07-0065-04

一、引言

为了全面提高中小学学科教学质量,有效地指导学校开展学科教学活动,区(县)基础教育管理部门往往需要通过开展区域性的学科统考,并对考试成绩实施全样本数据统计分析,从中获取基于不同层面的学科教学质量的反馈信息,并据此对区域妊校的学科教学实施有效的监测和指导。因此,构建以成绩统计分析为基础的中小学教学质量分析系统,成了区(县)基础教育管理部门较为关注的一项信息化建设工作。

然而,对于教学质量分析系统来讲,其上层应用特色应体现在,能够针对区内学校的学科教学质量及学生学业发展水平,为区教育管理部门提供全面、准确、综合的评估分析报告。进而为区教育管理部门,对全区学校的学科教学质量实施有效监控,提供科学的辅助决策依据。但是,要达到上述之目的,构建的教育质量分析系统就必须具备能够分析、呈现考试成绩的总体数据特征,以及辨识、去除隐藏于考试成绩中的噪声数据的功能。而这些功能,正是对数据挖掘在预处理过程中所利用的描述性汇总技术的具体实现。

二、数据挖掘相关技术

1.数据挖掘

数据挖掘(DM,Data Mining)就是从常态生成的、带有噪声的、大容量的真实业务数据中,寻找并获取隐藏其内的新的知识和信息的过程。这个过程对驻留在数据库中的已有的大量数据,实施了抽取、转换、分析及模型化处理,并最终为实际业务的开展生成提供了具有辅助决策支持作用的关键性数据。数据挖掘的过程,有效地实现了对原有业务数据的进一步的深度应用。数据挖掘经常被称为另一个常用的术语:数据库中的知识发现(KDD,Knowledge Discovery in Databases)。通常知识发现的过程由以下步骤组成:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示。

2.数据预处理

由于真实的业务数据存在着缺陷,带有噪声且不甚完整。如果对这类品质不高的数据急于实施数据挖掘,必然会影响最终的数据挖掘结果。然而,通过数据预处理则可以有效地改善数据的质量,以使后续实施的数据挖掘过程,能够在性能和精度上得到尽可能大地提高。利用数据预处理技术可以先期检测到各类异常数据,从而为调整改善数据质量和规范约束待分析数据,创造了有利条件。数据预处理为最后获得高质量的知识发现,提供了重要的基础保障。由此可以看到,数据预处理的重要作用体现在,它为改善现实数据的质量和获取高质量的数据挖掘结果,奠定必要的基础。所以,数据预处理是知识发现过程中不可或缺的重要环节,它由数据清理、数据集成、数据变换和数据规约等几个步骤构成。

3.描述性数据汇总

全面了解数据的整体特征,是成功实施数据预处理的必要前提。那么如何才能准确有效地获取数据的整体特征,并充分展示出数据集的集中趋势和离散趋势呢?对这个问题的回答是:必须利用描述性数据汇总技术。描述性数据汇总技术主要是基于一批描述性统计度量,对数据实施计算分析,识别出数据的固有特性,暴露出潜藏在数据中的噪声点或离群点。这批统计度量由两类组成,其中一类是用于描述数据集中趋势的度量:中位数(median)、众数(mode)和平均值(mean)。而另一类是用于描述数据离散趋势的度量:标准差(σ)、四分位数(quartiles)和四分位极差(IQR)。

三、考试分数的描述性数据汇总分析

1.度量考试分数的集中趋势特征

在描述性数据汇总中,用以考察度量数据集中趋势的方法常见的有三种,它们分别是分布式度量(distributive measure)、代数度量(algebraic measure)和整体度量(holistic measure)。其中,分布式度量是指,把数据集分割成更小的数据子集,然后计算出每个子集的度量值,最后将计算结果进行合并以得到整个数据集度量值的度量。代数度量是指,由包含了一个或多个分布式度量的代数函数所计算的度量。而整体度量是指,对整个数据集计算的度量。

在中小学教学质量分析中,当导入一次考试的所有学生的原始考分后,是通过计算平均分、众数和中位数这三个集中量数来获取这批原始考分的集中趋势信息的。然而,平均分、众数和中位数正是属于描述性数据汇总技术中的集中趋势度量。其中,平均数属于代数度量,因为它可以通过分布式度量sum()/count()计算得到,而中位数和众数都是属于整体度量。如果是区(县)级的学科质量测评考试,依据平均分、众数和中位数这三个集中量数就可以对区内不同学校之间的学科教学质量进行比较;如果是校级的学科质量测评考试,则可以对校内不同班级之间的学科质量进行比较。因为平均分、众数和中位数能够很好地归纳出,基于不同层面(学校、班级)的考生群体的总体考核情况。

(1)平均分(mean)

平均数就是指一组数据值的均值,它是考察和度量数据集中趋势最有效、最常用的数据度量值。在教育质量分析中,我们称之为平均分,也就是指考试原始分数的算术平均数:

其中,Xi 代表第i个考生的原始考分, n代表参加考试的考生总人数。平均分容易计算、易于理解,并具有较强的代表性。但是,平均分的主要问题是对于极端值表现得比较敏感,容易受到极端数值的影响而致使其丧失代表性。例如,某次考试很可能因为少数几个非常低的分数而拉低了整个考试的平均分。因此,为了消除少数极端数据值对平均分的影响,我们可以去除数据集合高、低两端的极端数值,然后再计算出能够更加准确地体现集中趋势的均值。例如,在计算考试平均分时,我们可以考虑去掉原始考分中,高、低两端一定比例的数据值,使计算得到的平均分能够更为准确地描述出原始考分的集中趋势,从而为反映考生群体的总体水平提供有效的度量信息。当然,被去除数据的比例值需谨慎确定,如果比例太大反而会适得其反,影响平均分的有效性。

(2)中位数(median)

就考试而言,中位数是指在全样本空间内,将全部考生的原始成绩按序排列,若考生人数为单数,就取正中间的那一个分数作为考试成绩的中位数;若考生人数为双数,则取中间两个分数的平均数作为考试成绩的中位数。相比于平均分,中位数的优势在于,其度量值不受极端数值影响。当遇到平均分受到极端考分影响而失去代表性时, 就可以用中位数的大小来代表这次考试分数。中位数属于整体度量,其缺点在于不够灵敏,且没有平均分可靠。

当然,中位数还可以通过划分数据区间的方法(或称分组)来计算获取,具体的计算方法是:按照指定的组距(即数据区间宽度)将数据集划分成若干个连续的数据区间,然后确定每个区间内的数据个数(即,区间频率)。例如,可以按照10分的区段间隔,将原始考分划分入0 ~ 10,10 ~ 20,20 ~ 30等区间,然后清点每个区间内原始考分的个数。我们把包含中位数的那个区间称为中位数区间,而中位数就可以按照下面这个公式计算获取:

其中,Ll是中位数所在区间的下限,N是整个数据集的数据个数,(∑freq)l是低于中位数所在区间的其它所有区间的频率总和,freqmedian是中位数所在区间的频率,width是数据区间的宽度。当然,这样计算得到的只能是数据集中位数的近似值。

(3)众数(mode)

在数据集合中,出现次数最多的那个数被称为众数。就考试而言,众数就是考试成绩样本空间中,出现频率最高的那个分数。众数也属于整体度量,它的特点是用频数大小来呈现数据的集中趋势。因此,众数也是一个被用来反映考试总体状况的度量值。但是,众数的有效性会受限于样本数据的数量。例如,如果考生人挡欢啵就有可能会导致每个原始考分只出现一次,这样的话,就没有众数可寻了。当然,也存在着这样一种情况,如果考试成绩中有多个高频出现的分数,那么就会导致有多个众数出现。所以,众数只有在考试人数足够多,且考试成绩具有明显的集中趋势的情况下才显得有意义。

(4)利用平均分、中位数和众数对考试做趋势性分析

对考试原始分绘制频率分布曲线时,如果得到的是适度倾斜的单峰频率曲线,那么平均分、中位数和众数这三个集中量数之间,存在着如下关系:

mean-mode=3×(mean-median)(3)

由此,我们可以发现对于能产生适度倾斜的原始分单峰频率曲线的考试来讲,就能通过该关系式推算出考试原始分数据集合中的众数。

对于呈正态分布的原始分单峰频率分布曲线(见图1)来讲,平均分、中位数和众数都是相同的中心值,这当然是一种理想化考试结果的呈现。它说明了就本次考试而言,考生群体学业水平能力以中等为主,有相对优秀和相对较差的学生存在,但不占主体。

对于呈正偏态分布的原始分单峰频率分布曲线(见图2)来讲,mode

对于呈负偏态分布的原始分单峰频率分布曲线(见图3)来讲,mode>median>mean,这表明考分高于平均分的考生超过了50%。如果此时的平均分较高,则说明就本次考试而言,考生群体的学业水平能力较高(当然这种情况也有可能是因为试卷难度较低而造成的)。

2.度量考试分数的离散趋势特征

在分析数据集合的离散程度时最常用的度量有:极差(R)、标准差(σ)和中间四分位数极差(IQR),我们称之为差异量数。这三个差异量数可以用来描述一批分数的差异程度。如果说度量考试分数中心趋势特征的集中量数是一个中心点,它让所有分数围绕着它分布;那么用于度量考试分数离散趋势特征的差异量数,则是用于表示各分数与中心点之间的距离,它描述了分数与中心点之间存在的差异统计值。利用这三个差异量数对考试成绩进行数据离散趋势分析时,可以准确地了解参加考试的学生群体在学科学业水平上存在的差异状况。

(1)极差 (R)

在对考试成绩做统计分析时,极差就是一次考试中的最高分和最低分之差。极差在某种程度上反映了参与考试的学生群体,在学业水平上存在的最大差距。极差虽然计算简单、意义明确,但是它的大小完全由位于两个极端的分数来决定,它无法对位于两个极端分数之间的其他分数的差异性状况进行有效分析。因此,如果仅用极差来描述考试分数的整体离散趋势状况,效果肯定是很差的。就如同,如果一次考试的最高分是满分,而最低分是0 分,那么就不存在极差的度量意义了。但是,我们还是可以利用极差粗略地了解关于某次考试学生成绩的最大差异。

(2)标准差(σ)

标准差是一个能够有效衡量、精确描述数据分散程度的差异量数。它能对一次考试分数,偏离平均分程度的大小给出明确的判断。如果标准差越小,考试分数就越向平均分集中,即分数的分布差异越小。反之,则说明考试分数离开平均分的程度增大,分数分布的差异也越大。一般情况下,如果考试分数的频率分布呈现正态分布,那么极差应该大致等于6个标准差(R≈6σ)。

组合使用极差和标准差这两个差异量数,可以准确有效地判断出数据集合的离散差异程度。特别是在教学质量分析中,极差和标准差的组合使用,可以准确有效地分析出考试分数的离散分布状况,并由此推断出参与考试的学生群体在学业水平上存在的差异和不同。当然,也可以依据这种分析对试卷的质量做出评判。例如,如果根据考试分数计算得到的极差和标准差均很小,则反映了考生的学业水平非常接近。但这种情况也很可能说明试卷的命题组卷出现了问题,导致无法拉开考生的成绩,进而也掩盖了考生实际学业水平的真实差距。反之,如果极差和标准差均很大,这就表明考生群体的学业水平整体差异性较大,高水平学生和低水平学生都很多。

(3)中间四分位数极差(IQR)

在按升序排列的数据集合中,第k个百分位数是指该数在数据集合中的定位,即,数据集合中有k%的数据小于或等于该数。据此定义,中位数就是第50个百分位数,第25个百分位数被称为第一四分位数(Q1),而第75个百分位数被称为第三四分位数(Q3)。而中间四分位数极差(IQR)就是指按升序排列的数据集合中,第三四分位数与第一四分位数的差值:

IQR=Q3-Q1(6)

IQR值反映的是中间数值的分散程度,对于教学质量分析来讲,它描述的是原始考试分数集中分布的范围,反映了考生成绩的集中趋势状况。从使用经验上讲,一般一组数据中的可疑离群点(或称数据噪声),其位置基本位于高于第三个四分位或低于第一个四分位数的1.5 X IQR处。在教育质量分析中,利用这一方式可以有效地识别和剔除考分中的那些无意义的分数。例如,误将缺考学生的成绩(0分)纳入考分统计样本之中;由于特殊原因导致个别学生无法进行正常考试而产生不正常的低分;个别学生提前知道试卷答案得到了异乎寻常的高分。这些分数数值一般都有可能超过了四分位数极差值的1.5倍,这足以提醒分析人员倍加关注并确定是否要予以剔除,从而有效地减小其对考试评估分析的影响。

四、描述性数据汇总技术应用举例

在中小学基于考试成绩所做的教育质量分析中,我们可以利用中位数、两个四分位数(Q1、Q3)以及原始分的最小值和最大值这五个描述性数据度量值,总体概括出考生成绩的集中趋势和离散程度。在数据挖掘中,这种描述性数据汇总技术又被称之为五数概括(five-number summary),而利用盒状图又可以直观地呈现五数概括所要反映的数据特征。

图4给出的是一次区域性数学学科考试中,参加考试的每所学校的考试成绩的盒状图。盒子的上下两条底边,分别代表的是Q1和Q3两个四分位数,而盒子的高度就是中间四分位极差IQR。盒子中间的横线代表中位数。盒子上下两条线的末端,代表的是每所学校的最高考分和最低考分。由于在不出现极端考分数据值的情况下,在盒状图中使用平均分能更好反映各校考试成绩的总体趋势,因此此图中用平均分取代了中位数。另外,盒状图中两个四分位数(Q3、Q1)分别被调整为排名前25%学生和排名后25%学生的成绩平均分(分别被称为高分组平均分和低分组平均分),这也是为了更好的反映各校考生的考试成绩在上、下两端间的整体差距。

由图我们可以看到,利用平均分这个描述数据集中趋势的集中量数,很好地说明了各校学生成绩在区内的整体定位;而两个四分位数所形成的IQR这个用于描述数据离散趋势的差异量,也清晰地反映了各校学生学业水平的差异状况。

五、结束语

用于度量考试分数中心趋势特征的平均分、众数和中位数,以及用于度量考试分数离散趋势特征的极差、标准差和中间四分位数极差,这些描述性统计量在中小学教学质量分析中的应用,可以帮助我们有效地理解原始考分数据的总体特征和分布情况。从数据挖掘的角度来看,我们应该充分理解这些描述性统计量的计算意义并合理地使用它们,形成科学准确的分析结果,挖掘出隐藏在考试成绩背后的知识信息。从而为教育管理部门监测区内学校教育质量、开展课程教学指导,提供有效的决策依据。

参考文献:

[1][加] Jiawei Han著;范明,孟小峰译.Micheline Kamber. Data Mining Concepts and Techniques, Second Edition[M].

[2]刘新平,刘存侠.教育统计与测评导论[M].北京:科学出版社,2003.

[3]雷新勇.考试数据的统计分析和解释[M].上海:华东师范大学,2007.

[4]杨思清.数据挖掘技术对提高教学质量的应用研究[J].黑龙江科技信息,2007(4).

[5]黄羿,马新强,武彤,唐作其,朱莹.基于数据仓库的学生成绩分析模型设计[J].信息技术,2007(2):18-23.

[6]李琳,徐雨明,孙士兵.数据挖掘在教学质量分析中的应用研究[J].衡师范学院学报,2009,30(3):86-88.

上一篇:学生考试成绩总结范文 下一篇:月考考试分析总结范文