考试测评范文

时间:2023-09-15 04:58:52

考试测评

考试测评篇1

一、德才方面

(一)、理想信念坚定

该同志政治上表现出较强的责任感和积极向上的奋斗精神,认真学习、坚决拥护党的各项方针政策,热爱祖国、热爱党、热爱社会主义,有着坚定的共产主义信念,有明确的政治立场,时刻与党组织保持高度一致。以新时代中国特色社会主义思想的标准严格要求自己,实事求是,能够辩证、理性地看待事物和问题,在大是大非上始终保持清醒的头脑,牢记为人民服务的宗旨意识,努力学习践行的重要讲话精神,认真贯彻执行党的路线、方针、政策,积极响应党的号召,表现出较强的政治觉悟和奉献精神。

(二)、业务能力突出

该同志工作上踏实肯干,有较强的事业心和责任感。工作认真,凡事积极主动,迎难而上。在工作中敢于担当重任,善于破解难题,表现出良好的大局意识和责任意识,特别是在调整到镇扶贫办工作后,积极深入基层,了解调查全镇各村脱贫攻坚工作方面,宣传政策、监督各镇扶贫政策措施落实情况,经常进村入户上门走访,较好的履行岗位职责。同时,该同志具有较强的组织协调能力和团队协作精神,自2019年9月入职以来,担任政府机关党支部组织委员工作,在支部工作中成绩优秀,在业务岗位中能够抓住工作重点、精心谋划,创造性的完成工作任务。

(三)、工作作风过硬

该同志作风上严谨正派,在做好业务工作的同时,能严格要求自己,自觉遵守国家法律、法规和单位的各项规章制度,服从组织安排。能自觉抵制不良风气,遵守工作纪律,廉洁奉公,洁身自好。工作作风过硬,在工作中勤于思考,细致严谨,严守工作纪律,坚持按工作规章办事。在试用期期间表现良好,无违规违纪行为。生活作风正派,能做到自重、自省、自警、自励,做到不正之风不染,不法之事不做。能始终坚持原则,严格按照党风廉政建设的要求,认真执行廉洁自律有关规定,自觉抵制不良风气的侵蚀。

(四)道德品质优秀

该同志道德品质优秀,以德修身。在生活中乐于与大家交流,为人低调,待人和善;关心同事,尊重领导,为人谦虚真诚,处事公道正派,不计较个人得失,具有较强的主人翁精神和集体意识。坚持正直、朴实、谦虚的生活作风,摆正自己的位置,注重细节,塑造良好的个人形象。能够较好的处理好与群众、同事的关系,具有良好的综合素质。该同志坚持对自己严要求,严于律己,宽以待人,对待群众热情周到,积极服务,受到同事和群众的广泛好评。

(五)坚持原则,廉洁自律

该同志政治觉悟高,坚持廉政原则,自律性强,能自觉执行中央八项规定,工作中能做到廉洁公正,能够自觉做到自尊、自重、自爱,未发现有违反规定的行为。

二、存在的主要不足

该同志在“德、能、勤、绩、廉”各方面表现优良,但也存在一些不足。一是扶贫工作岗位理论基础还不够扎实,需要更多学习扶贫政策文件,更深入领会各类扶贫工作会议精神。二是文字写作方面的锻炼需要进一步加强。

三、民主测评及考察结论

2020年9月23日,镇委考核组在政府机关党支部9月份“支部主题党日”活动会议上对该同志进行了试用期满转正民主测评,测评情况为:应到会41人,实到30人,发出测评票30张,收回30张,有效票30张,测评结果为30名参会人员一致认定该同志在“德、能、勤、纪、廉”五个方面做得“好”,无“差”表现。

考试测评篇2

关键词 测评组卷设计模块

一、在线考试的意义

传统考试方式分为:教师人工出卷、印刷、学员考试、密封装订、人工阅卷、最后成绩统计、公示和试卷分析几个步骤。对于组织人事部门来说,试题的完整及保密工作要求极严格,最终的分数也要求不能出错,分数的细微差别都会影响干部人员的最终调整,其工作十分烦琐且容易出错。随着计算机和网络技术的日益发展,日常学习、培训、考试方式正逐渐向网络化、信息化的方向转变。建立基于网络的考试系统,加上数据库技术的应用,将大大简化传统考试的过程,因此在线考试系统越来越受到了组织部门的青睐。

二、系统的设计原则

在线考试系统的设计目标为:能正确、有效快速地处理各种网上考试事务;具有良好的实用性与通用性,提供友好的人机界面,具有较好的可扩充性和安全性。

通过对现有一些在线考试系统的分析研究,并详细了解了构建在线考试系统的一些要求后,在线考试系统应该满足以下设计原则:

(一)组卷原则:系统要能够满足组卷条件的要求,组卷速度快,成功率高。

(二)安全性原则:要保证考试系统信息传输的安全性,防止考题泄漏,以及客户端和服务器端的安全性等。

(三)功能完善原则:系统要具有完善的在线考试功能。例如,要有完善的考试现场恢复机制,包括已经生成的试卷、考生已经做过的题目的答案、考试剩余时间、自动评分等。

(四)可扩展性原则:系统要具有良好的可扩展性,以满足考试系统不断发展的需要,考试系统的功能完善是一个渐进的过程,随着员工的要求和技术的发展而需要不断改进和完善。

(五)可管理性和可维护性原则:要能很方便地对系统进行管理,确保系统的正常运作。

(六)可靠性和可用性原则:系统需要在一定的负荷下保持运行的可靠性和可用性,服务质量的一个重要方面是能够在期望的响应时间内访问信息。

三、系统的主要模块

根据系统需求,图1列出了系统的主要核心模块图。

图1系统主要核心模块

系统分为三个角色,后台系统管理人员、题库专家和考试测评人员。

(一)后台管理人员主要完成专家人员和考试测评人员的注册和导入等功能,有对数据库的备份和恢复的操作功能,也具有系统中所有人员的分数查询,打印报表等功能。

(二)专家主要完成对某专业题库的增、删、改、查等功能。对于某次考试需求要制定相应策略,比如考试时间的定义,题型的设置、每种题型的出题量、难易度分布,还有试题的回避策略等等。期中为保证试题不外泄,专家在出题期间是处于封闭状态,不允许与外界联系。专家出题流程如图2所示。

图2专家出题流程图3测评人员的考试流程

(三)测评人员主要就是实现在线考核。测评人员的考试流程如图3所示。考虑到系统在异常情况下中断,则测评人员的二次登录流程如图4所示。

图4测评人员的二次登录流程

四、总结

考试测评篇3

关键词: 中学政治 学业水平测试 评价方式

随着新课程改革的快速发展,中学政治课的教学和评价方式改革迎来了历史性的转变。一些地方初中思想品德课已经退出升学考试的历史舞台,高中思想政治课到2017年大部分省份也作为选考科目的学业水平测试来考查。考试方式的转变,给一些中学政治教师带来困惑。是不是新的考试评价方式意味着政治课地位的下降?它给中学政治教师的教学方法、学生的学习方式带来哪些启示?新的学业水平测试的核心价值观在哪里?厘清这些问题,对于当前的中学政治课教育具有重要的理论意义和实践意义。

一、中学学业水平测试的核心价值观

学业水平测试登上历史舞台已经有一段历史,有代表性的是2005年江苏省开启的新一轮高考改革开始的,也就是教育界熟知的江苏“3+学业水平测试+综合素质评价”的08高考方案。随着高考考试改革的发展,注重过程评价是考试评价方式的一个历史大趋势。综合近十年中学学业水平测试改革取得的成果,笔者认为中学学业水平测试的目的在于推动学生学习方式的根本性改革;核心在于提高中学生的综合素质,促进中学生的全面发展;现实关照,在于减轻学生学习负担,推动教学改革和教育评价方式多元化。

(一)以生为本,回归本质。学业水平测试作为一种考试评价方式,其背后的根本价值思维方式在于回归教育的规律。按照教育规律和中学生身心发展的规律,让教育的动机和目的回归到教育的生态自然环境。现代社会快速发展,尤其是信息化时代的到来,社会问题越来越多,越来越复杂,对教育的要求越来越高。面对现实,教育必须培养具有信息化思维、国际化视野、具有创新精神和实践能力的现代化劳动者。教学不再仅仅以考试评价为目标导向,要符合时代客观要求,注重学生全面发展。

(二)以师为先,评价多元。评价方式的多元化,对于教学方式的多元化,学习方式的多元化发展具有目标导向作用。这是传统教育对教师思维的引导,不过可以趋利避害,发挥效率优势,积极进行政治课考试评价方式的转变,对于加快中学教学改革的步伐具有重大作用。这里的关键是政治教师考试评价观念的转变。教师要积极尝试新型的命题观念,“命题是学生学业成绩检测的重要环节,是每个教师教学的常规工作之一”[1]。

(三)关照现实,减负进步。如今基础教育的改革,中学生学业减负是一个社会热点。学生不是学的东西太少了,而是很沉重。而这一切原因,一些教师归结为高考的指挥棒。这是一方面原因,但是我们不能否定高考的巨大历史价值和作用。教育者更应该从教学、管理、课堂和评价上综合考虑。另一方面,科目众多考撕脱习,并没有从学生的爱好、兴趣和特长出发评价,不利于培养有个性、有专长和全面发展的人才。学业水平测试,可以说回应了这一教育和社会现实问题。

二、考试评价方式对中学政治课教学的新启示

伴随着新一轮考试评价改革的大潮,大部分地区的高考开始回归全国卷,打破了以往考试评价各自为政、参差不齐的局面,而且研究新课标卷,能够发现新的课程改革考说姆绞胶湍谌莘浅A榛睿不是考试评价回归全国卷后呆板、陈旧、封闭了,而是更加灵动、新颖、开放了。一线中学政治教师也有很深刻的感受,新课程的考试评价方式要求更高了,以前形成的应对高考的“八股文”不行了,这是思维长期封闭僵化的结果。新的考试改革的确迫在眉睫,新的教学和学习方式转变势在必行。

(一)积极应对,认清目标。中学政治课的教学目标不仅有知识性要求,更侧重思想性考恕H绯踔兴枷肫返驴危初中思想品德的考俗吖了从封闭式考试到开卷考耍直到今天许多地区的学业水平测试。从评价方式发展的历史轨迹中,能看出是在回归政治课的学科本质,初中生的法治观念、生命意识、安全意识、感恩意识、责任意识、爱国主义和集体主义等,封闭式的绝对评价方式显然不符合现实要求。教材、教学、评价都要根据课程标准的要求。新的过程性考试评价方式也是对新课程标准三维目标中的过程与方法和情感、态度、价值观要求的积极回应。

(二)丰富形式,高效课堂。评价方式的多元化、生活化要求教学方法要积极进行改革。在新一轮教育信息化发展的推动下,政治教师必须紧跟时代潮流,丰富课堂教学形式,活跃课堂气氛,调动学生思考,让学生在形式上和思维上动起来。让课堂充满朝气,提高学生学习的积极性。同时,政治教师更要积极学习各种高效课堂模式,如翻转课堂。更关键的是要能够形成适合教学实际的课堂教学的生态系统。

(三)求真务实,主体为本。应对新一轮的考试评价方式,逼着教师把课堂真正还给学生,教师不能缺位,对课堂不管不问,放任自流;也不能错位,对学生不恰当的引导;更不能越位,就是传统教学的“满堂灌”,“满堂言”。学生是课堂真正的主人,学习是课堂的主旋律。新的考试注重学生的创新思维、发散思维、辩证思维能力的考恕4鸢敢丫不再固定,走向开放。这就需要在课堂上真正让学生回到自然地课堂生态中,有压迫、压力、约束地进行自由、大胆、开放的思考和争辩,在课堂实践中提高学生的各种思辨能力。

三、中学政治评价方式新趋势及政治教师的新使命

教育评价方式的转变不仅要遵循教育规律,而且会响应社会发展的现实要求。新的考试评价方式并不意味着政治学科地位的下降,并不意味着政治教师工作任务的减轻,更不意味着对学生学习和教学的放松,而是意味着教师要从知识、能力、价值观等综合素质上提高,从而走在教育教学的前沿。根据思想政治课学科的复杂性、时代性、实践性等学科特性,思想政治课是紧密结合马克思主义中国化成果的学科,“思想政治教育的培养目标就是要坚持全面发展的观点,促进人的自由而全面的发展”[2]。思想政治学科的任务是培养有理想有道德的社会主义现代化事业建设的接班人。面对我国社会发展的新形势、新任务、新问题,思想政治学科的教学、科研、评价必须积极回应新动态,增强本学科的生命力、感染力和影响力。全面深化改革,全面推进依法治国,需要政治教育者积极响应社会主义核心价值观的教学新任务,动态地提高学习、科研、教学的能力,适应新的考试评价发展。

参考文献:

[1]胡田庚,著.新理念思想政治(品德)教学技能训练[M].北京:北京大学出版社,2009:172.

考试测评篇4

[关键词]形成性评价;高中英语;英语教学

一、形成性评价的定义及特点

形成性评价是在某项教学活动的过程中,为使活动效果更好而不断进行的评价,能及时了解阶段教学的结果和学习者学习的进展情况以及存在问题等,以便及时反馈、及时调整和改进教学工作,获得最优化的教学效果。形成性评价的特点有以下几点:

1.改进学生的学习。形成性测试的结果可以显示出学生在掌握教师所教授的内容中存在的不足和在学生学习过程中碰到的困难。在教师把批改过的试卷交给学生并让学生自主对照答案进行自我检测时,学生就能明白这些不足和困难,并根据教师的批语进行改正。

2.确定学生的学习进度。一门学科的教学总是可以分为若干个步骤,这些步骤都是循序渐进、紧密联系的学习基础要点,学生对一个单元学习要点的掌握都是学习下一个单元的基础。所以,形成性评价得结果可以用来评定学生对以往知识要点的掌握程度,并据此确定该学生下一单元的学习任务与速度。

3.强化学生的学习。形成性评价的结果可以对学生起积极的强化作用。结果可以起到积极的作用,一方面通过学生对所学所产生的反应加强其进一步学习的动机或调动了他的积极性,另一方面,也通过学生的认知反应加固了学生对正确答案的认识,校正了含糊的理解和不清晰的记忆。

4.给教师提供反馈。通过对形成性测试结果的分析,教师可以了解:自己对教学目标的陈述是否明确;教材的组织和呈现是否有结构性;教学过程中是否清晰地引导了学生的思路以及关键的知识点、原理是否已讲清讲透;使用的教学手段是否恰当等等。这些反馈的信息可以指导教师有效地提高教学质量,改正教学方法。

二、合理运用形成性评价

1.注重形成性评价与终结性的关系并且使二者有机地结合在一起。终结性评价,是以考试成绩来评定学生学习能力和教学质量,是在一个学习阶段末对学生学习结果的评价。它评价的是学习内容中易于量化的方面。这种评价易使学生产生焦虑感和紧张感,不易激发学习的积极性,而且这种方式忽视了学习的积累以及自我教育能力的培养,学生在学习中的主体地位不能得到充分体现,更不能适应对学生进行素质教育的需要,这也大大挫伤和遏制了教师教学的积极性,不利于教育教学的进步和发展。

形成性评价是重过程、轻结果的评价方式,而且在实施评价时,学生个体、同伴、教师可以共同参加评价。形成性评价是在一种开放的、宽松的和非正式的氛围中进行的。评价结果可采用描述性评价、等级评定或评分等形式来体现。形成性评价的目的是激励学生学习,帮助学生有效调控自己的学习过程,使学生获得成就感,增强其自信心,培养其合作精神,提高其自主学习的能力。

由于新课程标准的要求课程评价要坚持注重过程促进发展,把形成性评价与终结性评价有机结合起来。根据新课程的这一理念,我认为,要正确处理形成性评价与终结性评价的关系,就应该做到:(1)必须建立多元化的评价体系。现行教育体制是影响制约教育评价的最大障碍。即便是高水平的老师们应经对评价理论以及评价制度十分熟络,但受制于上级评价考核机制的制约,最后不得不又遵照了以前的评价制度。(2)评价指标和评价方式多元化。素质教育已经实施了很多年,但不得不承认,从家长到学校,到全社会,应试教育还是依旧扎扎实实,貌似应试教育已经在我们心中生根发芽,这就为开展形成性评价带来了不少困难。因此,这就要求我们教师应从多个维度对学生成长进行评价。(3)重视师生交流。在平常的教学过程中,教师应与学生并肩学习,在生活中把所学习的知识应用到实践,在师生交流过程中做到师生一起共同进步,在激励评价中共同成长。总之,教学评价不仅要重视结果,更要注重过程以及在这个过程中学生的变化以及发展。要把形成性评价与终结性评价结合起来,让学生在科学的评价中健康快乐地成长,让教师在准确的评价中得到发展和进步。

2.现行高中教学测试中形成性评价存在的问题。第一点:重信度、轻效度。任何语言测试都必须在信度和效度之间进行平衡和折中,然而这种平衡和折中在高中语言测试中并没有得到很好的体现。高中语言测试的一个重要偏向是过于注重信度忽视效度,这种倾向的主要表现是测试内容和形式脱离语言运用实际,重知识轻能力,注重领会式技能的考查,忽视复用式技能的考察。第二点:形成性评价关键在于学生能根据评价收集的信息来提高自己的自主学习的能力并且能适当依据结果来调整自己的学习策略,从而达到教学大纲中所要达到的掌握学习方法,社会情感。然而由于高中生的心理语言各个方面发展都没有达到成熟的程度并且习惯于总是以教师为中心的模式,所以导致在评价过程中参与性不强,缺少评价主体的意识。第三点:过分看重评价的结果而延迟反馈改进下一步的教学。现行的高中教学与测试还是过分看重评价的结果,忽略了形成性评价的根本本质意义。仅仅把评价的结果当成是选拔的结果,而没有继续为教学活动的下一步做改进。形成性评价是需要教师与学生的互动完成的。第四点:评价体系结构够不够科学,评价细化的部分是否合理都有待进一步的探究。目前的形成性评价还是过多的看重学生的分数,而忽视了学生在取得成绩的过程中付出的努力以及所运用的学习策略等。

三、对形成性评价在高中英语教学与测试的思考

基于以上对于形成性评价在现行高中教学与测试中存在的问题,我提出了三点建议。

1.使学生真正成为评价的主体。教师作为教学的引导者要不仅关注评价的结果,还要更加密切地关注学生的学习情况,并且让学生明确评价结果让他们明白自己在一段时间的努力学习后有哪方面的不足。

2.教师应该及时地对于评价中得到的具有指导性的信息做出反馈。这样才能更好地区组织下一步的教学计划,反思教学方法是否适合学生的需求并且进行适当调整。

3.教师应该多鼓励学生多进行自我评价和同伴间相互评价。因为学生应该知道自己与自己最佳程度之间的差距,并能根据评价的信息进行自我调节,这样才能提高学习效率以及自己的自主学习能力。

考试测评篇5

关键词:高等学校;普通话“机辅测试”;规范化管理

为加强对计算机辅助普通话测试工作规范化管理,保证普通话“机辅测试”的顺利开展并取得良好效果,教育部语用司和河北省分别印发了《计算机辅助普通话水平测试操作规程(试行)》(教语用司函[2008]23号)和《河北省实施细则》(冀教语[2009]4号),作为加强普通话“机辅测试”的宏观指导。但是,由于各高校的具体情况各不相同,高校需根据育部语用司和省语测中心文件要求,建立适合高校自身实际情况的普通话“机辅测试”操作规程,利用好高校现有各种资源组织大规模的普通话“机辅测试”,应明确各个岗位工作职责和工作任务,规范测试工作程序,严格测试工作纪律,从制度上保证普通话“机辅测试”工作的规范化、制度化和科学化。

一、建立健全管理制度

1.建立健全普通话测试管理机构

为能确保普通话测试工作的顺利进行,河北大学专门成立了语言文字工作委员会,由主管教学副校长任委员会主任,教务处处长任副主任。河北大学语言文字工作委员会下设语言文字工作办公室,挂靠教务处,设立专职岗位,由专人负责全校的语言文字工作。学校还建立了河北大学语言文字培训测试站,负责全校各校区普通话测试的组织、协调、管理等各项工作。

2.建立健全普通话“机辅测试”规章制度

建立健全普通话“机辅测试”各项规章制度,是完成普通话测试工作重要保障,也是普通话“机辅测试”规范化管理的政策依据。针对普通话“机辅测试”特点,结合学校具体情况,河北大学语言文字工作办公室按照普通话“机辅测试”的测试流程分别制定了候测室、备测室、测试室各岗位工作人员的工作职责与工作流程,以及测试系统管理员的工作职责与工作流程,做到职责分明,环环相扣,使普通话“机辅测试”管理工作规范化、制度化。

3.组建普通话“机辅测试”专兼队伍

普通话测试采用“机辅测试”后,前三题由测试系统自动评测,第四题需要人工评测,因此需要有一只普通话测试员专兼队伍。从原有普通话测试员中遴选一批对工作负责、业务能力强、时间相对充足的测试员进行专门在培训,使他们熟识普通话“机辅测试”下的测试评分办法、评分标准和网上评分操作流程,并定期组织普通话测试员校内、校外学习培训及研讨交流,加强测试员之间经验交流和相互学习,统一评分尺度,不断提升测试员的思想觉悟、业务素质和心理综合素质,以保证普通话“机辅测试”评分的准确性和公平性。

二、规范组织过程管理

(一)考前环节

1.制定测试计划

为顺利完成全校各校区本年度普通话测试任务,需提前谋划好本年度测试方案和计划,充分考虑普通话测试工作过程中涉及到的各个方面,尤其是测试时间和测试场所等。根据学校普通话水平测试测试计划,测试时间一般安排在上半年,这样有充足的时间给测试员对第四题进行评分,下半年能顺利完成本年度的测试和评分工作,并发放通过测试考生的普通话成绩单。在制定测试日程时,测试日期的选择尽量选择星期六和星期日,且要避开节假日和大型考试(如英语四六级考试、计算机等级考试、职业资格考试等),适当预留考生报名时间和考前培训时间,提前借用普通话测试用公共机房(用作测试室)和公共教室(用作候测室和备测室),按照国家普通话水平测试要求,在保证测试质量的情况下合理设置测试考场数,保证单个校区在一天内完成所有考生测试。

2.组织考前报名

为保证普通话测试工作的顺利进行,考生报名信息的准确性是十分关键的。为保证报名信息的准确性,应测年级的考生信息从学校综合教务系统学生信息库中导出考生信息及照片,再将导出的学生信息进行整理,将整理后的考生信息(包含学院、专业、班级、学号、姓名等)下发至各学院,由各学院核实报名考生报名状态并收取相应报名费用,各学院将核准后的报名考生及费用上报语言文字办公室。语言文字办公室汇总各学院报名考生信息及费用,并以此作为考生报名依据,按照国家普通话水平测试信息管理系统报名要求格式进行系统报名,批量上传考生信息及考生照片。

3.组织考前培训

组织考生考前培训,对普通话“机辅测试”工作的顺利开展是非常关键的,直接影响到效果。目前,大部分高校均未开设普通话必修课程,部分选修课程开设班容量较小,覆盖学生面较小,致使学生对普通话“机辅测试”的工作流程和注意事项了解较少,严重影响普通话水平测试的质量和效果[2]。因此,河北大学借助“可视化网络群控多媒体教室管理系统”组织全员覆盖的普通话考前培训就显得极为重要。河北大学考前培训内容应当包括应试必备心理、语言文字基本知识、发音技巧、“机辅测试”流程、测试纪律及相关注意事项等方面的培训,避免考生测试时因紧张而出现漏读、错读、漏行、误操作等现象,让学生熟悉测试评分细则及容易扣分点,指导学生加强普通话“机辅测试”实践机会,不断增强学生的语感和实践经验。

4.组织考务准备

按照普通话“机辅测试”工作计划和测试日程,提前准备好各项考务工作。根据总体测试计划及考生报名情况,合理设置考场数目,安排相应候测室、备测室、测试室场地,并按照候测室、备测室、测试室各岗位工作要求分别准备好所需考务用品(考生花名册、考生签名表、工作证、测试记录单等),测试室需提前准备好测试环境。为进一步节约普通话“机辅测试”成本,在保证测试质量和效果的前提下,候测室、备测室选用学校公用教室,测试室选用学校计算机公共机房。因此,测试室需提前布置好测试环境,按照普通话“机辅测试”考场环境布置要求,根据计算机公共机房面积及计算机台数,一般建议安排两个测试考场,两个测试考场需分区隔离,考试机之间前后左右距离均保证2米以上。考试机采用计算机公共机房的计算机,需在测试前安装好考试机客户端和耳机,并对安装好的考试机进行语音环境测试。监考机建议采用笔记本电脑,一个考场安排一个笔记本电脑做监考机。笔记本电脑需提前安装好监考系统,下载测试任务,随机分配测试用试卷,测试完成后便于带回上传测试数据。

5.组织考务培训

测试工作人员的考务培训对于规模大、场次多、连贯性强的普通话测试来说是极其重要的。对备测室、候测室、测试室各岗位工作人员进行全面而细致的考务培训,对于时隔一年再次承担测试任务的工作人员,不仅有利于熟悉普通话“机辅测试”工作流程,还有利用强调普通话“机辅测试”工作的考务纪律。在普通话“机辅测试”考务培训会上,要重点介绍各岗位人员的工作职责及考务纪律,明确责任到人,强调考试考务工作的纪律性和严肃性[3]。负责“监考机”操作的测试系统管理员需单独培训测试用监考机使用及其他相关事宜。

(二)考中环节

1.考务人员管理

按照普通话“机辅测试”工作总体安排,根据考务工作人员的岗位设置,可以将备测室、候测室、测试室的考务工作人员设置成若干个小组,每个小组设置一个小组长,由小组长负责本小组考务人员和各项任务的管理工作。在测试室内,可单独设置一名测试系统管理员,负责测试监考机的操作、测试进度和评测异常信息等,一个机房内多个测试考场可根据具体情况增加测试系统管理员。

2.测试环境管理

在普通话“机辅测试”工作开始前,需对测试用考试机进行测试环境布置,主要包括考场分布设置、考试机机位确定、考试机系统设置、测试软件安装、调试、试音等。河北大学公共计算机机房一般都是200台以上的大机房,一般一个机房设置2个考场,每个考场20个考试机机位。在考试机位确定时,应保证考试机前后左右间距在2米以上。监考机和考试机的操作系统要纯净,各类驱动程序完整,关闭防火墙、关闭杀毒软件,同一个考场的考试机和监考机要处于同一局域网网段,切断外网连接。检查监考机用加密狗授权数额,若不足测试用数需及时更换新的加密狗。测试完毕后可以将笔记本电脑直接带走上传数据,公共计算机机房可以直接恢复教学使用。备测室1-20号座位的备试用试卷应于同考场1-20号监考机分配的试卷一致。另外,需在校园内、备测室、候测室、测试室悬挂“严肃纪律、认真考试”等条幅,在电子滚动屏上显示“计算机辅助普通话水平测试河北大学考点”等信息。

3.考试过程管理

普通话“机辅测试”具有考生多、批次多的特点,因此,组织考生从候考到备考、再到测试之间的连冠有序就显得极其重要。考生提前半个小时到候测室报到,在候测室内观看“普通话‘机辅测试’考生要求及测试流程介绍”,熟悉考试流程。考生在测试前15分钟进入备测室进行准备,随机抽签确定测试机位号,到达相应座位上准备相应的测试试卷,15分钟后到达测试室在相应考试机上进行测试。测试室工作人员讲解考场纪律及注意事项,引导考生正确佩戴耳机、输入准考证号的后四位,核验考生个人信息,信息无误后等待考试指令。测试系统管理员操作监考机完成“系统检测”、“准备考试”、“分发试卷”、“自动试音”、“开始考试”、“结束考试”、“下场考试”等指令。

4.考场状况处理

在测试过程中,考点负责人及各工作小组负责人要加强巡视,及时处理各种突发状况,保证测试工作的顺利进行。测试室工作人员应加强考场纪律巡视,处理考场突发状况,如考生试音失败、考试机死机、前三题评测失败等。若考生出现前三题评测失败,测试室工作人员需登记考生信息及失败原因,并让考生重回候测室排队准备下一次测试。测试系统管理员要监控监考机运行状态,及时对无法连接考试机、考试机闪断、监考机无法发送试卷、监考机无法收取试卷、加密狗失效等各类状况进行处理,以免影响总体测试进度。

(三)考后环节规范化

1.测试数据管理

普通话“机辅测试”完毕后,测试站负责人与工作人员要及时将各类考试材料回收,及时整理汇总各测试考场的数据和信息,并及时将监考机测试数据上传至国家普通话水平测试信息管理系统。当天测试任务完成后,测试系统管理员就可以将监考机用笔记本电脑连接外网进行数据上传,由于测试数据较大,需要较长的时间上传数据,晚上互联网速相对较快适合数据上传,第二天早上数据便可全部上传完毕。上传完毕后,监考机上测试数据需再保存半年,待本年度测试任务全部评分完毕后,可再选择长期保存或删除。

2.成绩评判复核

普通话“机辅测试”的前三题由计算机系统自动评测,第四题“命题说话”需要进行人工评测,需要安排普通话测试员进行第四题评分,而由于考生数量较多,第四题评分一般需要较长的时间。在开始评分之前,要组织普通话测试员进行评分专题培训,统一评分尺度,严肃评分纪律,明确测试任务和完成时间,以保证普通话评分公正、公平、高效。评分完成后,学校普通话测试站要对评分结果进行复审,包括“偏差复审”、“一级复审”、“异常复审”等,以保证普通话测试员评分的准确性。

3.证书发放管理

普通话测试任务全部评测复核完成后,可向省普通话测试站申请打印证书。省普通话测试站按照普通话测试任务的批次分彼此打印普通话等级证书,打印完毕后下发到各高校。学校可根据需要将普通话等级证书批量扫描为JPG或PDF格式电子版,用于存档备查。学校按照考生报名信息分学院分班级分发普通话等级证书,由学院教务科长统一领取,做好证书领取记录登记。

4.数据分析报告

根据全校学生的报名情况、考前培训情况、机辅测试情况、成绩等级情况,以及普通话“机辅测试”考务组织情况和普通话测试员的评测复核情况等各类信息进行数据分析,撰写普通话“机辅测试”年度数据分析报告。通过分析参测考生的生源地因素、专业因素、性别因素等对考生成绩等级的影响,以及考生失分项目,分析原因并总结规律,提高下一年度考生考前培训的针对性和效用性。

5.测试工作总结

通过对本年度普通话水平测试工作各类数据信息的综合分析,概述全校本年度普通话“机辅测试”工作状况,总结普通话“机辅测试”工作过程中取得的经验和存在的不足,为下一年度测试提供改进的建议,以提高下一年度普通话“机辅测试”工作质量和效率。

6.测试档案管理

普通话测试各项任务全部完成后,应对本年度各批次普通话测试用材料及时汇总、整理、归档,做好档案归结工作。普通话测试工作的档案材料应包括:年度测试计划、测试日程、报名通知、报名信息、考务工作手册、各类测试用表、报告单、数据分析报告、测试工作总结等纸质版和电子版材料。

三、规范化管理

1.完善规章制度,优化工作流程

完善的规章制度和工作流程是保证普通话“机辅测试”工作顺利开展的基本条件,也是圆满完成普通话“机辅测试”工作的重要保障。建立健全普通话“机辅测试”工作的各项规章制度,规范普通话“机辅测试”各环节的工作程序,优化工作流程,明确各岗位工作职责,落实责任到人,认识普通话“机辅测试”工作的重要性、规范性和严肃性,各岗位工作人员按照既定工作程序完成各项工作任务,圆满地完成了普通话“机辅测试”工作的各项工作任务。

2.提高工作效率,降低测试成本

按照国家语委、省语委关于计算机辅助普通水平测试工作的各项要求,学校在保证普通话“机辅测试”工作的规范性和准确性前提下,通过不断完善普通话“机辅测试”工作计划,优化工作流程,提升工作效率,降低测试成本,降低人、财、物、时等各类资源消耗。

3.改进工作思路,服务教育教学

计算机辅助普通话水平测试只是一种手段,不是最终目的。借助普通话“机辅测试”来评测学生所掌握普通话能力和水平,分析并总结其存在的不足和改进的方向,最终还是要有针对性地提升考生普通话能力和水平,因此,开设全校《普通话口语训练》相关课程或专题讲座,通过“以测促训”来提升广大学生的普通话能力和水平。

[参考文献]

朱荣梅. 提高普通话水平测试员的素质确保测试的公正[J]. 杨凌职业技术学院学报,2012,11(4):94-96.

[2]郑陶凌,伦丽青. 高校“三点四面”普通话培训模式探索[J]. 东莞理工学院学报,2012,19(6):94-97.

[3] 张静雯. 机试背景下的考务管理与普通话水平测试信度[J]. 文教资料,2012(23):58-59.

基金项目:本文为河北省高等学校人文社会科学研究(语言文字专项)2012年立项项目“高校普通话‘机辅测试’规范化管理研究”(项目编号:YWZX201203)的研究成果。

考试测评篇6

关键词:散打 技能考试 比较研究 主观法 固定测力法 移动测力法

查阅中国期刊全文数据库,检索出散打教学类文章共94篇,其中谈及散打考试的文章有3篇,同时通过专家访谈得知,我国高校现存的散打考试基本形式有一维评价、二维评价、三维评价[1]和固定测力法考试[2]4种。所谓一维评价是指技能和体质评价;二维评价是合作教学的一种评价模式,成绩由合作小组个人的能力评价与全组的能力评价组成;三维评价是把学生的成绩分成3个轴,即技能体质轴、努力轴和合作轴。以上三种考试形式中散打技能评价一般是通过技术评定和教学比赛(以赛代考[3])进行,其评价依据是教师根据教学经验主观对学生的散打技能进行评定。本研究将这种技能评定方法称为主观法考试。固定测力法考试是以学生击打固定测力靶力值大小为依据对其散打技能水平进行量化考核;课题组研制出散打移动测力靶,并将其运用于散打技能考试,取学生击打移动测力靶力值作为评价依据,并将其称为移动测力法考试。本文对主观法、固定测力法和移动测力法3种散打技能考试方法进行实验比较研究,旨在探索更趋合理的评价方法。

1 研究对象和方法

1.1 研究对象

在河北科技师范学院2005级散打选项课15个教学班457名学生中,筛选体重在56公斤、60公斤和65公斤3个级别散打技能主观考试成绩在90分以上的男生为实验对象。满足条件的样本有62名。

1.2 研究方法

1.2.1 器材制备

固定靶受力置固定;移动靶受力体能够前后1米、水平360°和垂直360°位移,并在击打瞬间自动锁定。固定靶、移动靶显示屏均能读取多次击打累计次数和击打力。通过秦皇岛计量测试中心测试,固定靶、移动靶测力范围均在1-800kg,测量误差±1kg。采集显示数据功能满足测试工作需要。

1.2.2 文献资料法

查阅散打考试方法、散打器材研制报告、体育统计学等与本研究有关的文献资料,为研究提供理论依据。

1.2.3 专家访谈法

就各高校散打考试的基本形式和散打技能考试的一般方法,与散打课程专家和散打任课教师进行访谈、交流,听取专家的看法,征求研究的建议。

1.2.4 实验设计

3个级别均使用右(左)冲拳-左(右)冲拳-右(左)鞭腿组合技术[4]连续击靶10次作为实验内容,固定靶限时25s,移动靶限时35s,移动靶针对每位实验者的移动规律相同。

1.2.5 统计与比较

绘制各级别组个体10次击打固定测力靶和移动测力靶所得击打力均值直观图,并对实验所得数据使用统计方法进行显著性检验[5]。分别对主观法与测力法、固定测力法与移动测力法散打技能考试方法进行比较。

2 结果与分析

2.1 研究结果

2.2 分析与讨论

2.2.1 主观法与测力法的比较分析

主观法考试一般是通过教师的“看”和“听”来判断学生的散打技能水平,所谓“看”是教师根据学生身体的灵活性、动作的协调性、拳和腿的爆发力、教学比赛中技战术运用的合理性等因素对学生的学习效果进行评定;所谓“听”是教师根据学生击靶声音来判定学生的击打效果。测力法考试以量化数值为依据,直观地反映出学生的击打力大小。

研究对象的散打主观考试成绩均在90分以上,同属优秀范畴,同级别内散打技能水平应相差较小,但通过图1、图2击打力曲线可以直观地看出,各级别内部个体之间击打力值参差不齐。表1、表2中同组击打力最大值与最小值呈显著性差异p

教学与考核是教育活动中密不可分的两个重要环节。考试的形式直接影响着学生的心理变化,考试形式不同,学生的心里指向就不同。无量化的考试形式会使学生忽略技术运用的实效性,背离对散打运动基本属性的正确认识,有碍于学生形成良好的散打运动技能。这将会制约散打运动在高校的良性发展。测力法考试量化了考试标准,有助于学生自测自评和教师以及学校管理部门对教学效果的反馈和监督,将会使教学质量得到保障与提高。

2.2.2 固定测力法与移动测力法考试的比较分析

固定测力法和移动测力法考试均以学生的击打力大小来衡量学生的散打技能水平,量化了考试标准。但表3中56公斤级固定靶测力值高出移动靶测力值24kg,60公斤级高出23kg,65公斤级高出31kg,经T检验3组均呈现显著性差异,统计结果说明虽然两种测力法考试均以击打力为标准,但两种考试结果存在着较大的差别。这是由于固定靶受力置无法移动,因此固定测力法考试实际检验的是学生的最大击打力和原地散打技术动作效果。然而散打运动是对手之间在移动中进行对抗的体育项目,所以固定测力法考试存在着一定的局限性;由于移动测力靶的受力体可以在一定范围内随意移动,使学生的考试在模拟实战进攻的情景下进行,又因实验对象运用散打组合技术进行打靶实验,所以移动测力法考试不仅直接检验了学生的进攻击打力效果,同时间接检验了学生步伐的灵活性、动作的协调性和击打时机的准确性等多项技术指标,对散打技能评价更具实际意义。但移动测力法考试仍无法测试散打防守技术效果是研究的一个缺憾。

2.2.3 三种考试方法的综合分析

在散打运动进入高校课堂初期,主观法考试实施了对散打技能教学过程的主观评价,使散打运动在高校得到了顺利的开展;随着新型体育器材的涌现,散打固定测力法考试弥补了主观法考试的缺点和不足,使散打技能考试向着客观化迈进了一步;应用课题组研制的散打移动测力靶考试是体育科研进步的体现,散打移动测力法考试量化了学生模拟实战进攻效果,突出了对学生运用技术能力的考核,符合高校体育教学改革发展的要求。

3 结论与建议

3.1 结论

单纯主观法、固定测力法和移动测力法三种考试距离客观评价学生能力均存有缺陷。

3.2 建议

综合运用上述三种考试方法对学生的散打技术进行评价,其评价结果将会更接近反映出学生实际能力水平。建议对此课题有兴趣的同行就主观法、固定测力法和移动测力法在散打技术考试中综合运用的权重展开研究,共同探讨更趋合理的散打技能评价体系。

参考文献:

[1]刘劲松,刘世海,曾于久.散打教学中运用“合作教学、三维评价”教学模式的实验研究[J].首都体育学院学报,2006,(5):58-59.

[2]李汉桥.新型电脑拳击测试仪[J].湖北公安高等专科学校学报,2001,(4):94-95.

[3]黄玉珍.散打科目“以赛代考”考试改革的在思考[J].福建公安高等专科学校学报,1999,(4):86-87.

[4]袁镇澜.散打摔跤[M].桂林:广西示范大学出版社,2000:44.

[5]卢纹岱.体育统计分析[M].北京:电子工业出版社,2002:110.

[6]张瑞林.散打[M].北京:高等教育出版社,2005:171.

考试测评篇7

1.背景

正式的语言测试起源于中国东汉时期的科举考试,但现代意义上的语言测试却于20世纪中叶诞生于英美等发达国家。20世纪60年代,外语测试作为一门新的学科从外语教学中独立出来,作为语言学、教育与心理测量学、计算机技术等的交叉学科,半个世纪以来,国外大批语言学家在语言测试领域取得了卓越的成就。中国的高考和大学英语考试(CET)虽有数百万考生规模,但在研究方面仍落后于英美等发达国家。至今,以美国ETS开发的TOEFL考试和英国剑桥大学考试委员会主办的IELTS考试为代表的西方国家研究水平仍执全球之牛耳。虽然近些年,国内学者越来越重视外语测试的研究,国内专业期刊如《语言测试》、《语言评估季刊》、《外语测试与教学》等相继出版,但学者们大多关注于测试的开发实践,而对测试理论与实践的研究较少。李筱菊[2](P441-447)按新科技对语言测试的影响把语言测试的发展分为计算机前语言测试和计算机后语言测试。计算机后语言测试又分为五代,第一代称为计算机化语言测试:考试实施开始使用计算机;第二代称为调适性语言测试:考试实施中 使用调适性编程,即计算机会根据考生的做题情况调整试题的难易度;第三代称为多媒体语言测试:应用多媒体技术建立多维度情景,创造真实化交际情境;第四代称为连续性语言测试:测试性质从静态转变为动态,关注测试个人化,注重受试者的学习过程和个人情况;第五代称为智能化语言测试:测试情景化、互动化、智能化。正是在这样的背景下,《现代语言测试与评估丛书》在曾用强博导的主编下应运而生。

2.简介

本书作者认为计算机技术的发展对语料库与语语言测试的发展产生了巨大的影响,得益于计算机技术的普及和进步,机读语料库及其研究和应用开始日益兴奋;对于语言测试,计算机平台带来了巨大的考试变革;语料库对语言测试的发展也提出了新的要求和预期。此书着眼点是计算机技术、语料库和语言测试三者的结合,讨论范围限于计算机和语言测试的交叉点、语料库本身和技术方法在语言测试中的应用接口,以及这三者的综合应用。文中先分别讨论了计算机技术和语料库各自对语言测试的影响和作用,然后探讨这两者的综合应用,最后介绍计算机技术和语料库在语言测试中的具体应用实例:广东高考计算机化英语听说考试的开发和应用,以及基于语义连贯性的计算机自动作文评分系统开发和应用。本书由五个章节和一个附录组成。

第1章旨在指出本书的写作目的和要点。这一章节首先澄清了书中所涉及的主要概念:语言测试主要是指对中国外语学习者所学外语能力的测量和评估;计算机技术的概念包括软件、硬件和网络;语料库主要指现代机读语料库,这类语料库能够在计算机平台上存储和查询。本书的写作目的是为了让读者了解计算机和语料库对语言测试的帮助和作用,同时也介绍这些新技术方法可能存在的局限性,而不是说服读者在语言测试中应用计算机技术和语料库方法,也不是声称基于计算机和语料库的语言测试能够优于传统的笔纸测试。计算机化语言测试的优点包括时间节省、信息收集、数据存储、心理测量、多媒体化和标准化;受到的一些制约因素有:专家匮乏、技术限制和实施障碍。本章节的要点则是对语言测试和计算机之间的相互关系展开论述,同时也对语言测试和语料库的发展进行回顾。

第2章则具体阐述了不同形式的计算机化语言测试,包括听说读写四种主要考试形式在计算机平台上的实现。在本章节中,作者重申了计算机化语言测试的质量评价标准和传统的笔纸考试一样,由效度和信度组成。作者认为即使是一个有较好效度的传统笔纸考试,照搬到计算机平台,其效度也可能发生变化。导致出现这种现象的原因可能是受试者的计算机应用水平差。对于测试的信度而言,计算机化语言测试存在的主要问题是:1)在自适应测试的环境,如何保证受试者重复测试时所接收到的试题具有相同的难度和区分度等标准,而且产生的结果一致;2)考试系统本身(硬件和软件)的稳定性;3)考试的功能是否独立于外部环境,即考试在各种不同的外部环境中都正常使用,而不受地理位置、背景噪声、光线等因素的影响。

第3章从学习者语料库和母语者语料库两个方面介绍语料库在计算机化语言测试中的具体应用。作者先根据语料库的语料来源进行了分类:学习者语料库和母语语料库。前者是收集目标语学习者在学习过程中对目标语使用的记录,后者是目标语的母语者在目标语使用中的记录,这两种语料库的目的和功能不同,并且语料库数据来源也不同。

学习者语料库的主要数据来源是各种不同的语言测试,即采用考试中受试者的语言输出来组织和编辑完成,可随着类似考试的不断进行,不断扩充。从语料库的建设而言,学习者在语言测试环境下产生的语言使用成为语料数据的一个关键来源。反过来,学习者语料库对语言测试的发展也变得越来越重要。这种重要性体现在语言测试的设计、开发和评估等各个方面。母语者语料库的数据来源主要是英语母语国家的广播电视节目和出版物等。在此节中,作者介绍了目前最大型的三个英语母语语料库(英国国家语料库、美国国家语料库、澳大利亚国家语料库)的建立、发展和应用。通过查询英语母语语料库可以较为便捷地了解到某一个词或者词组在英语母语者中使用时的用法和特征。作者同意孔文和邹申(2007)的看法,即母语语料库可以用于试题开发制作、语言测试设计和自动评分系统开发。

第4章讨论了计算机技术和语料库在语言测试中的综合应用,提供计算机技术和语料库在语言测试中的综合应用实例,介绍广东高考计算机化英语听说考试和计算机自动作文评分系统的开发和应用。

高考计算机化英语听说考试的考试时间为30分钟,包含三个部分:模仿朗读、角色扮演和故事复述。评分方式为计算机辅助网上评卷方式,各个部分的评分侧重点不同,但都分三个档次给分。模仿朗读题考查语音语调、语速和内容;角色扮演考查语言和信息;口头作文考查内容、语言、流利度和语音。评分过程要求双评,如果两位评卷老师的成绩相差5分以上,就会有第三位评卷老师加入。每位评卷老师只负责一个部分的评分工作。作者认为这样的考试在考试组织、评分体制和受试者感受方面都有优势:能有效控制试题的安全保密性;能实现“一题多评”,使评分更加公平、合理;能让受试者更加容易把控自身情绪;有利于实现听说任务的公平性。在总结前人的研究后,作者发现涉及模仿朗读和角色扮演这两部分的研究还是空白,并提出这两部分有很多值得深入研究,如模仿朗读的反拨效应、模仿朗读材料的选取,以及角色扮演中对话场景选取和素材的裁剪等。

在计算机自动作文评系统的开发和应用这一节当中,作者先简要回顾了主流计算机自动作文评分系统(PEG、IEA、e-rater)中的连续性分析,然后解释向心理论的主要框架并介绍其在二语写作测量中的应用。向心理论的核心思想是在一个语篇片段中,每个语句都有语义中心,通过追溯各个语句中语义中心的变动可以了解该语篇片段的连续性。向心理论的语句中心分别是:前瞻中心、回指中心、优选中心。基于这三类中心之间的相互关系,向心理论框架中语句中心的过渡类型分四类:延续过渡、保持过渡、流畅转换过渡、非流畅转换过渡。

到底计算机和语料库的应用前景如何呢?在接下来的第5章作者试图回答此问题。在本章中,作者先回顾和展望了计算机和语料库在语言测试中的发展方向,然后对计算机和语料库发展在语言测试领域里的新要求和期望进行了讨论。从宏观角度来看,语言测试的发展不断受到科技发展进步的影响。新技术本身不能够保证考试质量的提升,而是结合相关理论,恰当地应用才能够产生所期望的结果。新技术的应用须着眼于通过测试来了解受试者对于目标语言的使用能力,而不是受试者能够多大程度上适应和应用这类新技术。新技术的应用更不应是导致受试者在测试中成绩起伏的原因,在使用时要结合教学和测试群体和环境的实际情况,尽量避免应用新技术导致测试本身结构效度降低的情况。但是,在语言测试中采用新技术的目的除了提高信度和效度外,也要考虑节约成本和提高工作效率。在此章节中,作者也认同李筱菊老师提出的观点:语言测试是在信度、效度和实施条件三者间的动态平衡,并提出从长远的角度看,语言测试的发展将更加倚重于新技术,在实现提高信度和效度的同时弱化具体测试环境和条件对测试本身的限制和所不希望的影响。

最后在附录中,本书提供了计算机自动作文评分系统开发和应用中各种统计模型的计算结果。

3.特色

本书的最大特色是紧跟新时代社会科技的发展,把计算机技术、语料库、语言测试三者完美地结合在一起讨论。从语言的听、说、读、写四个技能的测试入手结合计算机技术的发展展开讨论。

在计算机辅助听力测试方面,作者提出听力理解考试的设计和开发需考虑三方面因素的影响:多媒体的参与度、任务形式、综合难度。在口语语篇环境中,影响听力理解的因素有语速、口音、音调、停顿、文体特征、受试者自身的背景知识等。在总结多方学者(如:Song,2012; Ginther,2002; Ockey,2007; Coniam,2001; In’nami & Koizumi,2009; Hoven,1999等)在机辅听力测试方面的研究成果后认为我们不应简单地支持或反对多媒体化的听力测试,而应依据实际测试的用途和目的来设计计算机化听力测试试题。

在口语测试方面,作者把口语能力解释为信息口头表达能力,这种能力包含对信息能够实现语义层面的表述(语义完整性)和对信息表达的恰当性(语用完整性)。由于影响口语流利度的因素包括:社会环境、生理的语言生成系统和心理因素,因此,作者认为在口语考试中无法测量到全面的口语能力,而只能测量到口语能力中的一部分。影响受试者表现的因素还有:受试者的个体差异、任务特点、交际者/话语对象、评分员和量表。作者介绍了IELTS和TOEFL的口语考试中测试的侧重点和考查内容,目前的机辅口语考试评分还是以人工评分为主。由于技术原因,计算机自动评分还没有大规模应用,还只是在实验和探索阶段。目前计算机平台的口语测试发展有一个重要特点:尝试引入自动评分系统,以期实现减少口语考试中评分员因素对考试效度和信度的负面影响。作者认同目前计算机自动评分技术的应用并不成熟的观点,计算机对自动口语语义识别还无法做到精确判读,所以无法用于涉及语义的口语测试题型。

对于阅读测试,虽然与机辅考试相比,受试者在笔纸考试中可以很方便地前后浏览和更改答案,但是从总体上来看,传统考试和计算机平台在文本呈现方式上没有本质的区别。作者例举多项研究(如Moore, Morton & Price, 2012; Sawaki, 2001)证明机辅阅读测试和传统阅读测试具有相同的结构效度和预测效度,而且计算机平台还可以让受试者在回答问题的过程中更加便捷而节约答题时间,也更易于老师使用形成性评估,更加便捷地观测学生的阅读结果数据。计算机阅读测试在效度和信度上与传统的笔纸考试拥有基本的对等性,但计算机阅读习惯和传统的纸张阅读有所不同,对此,作者提出计算机平台阅读测试要精心设计用户界面,使其方便阅读。对于不习惯计算机屏幕阅读的群体,提供笔纸考试的选择。

在讨论写作测试时,作者把计算机辅助写作教学和测试放在一起讨论。在对比不同学者对机辅写作测试和笔纸写作测试的观点时,作者较赞同MacArthur(1988)、Bangert Drowns(1993)、Lee(2004)、Li(2006)等学者的观点,即计算机写作能够让受试者写出更好质量的作文,当然前提是他们能熟练地使用计算机。对于作文自动评分的讨论,作者对比了PEG、IEA和e-rater的各自特点后提出尽管这三个系统在人机对比中的评分都达到了一个非常高的准确水平(r0.85),但都基于相同的工作流程:样本训练―统计模型生成―作文评分,而且这三个系统在自动评分时都缺乏对语义的分析和诊断。由此可见,到目前为止,作文自动评分系统更加适合于课堂教学的辅助活动,在大规模考试中替代人工评分员还是不太适宜。

本书的另一大特色是从计算机和语料库与语言测试形成的互动关系角度出发,探讨了把计算机和语料库引入语言测试之后随之产生的新概念和认识,同时还注意到了新技术促使语言测试中出现的新测试形式和方法。新的概念和认识则是对李筱菊老师[2](P451-456)提出的语言测试“消亡”论的详细解读,并明确认同在新技术发展应用的时代背景下,传统意义上的语言测试是必将消失的。在利用新技术所带来的便捷时,作者也提出了需要考虑的现实问题,如计算机设备有可能新旧不一,所使用的操作系统的兼容性问题等。

参考文献

[1]王永庆. 计算机技术、语料库与语言测试[M]. 北京:科学出版社, 2014.

考试测评篇8

关键词:大学英语;学习评估;评价要素

中图分类号:H310.4 文献标识码:A 文章编号:1673-1573(2012)04-0035-05

一、研究现状概述

大学英语学习评估是对学生英语听、说、读、写、译五项基本技能掌握情况的考核和评价。根据资料和调查发现,近十年来,关注大学英语学习评估的人日渐增多。这些研究一般着眼于大学英语评价体系一元化的个案研究,从一个个侧面研究评价的策略和效度等。这些评价体系主要包括:网络性评价体系、动态评价体系、发展性评价体系、多元性评价体系、形成性评价、真实性评价、课堂评价、成就测试与评价、档案袋式评价和四、六级考试的反拨作用等。在这些评价体系中,网络性评价体系根据网络媒体的高度交互性、学生学习自主性和时空分离性等特点,依托网络广泛收集影响网络教学的信息,加以分析整理,对照评价指标进行学习评价,是一种正在被越来越多的人研究、使用的在线评估方式;终结性评价是指教学活动结束后为判断其效果而进行的评价,一般在一个学期结束后进行,侧重考查学生在相对较长时间的学习情况;发展性评价主张把过程性评价与终结性评价结合起来,对学生学习的评价既注重考查学生学习的过程,又注重学生学习的结果,即把学习过程和学习结果结合起来,以发展性的评价手段来评估学生的学习情况;形成性评价则主张评价手段和内容的多样性和广泛性,结合课堂表现进行观察和分析,将学生实际表现出的技能水平和所学习的结果呈现形式作为评价的依据,是一种动态的、连续性的活动。

综观大学英语评估体系的发展过程和趋势,总体呈现以下特点:

1. 客观、公正和与时俱进是评价体系的基础和原则。对学生进行评价的目的就是正确了解学生的学习状况、学习效果,客观、公正的评价对于学生的后续学习以及教师的教学都很重要。社会的发展对教育的要求也在不断改变,与时俱进的评价理论创新体系在评估实践中也得到检验和丰富。

2. 规范化、模型化和系统化程度不断提高。随着信息化在各个高校不断的加强,原本动用大量人力阅卷的现象减少了,大量容易量化的客观题在评估中大显身手。各高校纷纷采用评估量化的模式,这种评估模式深受大学英语四级考试的影响,一般采用标准化试题,考试题型包括词汇、语法、阅读理解、英汉互译、综合填空、单向选择等。由考试内容不难看出,我国高等院校的英语测试偏重于测评学生所掌握的英语词汇、语法等知识性内容,虽然便于操作,但对学生英语应用能力(听、说、译)测评不足。

3. 评估方式上的单一性、片面性。笔试仍然是考试的主要形式,课本内容占了试题的绝大部分。在评估学生的期末成绩时往往把学生的平时成绩考虑在内,平时成绩的测评标准不够明确,其评估缺乏公正性和客观性。另外,期末考试分数在学生的总分中比重较大,占70%~80%,这样会为学生提供错误的观念,导致一部分学生有投机心理,在平时不好好学习,指望期末考试前突击复习一下来通过考试。

4. 评价体系相对稳定,但也随着新的评价理念的产生而修正。多年形成的测评理念,使评价体系相对稳定。新的评价理念对大学英语评价形成冲击,不断在评价中反映出来,丰富了评价的内涵和形式。

从当前大学英语评价体系的实践来看,有其相对积极的一面,如规范化、模型化和系统化的评价可以缩小教师对学生的评价时间,大大减少了工作量,可以在形式上让学生确立公平竞争的意识;评估形式的单一性可以让学生专注于课本的内容,更好地完成课堂上所布置的任务,复习时有针对性。但也要看到,评价体系的缺陷带来的负面效应也较为突出:(1)评价标准上的不确定性,不能较好地体现学习导向,不能较好地体现激励作用和公平性。(2)期末成绩在总成绩中所占的权重较大,不易体现学生学习的发展变化。(3)测试主要采取笔试形式,评估方式上单一、片面,容易造成教师对学生口语训练的漠视。笔试固然有必要,但口试也是语言测试中极为重要的一环,离开口语的测试,对学生的评估很难说是完整和全面的。

二、评估过程和方法研究

学习评估效度是评价的重要核心理念之一,它是指评估手段评价所要评价内容的有效性。美国1985年修订的《教育与心理测量标准》明确指出,效度是一个一元化的概念,效度指的是根据分数所作出的推论在多大程度上得到证据的支持。一元化概念的提出,使效度研究成为一项综合性的研究。效度按不同的侧重点一般分为内部关联效度、结果效度、效标关联效度等。内部关联效度指测试内容对所要推论的评价范围内容的关联程度。而效标关联效度指根据一次测试中学生的表现对下一次测试中学生表现的预测程度。测试和预测的一致程度越高,效标关联效度就越高,反之,就越低。效度同样应该考虑结果效度,即测验评分及其结果。所谓结果效度主要指所评价是否促成了学生行为的改观。结果效度评价的目的在于促进学生的学习、提高学生的学习动力。

评估的反馈。评价要起到相应的促进作用就要及时、准确、完整地反馈评价信息,以便学习者了解自己的学习效果,从而采取相应的措施。单元测试和作业所反馈的是学生阶段性的成绩,加上课堂提问所获得的分数,教师利用这些平时分数以一定分值加上期末成绩以相应分值相加作为学期总成绩来加以量化,缺点是学生难以从这些分数和成绩中得到对其学习有益的指导性建议。大学英语四、六级考试委员会提供的考生信息也只是通过率、优秀率和不合格率,以及一些单项题型所获分数的数据,并没有对学生所犯的错误和这些错误的原因等作出详细的分析报告。另外,这些单项数据一般只能到达学校的教务部门以及相关院系领导手中,很少能到从事具体教学的教师手中,教师也因此无法根据这些数据为具体的教学服务,自然无法服务于学生的学习。

要构建科学的大学英语学习评价体系,必须做到:

1. 详细、具体并具有可操作性的大学英语评估标准的制定。评估考核的标准制定应注重学生的综合英语素质和跨文化交际能力的全面培养,其核心须以人为本,注重培养学生听、说、读、写、译五项基本技能的能力,注重学生可持续发展能力的培养,为学生的终身学习和未来发展打下坚实的基础。在教学上,一般应以“3S”为中心,即以学生(students)为中心,根据学生的实际水平制定相应的教学策略,尊重学生的个性和需求,积极引导学生根据不同阶段的学习状况采取不同的学习策略来完成学习任务;以社会(society)需求为中心,学生学习的内容应和社会需求相适应,注重所学和所用的统一性和一致性,避免所学内容和社会需求脱节;以主题(subject)为中心,注重课堂语言输入材料的主题性,所有的材料都要与该主题有密切的关系,围绕该主题开展一系列有助于课文理解的活动,使学生理解并融会贯通相关内容,提高教学效率,便于实施英语学习评估,激励学生学习英语的欲望和兴趣。

2. 根据不同时段、不同对象采用不同的评价方式和评价方法或多元评价方式和方法相结合。学生学习的阶段和学习的状况不同,测试的目的也不同,一般从开端到中间和结束阶段要分别采用诊断性评价、形成性评价和终结性评价。诊断性评价一般要在开始教学前实行,以了解学生的英语水平,从而在教学中做到因材施教、因人施教,以确保有针对性的教学策略和学习策略。形成性评价属阶段性测试,是动态的、连续性的活动。终结性评价要着重测试语用能力(包括词法、句法、连贯性和组织等)、社会语言能力(包括文化内涵、非字面的修辞、语域、语境和地道程度等),这些能力实际上就是语言交际能力,语言交际能力的培养是英语学习的终极目的之一,这和Taylor(1988)提出的语言能力、语言水平和语言运用的三分法是相符的。在学习过程中,除了单元测试和阶段性测试外,应加上非测试性评价。要客观、科学地评价学生的学习的状况,可以使用以下非测试性评价形式:课堂提问、日记、课外作业、问卷调查、面谈、小组讨论等方式。这些非测试性的评价方式的使用,有助于建立反映学生综合掌握大学英语的学习评估模式。这些非测试性评价既可以作为形成性评价,也可以作为诊断性评价来实施,是对终结性评价体系和网络性评价体系等的有益补充。灵活具体地运用不同的评价形式有助于及时发现问题,调整评价标准与体系指标,从而提高教学的效率和评价的效度。期末测试和课程结业测试可考虑采用终结性评价。考试内容方面,不宜过多地采用客观标准化题型测试,尽管这种题型有助于教师阅卷,减少阅卷的误差。应加强英语语言、社会实际和学生生活经验的联系,重视考查发现问题、分析问题和解决问题的能力,应多考查实践语言的能力和创新思维,少考查记忆性内容、语法方面的内容(其实记忆性内容和语法已经贯穿在考试中了)。加大主观性测试的内容和权重,减少或淡化期末考试的分量,使测试服务于教学,服务于学生,服务于社会的需要。

3. 运用多媒体技术评价学生。网络媒体的广泛普及极大地促进了大学英语学习,丰富了大学英语学习手段,也有助于运用多媒体技术来动态地评价学生。多媒体测试不仅适用于课堂,还可以在课外测试,学生也可以对照评价指标进行自我学习评价。这也是大学英语学习评估值得关注的发展趋势。

4. 评价内容、评价手段和评价目的要相匹配。毕竟,相匹配是评价内容的关键,正如Hutchinson和Watershed(1987:97)所说的那样:“评价从根本上是一个匹配过程:将需求与现有解决手段相匹配。”离开匹配的评价,无法产生真实的结果,评价也就失去了意义。

5. 确定客观、科学的评价结果,注重信度和效度。把学生的平时表现以一定的分数加以量化,和期末成绩分别以一定的权重相加,适当加大平时成绩在总成绩中的比重,一般以不低于30%,不高于50%为宜。

三、衡量评估成功的若干要素

Heaton(1988)通过研究发现,效度和信度是衡量测试成功与否的标准。一项高质量的测试和多种因素相关,具体来说,最主要的因素莫过于以下三大因素:

1. 评估效度。评估效度是测试的前提和出发点,也是衡量测试是否成功的要素。抛开评估效度来谈评估无异于背离了评估的初衷。评估效度是指评估结果与目前或未来教师与学生教与学的关系(或其他与教、学有关的成果,如通过四六级考试的人数,研究生的录取率,学生的科研成果等等)。效度的大小是决定是否采用该评估方式的最重要的指标。如果一个评估方式不能提供有力的效度证据反映学生将会有怎样的学习表现,该评估方式则毫无价值。一般来说,效度主要包括内部关联效度、结构效度、效标关联效度。内部关联效度指测验内容对一定时间或一定范围内的评价内容的关联程度。而结构效度则是各种效度之本,结构效度决定整个测试的性质,决定测试属于哪个体系。结构效度能否准确验证与整个测试的成败有重要关系。效标关联效度指一次测试中学生成绩对下一次测试中学生成绩的预测关联程度的大小。效度的高低是衡量一项测试成败的最重要的指标,或者说是一项测试的出发点。一项效度比较低的测试是很难测试出教学效果和学生的掌握程度的,没有多少意义。可以从以下几个方面来验证一项测试的效度大小。(1)表面效度(face validity),又称为外行效度(layman validity),也就是外行根据直觉所作的评价。在评估中,学生作为被评估对象参与评价过程,教师同时也在被评估,学生在完成评估后,会对测试的表面效度有一个总体印象和评价。他们会就测试是否完整展示其学习效果做出主观判断。(2)内容效度(content validity),指测试是否符合大学英语考试大纲的规定,是否覆盖了一定时期所学的主要内容,或者说考试的内容能否代表它所要测试的主要目标。内容效度一般被认为是非经验性效度,因为它是由专业人士来分析判断的。内容效度具有稳定性特点,这和被试者的多种多样性形成了鲜明对比,这是它的局限性。它的另一个局限性体现在,只能根据被测试对象的做题情况看出其能做什么,无法看出其不能做什么。测试内容要涉及面广泛并无法由受试者预测,这样才能较好地体现内容效度。(3)结构效度(construction validity),指的是项目分数和测试分数的关联程度,这需要进行一定的逻辑分析和实证调查。如果逻辑分析和实证调查后该测试所测的东西与测试目的或测试理论相吻合,那么这个测试的结构效度就是成功的。反拨作用是考察结构效度的重要指标,是它的一个组成部分(Messick 1996)。(4)效标关联效度(criterion-related validity),也有人把它分为预测效度(predictive validity)和共时效度(concurrent validity)(Heaton,1988,171-173),主要考量其评估结果与实际学习表现和预期结果三者之间的因果联系。如果三者之间的关联度比较高,那么效标关联效度就高。一个卓有成效的效标应该具有可靠性、客观性和实用性。追求内容效度和结构效度的统一是近几年来的一个趋势。

2. 测试信度。测试信度(test reliability)是评价一项测试是否成功的重要因素之一。信度一般指测试结果具有可靠性、一致性和稳定性。信度系数愈高,表示该测验的结果愈可靠、一致和稳定,换而言之,用同一份试题对同一班甚至同一年级的学生实施两次或以上测试,如果结果一致,或没有大的出入,说明该测试的信度较高。这种信度传递了双层含义:同一阅卷者在不同时间段阅卷,所得分数应该大致相同;不同的人阅卷,分数也没有大的出入。需要注意的是,随机误差可能导致不一致性,从而降低信度。

检测测试信度就是依据效度理论,对某一测试结果的使用、解释以及根据结果所作的推断提供参考。检测测试信度的方法大致有以下几种:第一种是考后复考法(re-test method),用同一套试题,在考后的较短时间内对参加过该测试的学生重考,然后对比两次测试的结果,分析其相关性。目前不少高校对大一新生进行的入学测试就属于这一种,不过,有的高校直接采用了当年的高考英语试题,有的则另外出题测试,性质是一样的。第二种检测法就是所谓的试题分半法(split-half method),用同一种试题进行测试,不过,把试题的题号打乱。考后计算两半题目学生所得分数,从高到低进行排列,了解其关联性。国内进行的大学英语四六级测试就属于这一类。还有不少高校在期末英语测试中也采用这一类试题。第三种是平行形式测试法(parallel forms method),就是拿出一套题型与难易度和原试题大致相当的试题,让同一班学生或同一年级的学生在极短时间或连续时间内做完这两套试题,根据两次成绩高低排列计算出彼此的关联性。关联度越高,信度越大。

3. 试题区分度。试题区分度(test discrimination)是指试题区分不同学生学习和掌握知识的能力程度。一个班级、一个年级甚至每个学生学习兴趣有强有弱,学习习惯各异,学习策略不同,基础水平和掌握、理解知识的能力有高有低,导致学习水平参差不齐,反映在测试结果上也必然不同。如果同一道题,成绩好的学生答对率高,成绩差的学生答对率低,这道题的区分度就很强;反之,如果水平高的学生和水平低的学生答对率都很高或很低,那么该试题的区分度就很差,需要进行相应的修改。为了确保整个测试有较高的区分度,测试中最难和最易的题目都应该涵盖,最难和最易的题目在总量中所占的比例以占50%~60%,即各25%~30%为最佳。除此之外,试题是否便于使用,包括学生答题、教师阅卷等,以及测试对教师教学和学生学习是否具有反拨作用、反拨作用的大小等因素都应该考虑在内。语言测试的反拨作用指的是语言测试对语言教学和学习所产生的影响(Alderson & Wall 1993),反拨作用有正面的也有负面的(Hughes 1989),前者指测试促进了教学,后者指阻碍了教学。反拨作用和反拨作用的大小对一项测试具有重要意义。正如Swain(1985)指出,测试要取得最佳反拨作用。如果测试没有反拨作用或反拨作用太小,考试也就失去了意义。

四、结语

大学英语学习评估方式和方法是一项复杂的系统工程,随着测试技术和社会需求的变化发展而不断发展完善。国内很多人对此进行了研究,从实证研究到理论研究,从定量到定量和定性相结合,多元化的测试模式在逐步形成,测试者需要了解掌握系统性的评价标准,本文正是基于这一点,对各评估主要内涵进行了分析,总结了评估成功的若干要素。考试采取什么样的测试方式和方法,还要取决于测试目的。

参考文献:

[1]Alderson J & Wall D.Does washback exist? [J]. Applied Linguistics,1993,(14):115-129.

[2]Harris Michael&Paul McCann.Assessment[M].Oxfmd:Macmillan Heinemann English Language Teaching,1994.

[3]Heaton.J.B Writing English language Tests[M]. Longman Group UK Limited,1988:171-173.

[4]Hughes,A.Testing for Language Teachers[M].Cambrudge: Cambridge University Press,1989.

[5]Hutchinson,T. What`s underneath? An interactive of materials evaluation[A].London:Modern English Publications,1987:97-98.

[6]Messick,S. Validity and washback in language testing[J].Language Testing,1996,13/3:241-256.

[7]Swain.M Large-scale communicative testing[A].In Y.P.Lee,C.Y.Y.Fork,R.Lord.& G.Low(eds),1985:42-44.

[8]Taylor,D.The meaning and use of the term competence in linguistics and applied linguistics[J].Applied Linguistics. 1988.9/2:148-168.

[9]王华,富长洪. 形成性评估在外语教学中的应用研究综述 [J].外语界.2006,(4).

[10]邹慧民,蔡植瑜.实行形成性评价,改革现存大学英语课程评价体系的研究[J].江西师范大学学报 (哲学社会科学版),2006,(1).

[11]刘书亮,李萍.大学英语教学中的形成性评价分析[J].教育与职业,2005,(35).

[12]陈玉琨.教育评价学[M].北京:人民教育出版社,2001.

[13]郭茜.利用形成性评价促进大学英语教学中学习者自主性的培养[J].西安外国语学院学报,2004,(2).

[14]聂建中,汤晓媚.试论结构效度的发展演变[J]. 山西大学学报(哲学社会科学版),2006,(3).

The Commentary on Study Evaluation of the Foreign Language

Li Xuejin

Abstracts: It is indispensable activity of education and teaching to perform study evaluation to the students, which can contribute to understand students' learn condition, study effect and the teachers' teaching efficiency. Based on the comparative analysis of the advantages and disadvantages of different evaluation systems, we can analyze the development direction of the evaluation system. Through the research technique combined the directional and quantification method, we found that a successful evaluation is linked to many factors, but the most important factors are validity, reliability and discrimination.

上一篇:招商证券范文 下一篇:测评软件范文