软件工程学生开发能力评估

时间:2022-08-18 12:00:44

软件工程学生开发能力评估

1多面Rasch测量

项目反应理论(ItemResponseTheary,IRT)是现代测量学中的典型代表。IRT认为测量的目标不是被试在特定测验上得到的分数,而是由这个分数体现出来的能力,即被试的潜在特质,并且被试的这种潜在特质和其在测验项目上的表现之间存在着一种单调递增的函数关系。Facets是实现多面Rasch测量模型的主流软件之一[9]。图1描述了使用Facets系统对待评估内容进行统计分析的工作流程。由于版权限制,笔者使用Facets的演示版MiniFac[10]进行统计计算。需要说明的是,除了在数据处理量上有所区别外,MiniFac与标准Facets软件在功能上没有任何差异。

2学生实践能力评估架构设计

以华东师范大学软件学院(以下简称我院)2008级本科生某班14个项目小组在软件开发规范与实践课程中完成的软件系统为评估基础,通过对几种不同评估方式的比较和结果分析,探索构造高信度和效度的学生开发能力评估方法和技术。2.1课程说明软件开发规范与实践是学院开设的一门以学生独立开发为主的强实践类课程。课程由每天8小时,连续9天的实践课时构成。在这跨度为9天的实践工作中,学生以4人左右为一个项目团队,按照任课教师的要求共同完成指定系统的研发、部署和验收。每个项目团队设定项目经理、需求分析员、架构师、开发工程师、测试工程师、配置管理员等基本的研发角色。任课教师的主要职责是提出需求、进行必要指导、评估系统质量和学生的开发能力。为了保证结果的公正客观,待开发系统目前由教师统一指定,不允许学生自行选题。任课教师在实践课初始时,给出待开发系统的原始需求、需要提交的输出产物及其提交时间点。学生依据这些要求制订详细的项目计划,进行合理的项目管理和进度安排,独立完成系统的需求分析、架构设计、编码实现和测试等一系列研发工作,在规定的交付日期部署最终的软件系统并接受验收。表1是课程设定的工作量分配情况。表2是从可操作性角度为课程设计的开发与设计能力评价指标。表2中的各指标含义在系统验收之前已经向几位任课教师进行了统一说明。在实际操作中,课程最终成绩还包含团队合作、个人贡献等其他因素,但是,在本次研究中,主要考察的是分析设计和编码能力。2.2评分结果比较目前,在项目实践类成绩评定中经常采用两种方式:一是由教学班任课教师单独评定的学生成绩,称为孤评;另一种是由该门课程任课教师和相关专家组成的评估小组根据评价量表分别对学生项目进行评判,然后取算术平均值,称为组评。在实验中,要求软件开发规范与实践的3位任课教师分别对14个项目小组提交的项目资产按表2的标准进行独立评定。每个指标的评定分为12个等级,即优+、优、优-、良+、良、良-、中+、中、中-、差+、差、差-,并分别使用12~1的整数进行打分。表3给出了孤评和组评的结果,其中编码和分析在最终得分中各占50%。从表3中可以很直观地看出,孤评和组评的排名结果之间存在较大的差异。例如,第2组在孤评中得分为8.5而在组评中为4.83,两者之间存在近1倍的差距。但是,就排名结果而言,两种方式下第2组都是最低的。洛基量尺(logitsscale)是Rasch模型所采用的度量系。图2是使用MiniFac3.7对各任课教师的评分进行统计分析后,输出的结果总表。该表显示了学生开发能力、评价项难度、教师宽严度等内容基于洛基量尺的评估结果。表中的第1列为洛基量尺,其中0表示平均值。第2列是根据教师的原始评分计算出来的学生开发能力,其结果按照能力高低自上而下排列。从结果中可以看出,第5组(G05)学生分析设计能力最好,第2组能力最差,这与组评的结果一致。第3列是项目难易度。在软件开发规范与实践课程中设定了2个评价项,即编码能力(Coding)和分析设计能力(Documentation),从结果上看,分析设计位于编码上方,因此前者比后者稍难。第4列为教师宽严度。参与评价的教师按照严厉程度自上而下排列,位于上方的较为严厉,而位于下方的较为宽容。从结果上看,Gao的严厉度最高,Wang次之,最宽容的是Zhang。为了更加清晰地对比各种评估方式在结果上的异同,将几种方式的排名结果描绘成如图3所示的折线图。从图3中可以看出,组评和MFRM测量的结果非常接近,而孤评与两者之间的差距较大。请注意,在确定排名时,将得分一样的项目小组设定相同的排名(从评分意义的角度说,相同的得分意味着相同的能力)。

3结果分析

从评估方式的对比结果中可以看出,虽然孤评在资源、可操作性等方面具有较大的优势,但是,这种方式可能存在较大的误差,导致测试信度不稳定,因此不是一种值得推荐的评价方式。与孤评不同,虽然组评结果可以作为评价学生开发能力高低的参考,但是,一方面这种方式本身并不能说明评估结果的信度,另外一方面,如果希望从中获得进一步信息用于发现教学过程中的各类问题,例如,评价标准是否合理、如何更加合理地分配学时、教师宽严程度和学生能力高低之间关系时,则显得有些单薄。与孤评和组评不同的是,除了图2展示的结果总表外,MFRM软件还提供了许多其他的数据信息用于对上述问题的分析。3.1学生能力分析图4是MiniFac输出的学生开发能力分析详表。图4中第1列是MFRM计算的学生能力得分,从图4中可以看出,14个项目小组中,得分最高的(即分析设计能力最高)是第5组,得分最低的是第2组,平均能力得分为47.8。Measure列给出了能力估值,所有学生的能力估值在+1.52logits和-1.14logits之间,在平均能力估值(Measure=0)以上的有8组,以下的有6组,因此,高低能力学生的比例为4:3。这说明有42%左右的学生还需要进行进一步的学习和训练,其开发能力才能达到均值要求。ModelS.E.列是学生能力估计值的标准偏差,表明Measure列能力估值的精确度,标准偏差越小则表明精确度越高。InfitMnSq是加权的均方拟合统计量,其含义是所有评分人对该生评分的一致性[5]。该值的正常范围随测试类型的不同而有所区别。案例中,由于教师评分更接近于判定类型,因此,把这个范围设定为[0.4,1.2][11]。大于1.2表明评分人对该生的评分一致性较差,小于0.4则过于一致,缺乏可区分性。从图4中可以看出,第5、6、10组的Infit值均高于1.2,其中第5、6组争议最大。除了能够给出学生能力估值外,MFRM还提供了指示估值信度和效度的各项指标。Separation表明本次测量分数整体的有效性(由于在样本数据中包含了总体的所有元素,因此,只需要查看包含有Population(populn)字样的数据[8])。一般情况下,如果要到达0.9的置信水平,Separation的值需要达到3.0[5]。很明显,此次评分并没有达到要求,这可能是教师之间的评分差异造成的。为了证实猜测,将差异较大的第5组和第6组的成绩进行了适当地调整,Separation的值随之变为3.25。这说明需要对第5组和第6组的成绩再次进行审查甚至重新评定。SeparationReliability则表明了学生之间能力差异信度。该值越接近1,表明学生之间差异越大;反之,越接近于0,则表明学生之间能力差别不大[5]。研究中,该值达到0.82,表明学生之间确实存在较大差异。3.2教师表现教师在评价中的表现可以从评分的宽严度和评分的内部一致性两方面进行[4]。图5报告了本次研究中各评分教师的表现情况。从宽严度上看,3位评价人的严厉程度相差1.14logits(0.23-(-0.91)),同时,Reliability(notinter-rater)值为0.92,表明评价者之间的评价差别相当巨大。为了判别这种差别是否有意义,可进一步查看卡方值(chi-square)[4]。在本例中,卡方值在教师之间完全一致的假设下(显著性significance=0.00)为33.7,因此,说明教师之间存在一定的差异。这主要体现在,相对而言,zhang比其他教师更为宽松。后来的调查发现,zhang认为在现阶段的教学实践应以鼓励学生、培养其成就感和兴趣为首要,因此,在评分时,只要有运行结果就可以通过。从内部一致性看,InfitMnSq和OutfitMnSq列给出了教师评分时的内部一致性评估。与学生能力估值不同的是,在对教师表现一致性评估时,按照惯例,以“平均值±2个标准差”[11]作为可以接受的InfitMnSq和OutfitMnSq取值范围。案例中为0.84±2×0.19,因此,3位教师的评分结果均位于可接受的拟合范围[0.56,1.12],表明其内部一致性良好。一般情况下,如果该值高于平均值+2个标准差,则意味着需要对评分教师进行培训或者予以更换[4]。3.3交互特征分析除了上述信息外,还可以通过使用MFRM提供的偏差分析教师与项目组、教师与评分标准之间的交互作用,以了解教师的一致性。根据样本数量,研究中共有42个(14×3)教师与项目组之间的交互组合。图6仅显示了这42个组合中存在显著意义偏差的交互组合,即t值大于2.0或者小于-2.0的偏差。低于下限表示相对于其他项目组而言,该教师对该项目组更为宽容;大于上限则表示相对于其他组而言,该教师对该项目组更为严厉[4]。在这42个交互组合中具有显著偏差的组合有1个,即zhang对于第6组的评分相对于其他组而言比较宽松,占交互总作用数的2.4%左右。由于该值小于5%的可信经验阈值[4],因此,表明教师之间严厉度的差异对评价结果可信性的影响不大。除此以外,还对教师和评价项之间的交互作用进行了分析,没有发现显著偏差,表明3位教师在评判的前后一致性、对评判标准的掌握总体上都趋于稳定。这样的结果说明,评分教师虽然在严厉度上有一定的差异,但是在评分标准的把握和评判过程前后一致性上表现较好。

4结语

实践类项目成绩的可信和有效的评价一直是软件工程类专业教学评价关注的重点和难点之一。笔者提出了基于多面Rasch测量的学生分析设计、编码实现等开发能力的评估方法,并将其与孤评、组评等方法进行了对比。从结果看,由于存在较大的误差,孤评不是值得推荐的方式。相比较而言,组评和基于MFRM的方式得到的结果更为科学和准确。但是,前者能够提供的信息量较为有限,而后者不仅可以对评价误差进行修正,同时,还提供了评估结果信度、效度以及偏差分析等有利于发现教学中问题的各种信息,为课程改进和提高提供了科学的基础。

作者:姜宁康 孙海英 陈良育 刘静 单位:华东师范大学 软件学院

上一篇:从软件工程看物流应用启示 下一篇:软件工程专业实施策略