数据挖掘在青海大学教学评估中的应用

时间:2022-10-26 11:23:04

数据挖掘在青海大学教学评估中的应用

摘要:数据挖掘技术是从海量数据中得到有价值的信息,关联规则挖掘是应用最广泛的数据挖掘方法之一。本文介绍了在高校现代化的管理中,如何积累大量的数据和信息,以便应用数据挖掘技术得到相关管理决策的信息和参考。

关键词:数据挖掘;关联规则;教学质量评估

中图分类号:G642 文献标识码:A

文章编号:1672-5913(2007)16-0057-03

教育部、财政部下发的教高(2007)1号文件中指出:“建立高等学校教学基本状态数据检测体系,定期采集各类高等学校本科教学基本状态信息和数据,统计和分析高等学校教学基本状态和变化趋势,逐步将教学质量和教学改革的数据向社会公布”[1]。由此看出,信息和数据在高校管理中的重要性。

随着信息技术在高校管理中应用的普及,积累了大量的数据。通过数据挖掘技术对高校长期积累的海量数据进行分析和处理,得到高校管理决策的信息是高校现代化管理的迫切需求。

1教学质量评估

教学质量是高校生存与发展的基础,也是高等教育国际化的必然要求。提高教学质量是促进高校改革与发展的关键,建立科学的高校教学质量评估系统是加强高等学校教学管理和提高教学质量的重要举措。

高校教学质量评估体系是由一系列反映被评对象目标的、相互联系的指标构成的有机整体。反映被评对象在实现教学目标的过程中各个方面的相互依存关系,是评估工作的出发点和依据,在教学质量评估活动中,根据评估对象的教学目的,按类别、逐层次地建立一系列评估指标,用以系统地、客观地反映被评对象的全貌。

对于高校而言,建立科学的教学质量评估体系,是进行高校管理的一项有效机制,同时也是进行教学信息采集、处理和分析的主要平台。科学的教学质量评估体系中反映出的问题将有助于教育管理者进行决策。

应用数据挖掘技术,从评估数据中找出大量真正有价值的信息,能够更好地对高校的发展和未来趋势做出定量的分析和预测,为高校的教育管理者提供更科学的决策基础,从而有针对性地加强教学管理,有效地提高教学质量。

2基于关联规则的数据挖掘分析方法

2.1关联规则核心算法

(1) 它具有支持度S,即事务数据库D中至少有S%的事务包含XÈY;

(2) 它具有置信度C,即在事务数据库D所包含X的事务中,至少有C%的事务同时也包含Y。

关联规则的挖掘就是在事务数据库D中找出具有用户给定的最小支持度Smin和最小置信度Cmin的关联规则。

2.2 经典的关联规则挖掘算法一一Apriori算法

Apriori算法是最著名、最有影响的单维、单层关联规则挖掘算法,该算法是一种挖掘布尔关联规则频繁项集的经典算法[2]。它利用频繁项集的先验知识,使用一种逐层搜索的迭代方法来找出所有的频繁项集。首先扫描事务数据库D,统计库中的事务数量和各个不同的项(1--项集)所出现的次数,进而根据最小支持度min-sup获得所有的频繁1--项集L1。然后用L1查找频繁2--项集L2,如此下去,直到不能找到频繁k--项集为止。该算法首次引入了修剪技术(Pruning)来减小候选集Ck的大小。所谓修剪技术就是利用“一个项集是频繁项集当且仅当它的所有子集都是频繁项集”性质,即如果一个候选k--项集的(k-1)--子集不属于Lk-1,则该侯选项集可以被修剪掉。修剪技术的应用降低了计算所有的候选项集支持度的代价,显著提高了生成所有频繁项集的速度,从而提高了算法的性能[3]。

关联规则挖掘是数据挖掘领域的一个重要方法,关联规则在教育领域中的应用也逐渐被人们所重视。高校教学管理涉及高校的各种对象,产生了大量的数据,利用关联规则,对这些数据的进行提取,可以评估教师的教学能力,教学活动的组织,促进教师改进教学策略,提高教学水平;同时也可以进一步得出隐藏在数据中的有用的信息,帮助教育管理者进行有效的决策,提高教学管理水平。

3数据挖掘在教学评估中的应用

3.1构建数据仓库

数据挖掘是建立在数据仓库基础之上的。建立数据仓库的目的是为了更好地支持决策分析。数据仓库中的数据具有集成性,它是对原始的过分详细的数据进行筛选、清理、概括和聚集等处理后的结果,它更适合决策系统的需求。数据仓库的数据具有时变性,它可把业务系统中不断变化的数据,经过数据清洗后追加到数据仓库中去,数据清洗是重复数据的发现与删除,由于数据来自不同的数据源,所以相同的数据经常会在数据仓库中出现多个副本,由于各个数据源的数据质量有较大差别,为了提高数据仓库中的数据的可靠性,需要将这些可能的重复数据找出来,并进行删除[4]。

学校的教学管理信息有:专业、课程、教师、学生、学生成绩、教师授课、教师的科研论文、学生评教等信息,针对这些信息构建学校的数据仓库。

3.2建立挖掘数据模型

根据学校的教学管理,结合数据仓库中的:教师授课、学生成绩、评教等信息。如:学历(学位)、职称、年龄;授课名称、课程类别、学生的平均成绩、学生评教结果等数据信息。构建相应的挖掘数据模型,数据结构如表1:

3.3数据预处理

数据预处理是对数据源进行加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行平滑,对丢失的数据进行填补,消除“脏”数据,消除重复记录等。使之符合数据挖掘的要求。它的主要工作有检查拼写错误,去掉重复的记录,补上不完全的记录,推导计算缺失数据,完成数据类型转换。数据变换的主要目的是精减数据维数,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。

对表1的源数据结构,将出生日期转换年龄,按本科教学工作水平评估指标体系的要求,按表2的规则进行预处理,将年龄,学生平均成绩、评教分数,分别变换成:年龄段、成绩等级、评教等级。并对个别的数据(此类数据量小,不能反映学校的实际教学情况)进行剔除,如:职称为“助教”和学历为“其他”的相关记录。

我校自2003年以来,有一万余条相关的教学信息。为了研究探讨的方便,仅选取我校2005--2005学年第二学期某教学单位63位教师的教学数据,经过预处理的数据如表3所示:

3.4数据挖掘结果与分析

根据表3提供的数据,设最小支持度为0. 2,最小置信度设为0.4,利用数据挖掘Apriori算法处理数据并得出关联规则。

成绩等级+评教等级,进行挖掘,挖掘结果如下:

结果表明:学生的考试成绩等级与学生的评教等级存在着较高的关联性,考试成绩等级为良以上,评教等级大多为良以上,考试成绩等级为及格,评教等级大多为差或及格,据此可以得出,学生的成绩和学生对教师的评教结论成正比,表明学生对教师的评教结果是真实的,通过学生的成绩,可以看出教师的教学质量。

学历+评教等级,进行挖掘,挖掘结果如下:

结果表明:学历与成绩等级存在着较高的关联性,学历为硕士,其所教授的相应课程的成绩等级为良好,说明硕士教师的教学质量较高,学历为本科的教师,其所教授的相应课程的成绩等级为中等,可以看出高校引进高质量人才充实教学的重要性。

年龄段+评教等级,进行挖掘,挖掘结果如下:

结果表明:中、老年教师,其所教授的相应课程,学生的评价较高,而年青教师,学生的评价大多为中,在一定程度上说明年龄越大,积累的教学经验越丰富,授课的效果就越好,学校可以依据挖掘结果有针对性地制定青年教师培养机制,利用“传、帮、带”的方式,使年青教师在老教师的言传身教的影响下,不断积累教学经验,提高教学质量。

4结束语

数据挖掘技术是计算机科学研究活跃的领域,高校作为科学技术的传播地,利用数据挖掘技术对日常的教学活动中积累的大量数据进行挖掘,挖掘出具有管理和决策的信息,使学校的管理进一步走向规范化、科学化、现代化。

The Application of Data Mining in teaching evaluation in Qinghai university

YANG Chun-jian,SHI Rui-ming,ZHANG Hong

Qinghai University,Xining,Qinghai,,P.R.China,810016,e_mail:

Abstract: The data mining technique gets a worthy information from vast amount of data, the connection rule excavation applies is one of the way which applied widely. In Long-term management of university, amount data and information are accumulated. Applying data mining technique get information and references of management decision which is the inevitable request of advancing management of university.

Keywords: Data Mining;Association rule;Teaching Quality Evaluation

参考文献:

[1] 教育部. 关于实施高等学校本科教学质量与教学改革工程的意见[EB/OL]. 中国教育和科研计算机网,2007-01-22.

[2] Jiawei Han,Micheline Kamber著,范明,孟小峰译. 数据挖掘概念与技术[M] .北京:机械工业出版社,2001:70-87.

[3] 毛国君,段立娟,王实. 数据挖掘原理与算法[M]. 北京:清华大学出版社,2004:66-68.

[4] 施伯乐,汪卫. 数据仓库与数据挖掘研究进展[J]. 计算机应用与软件,2003,(11):10-12.

“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

上一篇:“数据结构与算法”的教学改革和实验创新 下一篇:“计算机操作员”课程教学的三个环节