关联规则在高校评教系统中的应用研究

时间:2022-04-13 07:16:23

关联规则在高校评教系统中的应用研究

摘要:数据挖掘技术在商业、金融等方面应用广泛,但在高校教评教系统中应用的比较少。在高校中,每年都产生大量和教学相关的数据,这些数据真实的反映了高校教师的教学情况,但并没有充分利用这些数据来挖掘出有用的信息来评教。通过对数据挖掘技术的研究,采用改进的关联规则Apriori算法,利用面向对象的程序设计语言开发应用软件,对收集的评教相关数据进行分析,找出学生评教结果和教师自身素质之间的联系,更好的为高校评教工作提供依据。

关键词: 关联规则;Apriori算法;数据挖掘;高校评教系统

中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)24-5818-02

Application of Association Rules in College Teaching Evaluation System

LU Zhou

(Baotou Light Industry Vocational Technical College, Baotou 014035, China)

Abstract: Data mining technology in the commercial, financial and other aspects of a wide range of applications, but application of the college teaching evaluation system was less. In Colleges, every year have a large amount of teaching and related data, these data reflect the college teachers' teaching situation, but did not make full use of these data to dig out the useful information to the evaluation of teaching. Through the research on data mining association rules, using the improved Apriori algorithm, by using the object oriented programming language software development and application of teaching evaluation, collect relevant data for analysis, to find out the students'evaluation result of teaching and the teacher own quality links between, the better for the teaching evaluation in colleges provide a basis.

Key words: association rules; Apriori algorithm; data mining; college teaching evaluation system

数据挖掘是应用一系列技术从大量的数据中提取人们感兴趣的信息和知识,它能够自动分析数据,进行归纳性推理,从中挖掘出数据间潜在的模式或产生联想,建立新的业务模型帮助决策者找到正确的决策[1]。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析的目的是找出数据库中隐藏的关联网。通过关联规则在评教系统中的研究,找出学生评教结果和教师自身素质之间的联系。

数据挖掘过程一般由确定挖掘对象、数据准备、模型建立、结果分析表述这几个主要阶段组成[2]。本文的挖掘对象以我院部分教师和学生数据为基础进行分析。

1 数据准备

数据准备阶段可分成3个子步骤[2]:数据集成、数据预处理和数据转换。

1.1 数据集成

数据集成是将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性,处理数据中的遗漏和清洗数据等。

在高校教务管理系统中,记录了学生基本信息表、教师基本信息表、教师任课记录表、学生评教数据表(表2所示)、教师总评得分表,把这些和数据挖掘相关的数据导入到新数据库中。课堂教学评价表如表1所示。

1.2 数据预处理

在处理遗漏数据时,由于遗漏数据相对偏少,可以采用属性值多的数值来代替填充。对于表1中最后得分为零或是满分的记录,由于这部分记录可能是教师没有带课、学生没有填写或是填写不负责造成的,属于异常数据,数据相对较少,予以删除。

1.3 数据转换

对于分散的属性值进行数据转换。由于最后得分相对比较分散,可以优(90~100)、良(80~89)、中(70~80)合格(60~70)、不合格(0~60)来代替数据库中得分属性值。

2 模型的建立

2.1 建立事务库

通过对教务管理系统中相关数据的访问,从中提取出教师的性别、职称、学历、工龄,再将评教结果与之合并成一张关系表,转换成事务库,成为数据挖掘的挖掘对象。为了分析方便,将提取的信息用代码表表示,教师性别:男I1,女I2;教师职称:初级I3,中级I4,副高I5,正高I6;教师学历:本科I7,硕士研究生I8,博士研究生I9;教师工龄:5年以下I10,6~10年I11,11~20年I12,20年以上I13;评价结果:不合格I14,合格I15,中I16,良I17,优I18。

2.2 对算法进行改进,生成频繁项集和关联规则库

改进的Apriori算法利用事务数据库D产生1-项集C1,然后扫描数据库D,对每个项的出现次数计数,确定频繁1-项集,同时将不满足最小支持度的条件的项从D中删除,并且将项数少于2 的事务从D中删除,产生新的事务数据库D2,然后由D2产生候选2-项集C2,可以减少候选2-项集C2 中项的数量。这样可以有效的缩小事务数据库D,并减少k-项集项Ck的数量,提高效率。算法流程图如图1所示。

当频繁项集生成后,对于任一频繁k项集,找出其中所有可能的真子集,作为关联规则的前件,计算相应规则的置信度。当某一规则的置信度大于给定的最小置信度时,输出该规则。

3 结果分析

从数据库中提取教师记录852条,学生记录9983条。选择教师的性别、职称、学历、工龄、评教结果作为数据挖掘对象,挖掘出学生评教和教师自身素质的关系。软件设计前台利用Visual C#作为开发平台,SQL Server2000作为后台数据库。

设置最小支持度分别为0.15,最小置信度分别为0.6。得出挖掘规则,部分结果如图2所示。

1)如果职称是中级、评价结果为良,推测出教龄是11~20年,支持度为0.17,置信度是0.65。

2)如果职称是中级,推测出学历是硕士研究生,支持度为0.23,置信度是0.8。

3)如果职称是副高,推测出教龄是11~20年,支持度为0.2,置信度是0.81。

4)如果职称是中级、学历是硕士研究生,推测出评价结果为良,支持度为0.19,置信度是0.89。

设置最小支持度分别为0.25,最小置信度分别为0.7。得出挖掘规则,部分结果如图3所示。

1)如果职称是初级、教龄是5年以下,推测出评价结果为合格,支持度为0.3,置信度是0.7。

2)如果职称是中级,教龄是11~20年,推测出评价结果为良,支持度为0.27,置信度是0.75。

3)如果职称是副高,推测出评价结果为良,支持度为0.32,置信度是0.86。

4)如果学历是本科,推测出评价结果为中,支持度为0.35,置信度是0.87。

从以上规则得出影响评价结果的主要因素是学历、职称、教龄,和教师的性别关系很小。职称为中级、教龄长或学历为硕士研究生的教师,教学质量较高。职称为初级、学历为本科的教师,教学质量较低。职称是副高的教师,教学质量较高。而且学校的中级职称教师中,学历为硕士研究生的比例较高。从中可以看出,该学校博士研究生学历和职称为正高的教师较少,没有挖掘出相关规则。我们建议学校相关部门应采取相关措施,提高低职称和低学历教师的学历层次,并在教学中多向老教师观摩学习。积极引导教师提高职称,并且引进高学历教师,尤其是博士研究生,并加强副高职称教师业务水平的提升,积极向正高职称的教师方向努力。

3 结束语

通过对关联规则在高校评教系统中的应用研究,利用改进的Apriori算法,设计了自动生成关联规则的软件,得出影响教学质量的主要因素是学历、职称和教龄。并给出了提高教学质量的建议。在今后的工作中还要努力把数据挖掘技术应用在高校其他领域中。

参考文献:

[1] 程丹丹.关联分析在中医数据挖掘中的应用[D].北京:北京交通大学,2006.

[2] 魏萍萍.数据挖掘技术及其在高校教学系统中的应用[J].计算机工程,2003(7):87-89.

[3] 秦吉胜,宋瀚涛.关联规则挖掘Apriori Hybrid算法的研究和改进[J].计算机工程,2004,30(17):7-8,135.

[4] 袁万莲,郑诚.数据挖掘技术在高校课堂教学评价中的应用[J].微机发展,2008,11(18):247-253.

[5] Chun S H,Kim S H.Data mining for financial and prediction and trading:Application to single and multiple markets[J].Expert Systems with Applications, 2004(26):131-139.

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文

上一篇:基于计算机RAID系统可靠性的研究 下一篇:网络会展电子商务功能分析――以“网上广交会...