关联规则挖掘理论及其应用研究

时间:2022-07-16 10:30:42

关联规则挖掘理论及其应用研究

摘要:关联规则是数据挖掘的重要概念,其应用研究是目前数据挖掘研究的热点之一。本文针对目前学校教学评价中因缺乏有效、科学的方法而造成的不合理问题,为了解决这些问题,在查阅大量资料,并通过教学评价数据的有效挖掘,运用关联规则挖掘理论技术,构建教学评价新模式,从而使教学评价公平、公正、合理和高效,并通过实例阐述其在教学评价中应用的重要性。

关键词:数据挖掘;关联规则;教学评价

中图分类号:TP??? 文献标识码:A文章编号:1009-3044(2007)17-31374-02

The Mining Theories of Association Rules and its Application Research

QIN Bao-ling

(Information & Educational Technology Center of Foshan University,Foshan 528000,China)

Abstract:Association rules is the important concept that the data mining, its application research is the hot that the data mining research currently to order it a. This text aims at Currently, effective and scientific methods lack in the field of the school teaching evaluation, which results in unreasonable problem, for resolving these problems, be checking a great deal of data, and pass the valid excavation of the teaching evaluation data, usage the mining theories technique of association rules, set up the teaching evaluation new mode, aimed at making it fair, just, reasonable and efficient, and elaborate it through a solid example applied importance in the teaching evaluation.

Key words: Data Mining; Association Rules; Teaching Evaluation

1 前言

随着网络技术和数据库技术的飞速发展,各行各业的传统模式也随之改变,尤其对学校教学评价来说,也不例外。大家知道教学质量决定着学校发展的生命线,而影响学校教学质量的因素有很多,其中最重要的是教师,要拥有高素质的教师队伍,必须要有一个完整的教学评价体系。因此,对教师教学评价就显得特别的重要。因为科学的评价方法可以极大地调动教师的积极性,提高教学质量。从目前大多学校的教学评价方法来看,问题主要是评价单一,评价存在许多的弊端。

随着时间的推移,存在于教学评价系统中的数据越来越多,如何从这大量的评价数据中挖掘出潜在的、有用的数据显得非常重要。这里以高等教育为背景和计算机网络为操作平台,立足汲取别人经验,应用关联规则挖掘理论来探索现代教学评价,为教育管理者和决策者提供隐含在现代教学评价数据库中的理想模式,对促进教育信息化管理和提高学校教学质量等问题都具有一定的理论意义和应用价值。

2 关联规则挖掘理论

关联规则挖掘[1]是数据挖掘中最活跃的研究方法之一。最早是1993年由Agrawal等人提出的,主要是针对购物篮分析析问题提出的,目的是为了发现交易数据库中不同商品之间的关联规则。

2.1 基本挖掘理论[2][3]

设I={i1,i2,…,im}是一个项目集,事务数据库是D,事务T是I中一组项目的集,即T?哿I。对于项目集X?哿I,若X?哿T,则事务T支持X。若X中有k个项目,则称X为k-项目集。

定义1:设项目集X的支持数Count(X)=事务数据库D中支持项目集X的事务数,|D|=事务数据库D中总的事务数,则项目集X的支持度Sup(X)=。

定义2:设Count(XY)=关联规则XY的支持数,即事务数据库D中支持项目集的事务数,则关联规则XY的支持度Sup(XY)= 。

定义3:关联规则XY的置信度Conf(XY)=。

2.2 关联规则的挖掘问题和步骤

(1)挖掘问题

关联规则的挖掘问题就是在事务数据库D中找出具有用户给定的最小支持度Smin和最小置信度Cmin的关联规则。

强关联规则是指满足最小支持度阈值(Min Support)和最小置信度阈值(Min Confidence)的关联规则,即具有高置信度和强支持度的规则。这两个阈值均在0%到100%之间。

(2)挖掘步骤

关联规则挖掘主要包含以下二个步骤:

①发现所有的频繁项集,根据定义,这些项集的支持度至少应等于预先设置的最小支持度阈值;

②根据所获得的频繁项集,产生相应的强关联规则。根据定义这些规则必须满足最小支持度阈值和最小置信度阈值。

2.3 关联规则挖掘算法

Apriori算法[4](包括AprioriTid和AprioriHybrid算法)是关联规则挖掘算法中最为著名、最具影响、最为常用的算法,它是一种逐层搜索的迭代算法,同时又是一种宽度优先的算法。挖掘算法DA(Dynamic Apriori)一种更为快速、高效的,从实验的结果来看,DA 算法较Apriori有明显的提高。本文选用关联规则的AprioriTid算法来对实例进行应用分析。

AprioriTid算法表示如下:

输入:事务数据库D;Minsupport;Minconfdence。

输出:事务数据库D的所有的频繁项目集L和它们的关联规则AR。

方法:C1={csndidate 1-itemsets};

L1:={c∈C1|Sup(c)≥minsup};

T1:=事务数据库D;

For (k=2;Lk-1≠Φ;k++) do begin

Ck=Apriori-Gen(Lk-1);

Tk=Φ;

根据Tk-1和Ck生成Tk,由Tk计算CK生成Tk;

Lk={c∈Ck|Sup(c) ≥minsup };//生成频繁k-项目集Lk。

End;

L=UkLk;//L为D中所有频繁项目集的集合。

关联规则的生成与算法Apriori相同。

AprioriTid算法使用了Apriori-Gen函数以便在遍历之前确定候选频繁项目集。这个算法的新特点是在第一次扫描之后就不再使用事务数据库D来计算支持数,而是用另外一个集合Tk来完成,集合Tk中每个成员的形式为(TID,{Xk}),其中每个Xk都是一个潜在的频繁k-项目集。当k=1,Tk对应于事务数据库D。对于k>1,有算法产生Tk,与事务t对应的Tk成员是(t.TID,{T∈Ck|t中包含的T})。若某个事务不包含任何候选频繁k-项目集,则对这个事务Tk就没有条目。这样Tk中条目数量将比事务数据库D中的事务数少,尤其是对于大值的k而言。

3 关联规则挖掘理论在教学评价中的应用

评价教师教学质量问题,往往从多方面因素考虑,其中最重要的是从学生对教师教学方面的评价。在教学评价中利用关联规则挖掘分析影响教学质量的因素,对提高教师教学质量有很大的促进作用。

3.1 关联规则评价指标的设定

为了表述简单,这里只取10位教师的样本,每位教师有6个评价指标,如表1所示。

表1 评价指标表

3.2 数据预处理

为了更好的进行关联规则挖掘,对评价结果进行量化数据预处理,表中采用两个属性值,1表示达到该项标准,0表示未达到该项标准,如下列表2所示:

表2 评价结果初值表

3.3 关联规则挖掘过程

根据关联规则的概念和表3-2量化结果,可得出达到标准的指标项目集,即事务数据库D。TID={教师编号},项目集={达到标准的指标}。本文假定本次关联规则挖掘的最小支持度=60%,最小置信度过=90%,由AprioriTid算法计算,具体过程如图1所示。

根据挖掘结果,我们得出的强关联规则为:{A1,A2}A6(支持度是60% ,置信度是100%),此规则可解释为某教师符合指标A1=(教学态度好,责任心强,尊重学生,对自已的工作专心而负责)和指标A2=(因材施教,注重启发学生,信息量大)时,他必定符合指标A6=(与其他教师相比,你对此教师教学的总体评价)。

3.4 关联规则挖掘结果的指导意义

根据这条规则,如果收集到的评价数据在指标A1、指标A2和指标A6上不存在关联性,则可认为该份评价数据为无效数据,从而尽可能地提高评价的准确性、公正性和客观性。同样的,从教师的角度出发,任课教师的教学态度好、责任心强、尊重学生、对自己的工作专心而负责和因材施教、注重启发学生、信息量大是影响学生对教师评价的重要因素,所以学校应加强教师这方面的教育,使教师认识到这些因素的重要性,同时,多提供教师外出学习机会,使他们不断学习,不断提高自己的专业水平,这对一所学校来说是非常有指导意义的。

关联规则除了在检验评价数据可靠性方面发挥作用之外,它还可以帮助我们进行预测。例如经过数据处理,找出了A测试与B测试之间存在某种联系,就可以根据A测试的成绩来推测B测试的成绩。另外,还有通过关联规则挖掘找出数据变量之间的关系,例如,学生的学习质量与学习方法、教师的教法、学生原有的基础、学习时间以及与智力、性别等之间的关系,各种能力之间的相关,各门课程学习之间的关系等等。还有,为教学部门提供决策支持信息,促使更好地开展教学工作,提高教学质量,具有非常重要的作用。学校每学年都要搞教学评价调查,积累了大量的数据,如果仅仅把这些数据作为评优、晋升职称等的依据,显然是一种浪费,应该充分运用数据挖掘技术,挖掘出一些有用的知识来更进一步地为教学服务。需要注意的是,运用数据挖掘技术解决问题时,样本容量越大,获得的挖掘结果越可靠。

图1AprioriTid算法数据关联规则发现过程图

4 小结

关联规则挖掘理论是目前数据挖掘中最重要的理论之一,它的应用很广泛,包括金融、贸易、电信、体育等,而把它应用于教学评价的研究目前不算多,可以说是刚开始,随着关联规则挖掘理论的研究和应用的不断深入,教学评价的公平、公正、合理、高效离不开关联规则挖掘理论的支持。从目前查阅大量资料来看,关联规则挖掘理论应用于教学评价的研究,已引起教育管理部门专家的广泛关注,目前虽然没有成功的应用系统,但理论的研究已趋成熟,并不断得到完善。

参考文献:

[1]Jiawei Han Micheline Kamber 著,范明,孟小峰,等译.数据挖掘――概念与技术[M].北京:机械工业出版社,2001.3-8.

[2]苏新宁,杨建林,江念南,粟湘,等著.数据仓库和数据挖掘[M].北京:清华大学出版社,2006.149-159.

[3]朱玉全,杨鹤标,孙蕾等编著.数据挖掘技术[M].南京:东南大学出版社,2006.27-77.

[4]毛国君,段立娟,王实,石云,等编著.数据挖掘原理与算法[M].北京:清华大学出版社,2005.64-73.

注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。

上一篇:浅谈智能机器人避碰行为的学习方法 下一篇:《华夏Ⅱ》中的战士练级经验