改进的Apriori算法在教学质量评价中的应用

时间:2022-05-08 07:27:34

改进的Apriori算法在教学质量评价中的应用

摘要: 文章针对经典的Apriori算法存在的不足进行改进,并把改进的算法运用到高校教学质量评价中,发现评价信息中许多潜在有价值的关联信息,帮助教学部门进行辅助决策,同时也为教师提供有价值的参考。

Abstract: In this paper, aiming at classic Apriori algorithm's shortage, a improved Apriori algorithm is proposed, and the improved algorithm is applied to the evaluation of teaching quality in universities, it can mining many potentially valuable information in evaluation information, to help teaching departments for decision-making and to provide valuable reference for teachers.

关键词: 数据挖掘;关联规则;Apriori算法;教学质量评价

Key words: data mining;Association Rule;Apriori Algorithm;evaluation of teaching quality

中图分类号:TP39 文献标识码:A 文章编号:1006-4311(2013)01-0161-03

0 引言

教学质量评价,就是根据教学目标和教学原则的要求,系统地收集信息,对教学过程中的教学活动以及教学成果给予价值判断的过程。目前高校教学评价方法不尽相同,大致可以分为两大类:一是单一的定性评价,二是定性与定量相结合的评价。定性评价是一种传统的评价办法,它主要侧重于定性分析。这种方法弹性太大,过于粗略,不能客观、准确、深入地反映教学实际情况,与现代教学管理对教学评价的要求相距甚远。定量评价主要是通过量化分析,反映教学质量状况。但目前的定量评价方法[1-2]存在如下问题:评价内容过于简单;评价主体过于单一;评价方法单一。随着我国高校内部教学质量评价活动的深入开展,究竟如何表达、分析、解释、公布和使用教学评价结果,才能调动广大教师和学生的积极性,使评价发挥出更大的作用,正是一个值得研究的新课题。

数据挖掘技术在挖掘己有数据中隐含的规律以及解决具体问题方面,是其他技术方法所不能比拟的。现已在实际领域得到广泛的应用,并且产生了良好效果。我们将数据挖掘这一现代分析技术引入教学评价,就能较好地解决教学评价中传统的定性与定量评价的不足。本文把数据挖掘的关联规则运用到高校教学评价中,可以发现评价信息中许多潜在有价值的关联信息,帮助教学部门进行决

策,同时也为教师提供有价值的参考。

目前最经典的关联规则挖掘算法是由Agrawal和Srikant[3]于1994年提出的Apriori算法。但该算法有明显的性能瓶颈:随着数据库容量的增大,在挖掘频繁模式时需要产生大量候选项集,多次扫描数据库,时空复杂度过高。目前针对经典的Apriori算法的改进已有不少研究方法,如十字链表法[4]、AprioriTid算法和它的改进算法[5-6]以及基于频繁模式树的方法[7]等。

本文提出一种改进算法:在扫描数据库的同时记录每个项目的支持事务,通过候选k-项集中每个项目的的支持事务集来确定候选k-项集的支持事务集,避免了重复扫描数据库,并通过筛选的方法来减少候选项的数目,大大地节约系统的开销。研究表明,该算法比Apriori有更好的效果。

1 Apriori算法

关联规则分析是通过量化的数字来描述一个事务的出现对另一个事务出现的影响度。设D为事务数据库的集合,I={i1,i2,……,in}是由D中n个不同的项组成的集合。事务数据库中每一个事务都有一个标示符,称作T。关联规则是形如X?圯Y的蕴涵式,其中X?哿I,Y?哿I,并且X∩Y=?覫。X表示此关联规则的前件或前提,Y为此关联规则的后件或结论,关联规则的挖掘就是要发现满足用户给定的最低支持度和最低置信度的所有条件蕴含式,即强关联规则[8]。这些规则的支持度和置信度都大于等于最小支持度和最低置信度。

包含k个项的项集成为k-项集,如:项集X={a,b}就是一个2-项集。若项集X的支持度不小于最小支持度,则称X为频繁项目集。

关联规则的挖掘是一个两步的过程,即找出所有的频繁项集和由频繁项集产生的强关联规则。找出所有的频繁项集决定挖掘关联规则的总体性能。

Apriori算法采用了一种宽度优先、逐层搜索的迭代方法。设Ck表示候选k-项集,Lk表示Ck中出现频率大于或等于最小支持数的频繁k-项集。但此算法在生成频繁项集时会产生大量的候选项集需要检验,并且每次进行频繁k项集判定时,都必须扫描整个数据库,时间空间花费极大。

2 算法改进

针对Apriori算法的局限和算法的时间效率与存储空间要求等各个方面的考虑,在本文中对Apriori算法进行改进。

2.1 采用筛选的方法进一步减少候选项目集中候选项的数量。

在Apriori算法中,Ck-1产生后与支持度进行比较,小于支持度的项集将被修剪,生成Lk-1,Lk-1与Lk-1进行连接

生产Ck。改进的算法是在候选项目集Ck产生前,对Lk-1进一步筛选,统计Lk-1中所有的项目出现的次数,删除Lk-1中包含出现次数小于k-1项目的项目集,以减少参加连接的k-1项目集的数量,从而达到减少Ck中候选项的数量。

2.2 采用支持事务求交法减少事务数据库的扫描次数 首先通过扫描源数据库,记录每个项目的支持事务,在求某个候选项集的支持度的时候,先把项集中所有项目的支持事务集做交运算即可求出该候选项集的支持事务集,进而求出它的支持度。在扫描数据库的同时记录每个项目的支持事务,通过候选k-项集中每个项目的支持事务集来确定候选k-项集的支持事务集,就会避免重复扫描数据库,大大地节约系统的开销。

2.3 改进算法描述

①扫描源数据库,标记每个项的支持事务,然后统计每个项的支持事务数,删除支持事务数小于最小支持事务的项,进而得出频繁1-项集。

②对频繁1-项集中的项两两连接得出候选2-项集,然后通过把2-项集中各项集的两个项的支持事务集求交得出各项集的支持事务集,删除支持事务数小于最小支持事务的项集,得出频繁2-项集。

③候选集生成前用筛选对频繁k-项集中的项进行删除,得到的集合称为有价值的频繁k-项集,然后按照

Apriori算法中的连接步骤对有价值的频繁k-项集中的项进行处理,得到候选(k+1)-项集,通过把候选(k+1)-项集中各项集的各个项的支持事务集求交得出各项集的支持事务集,删除支持事务数小于最小支持事务的项集,得出频繁(k+1)-项集。

④重复操作③,直到频繁k-项集为空。

3 改进算法在教学质量评价中的应用

3.1 数据准备与处理

随机抽取渭南师范学院教师教学质量评估表1000份,将编号、年龄、职称、学历和评定分数六项输入数据库,忽略其它信息。我们通过对数据库中的数据进行挖掘,找出年龄、职称、学历与评定分数之间的关系。表1给出了部分教学评价信息视图,共有1000条记录。

离散化数据,做数据处理。年龄划分为:A1[24,29],A2[30,39],A3[40,49],A4[50,60]四个组;职称分别表示为:Z1助教,Z2讲师,Z3副教授,Z4教授;学历分别表示为:X1本科,X2硕士,X3博士;评定分数划分为:Pl[0,59],P2[60,69],P3[70,79],P4[80,89],P5[90,100]五个组。详细见下转换表2。

利用SQL语句把数据转换整理,提供挖掘对象。转换整理后部分结果如表3。

如第一条数据表示的含义为:编号为10001的教师,年龄为A1(24-29),职称为Z1(助教),学历为X1(本科),评价为P2(60-69)。每一条记录表示为一个事务,完整结果即为整个事务数据库。

3.2 挖掘关联规则

最小支持度为12%,最小可信度为50%的情况下,采用改进算法进行挖掘,一共得到24条规则,部分结果如下:

P4?圯X3 支持度为25.926%,置信度为80%

Z3∧P4?圯X3 支持度为14.815%,置信度为87.5%

Z3∧X3?圯P4 支持度为14.815%,置信度为87.5%

P2?圯A1 支持度为14.815%,置信度为66.667%

P4?圯Z3 支持度为18.519%,置信度为57.413%

X3∧P4?圯Z3 支持度为14.815%,置信度为62.5%

A3?圯P4 支持度为14.815%,置信度为57.413%

X3?圯P4 支持度为25.926%,置信度为70%

3.3 结果分析和评估

P2?圯A1 支持度为14.815%,置信度为66.667%

此规则的意思是:评价分数处于(60-69)的教师中有66.667%年龄为(24-29),这表明对年轻老师的整体评价一般,因而还要重视对30岁以下青年教师的培养,帮助青年教师提高业务能力和职业道德水平。

Z3∧X3?圯P4 支持度为14.815%,置信度为87.5%

此规则的意思是:具有博士学位的副教授有87.5%评价分数处于(80-89),这表明具有高学历的老师,同时具有较高职称,教学效果好,得到学生的认可。

A3?圯P4 支持度为14.815%,置信度为57.413%

此规则的意思是:年龄在(40-49)的教师中有57.413%评价分数处于(80-89),这表明中年教师科研水平较高,具有较多的教学经验,较深的专业知识,同时与学生沟通多,得到学生的认可。

综合分析可以看出:

①年龄在30-49岁的中青年教师具有较高职称和学历,而且精力充沛,教学经验丰富,评定分数高,具有高的支持度和置信度。由此可见,学校一批中青年教师已经成为学校教学工作的骨干,教师队伍结构趋于合理。

②50-60岁以上年龄层的骨干教师置信度较高,说明大多老教师讲课较受欢迎,而这些教师现在即将退休或己经退休,他们留下的空缺必须马上填补,因而还要重视对于30岁以下青年教师的培养,采取“老帮青”、青年教师主动听课学习等措施,帮助青年教师提高业务能力和职业道德水平。

③30岁以下年轻教师,由于刚走上讲台不久,教学经验和教学方法有待进一步提高。由于大学教学内容专业化程度高,科学性强,信息量大,具有一定的宽广度和深度,有的涉及科研领域还未解决的问题,即学科前沿问题,所以还应加强专业知识的学习,不断提高自己。

通过把数据挖掘技术运用到高校教学质量评价中去,可以更加客观和有效地对教师教学情况加以评价,并从中得到有价值的信息;同时为教学管理部门在班级排课、课程设置等诸多方面提供参考,使得教师的年龄、职称、学历等综合资源得到合理分配,为教学部门更好地开展教学工作,提高教学质量提供有力保障。

4 结论

本文根据现行教学质量评价体系的不足之处,提出将数据挖掘技术引入到了高校教学质量评价中,通过把改进的Apriori算法运用到实际的教学质量评价表中,对教学人员的年龄、职称、学历和评定分数的关联关系进行分析,挖掘出课堂效果与教师的状态特征之间的关系,从而得到有价值信息,帮助教学部门进行辅助决策,同时也为教师提供有价值的参考。

参考文献:

[1]杜益鸟.数据挖掘中关联规则的研究与应用[D].理工大学博士学位论文,2000.

[2]刑涛.数据挖掘在高校学生管理信息系统中的应用[D].北京航空航天大学硕士论文,2004.

[3]Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].范明,孟小峰译.北京:机械工业出版社,2005.

[4]李晓红,尚晋.一种改进的新Apriori算法[J].计算机科学,2007,34(4):196-198.

[5]彭仪普,熊拥军.关联规则挖掘AprioriTid算法优化研究[J].计算机工程,2006,32(5):55-57.

[6]兰聪花,刘洋,唐占生红.AprioriTid挖掘频繁项集算法的改进[J].计算机应用与软件,2010,27(3):234-236.

[7]喻斌,武友新.更优的快速频繁模式树生成算法[J].计算机工程与设计,2007,28(20):4853-4855.

[8]David Hand,Heiki Mannila,Padhraic Smith. Principles of Data Mining.机械工业出版社,中信出版社,2003.

上一篇:苏州市中小企业转型升级时期融资问题研究 下一篇:高职思想政治理论课教学中厌学现象的分析