基于关联规则的数据挖掘技术的研究与应用

时间:2022-07-13 10:34:15

基于关联规则的数据挖掘技术的研究与应用

摘 要: 通过对目前我国信息化的发展现状及问题进行详细分析,找到基于关联规则的数据挖掘技术与我国各单位信息管理中的契合点,提出了基于关联规则的数据挖掘技术系统的设计方案。该方案有助于我国各单位优化资源配置,促进领导的决策合理性,进而对于提高我国各单位的综合实力,推动全面发展具有很强的现实意义。

关键词: 数据挖掘; 信息管理系统; 关联规则; 分类挖掘

中图分类号: TN911?34 文献标识码: A 文章编号: 1004?373X(2016)23?0121?03

Application and research on data mining technology based on association rules

LI Yue1, SUN Jian2, QIU Zhiqi3

(1. Modern Technology and Education Center, North China University of Science and Technology, Tangshan 063000, China;

2. Dean′s Office, North China University of Science and Technology, Tangshan 063000, China;

3. College of Information Engineering, North China University of Science and Technology, Tangshan 063000, China)

Abstract: The information development situation in our country and its problems are analyzed in detail. The integrating point of data mining technology based on association rules and information management in China′s each unit is found out. The design scheme of data mining technology system based on association rules is proposed. This scheme is helpful to optimize the resource allocation of all units in China, promote the decision?making rationality of the leader, and has great practical significance to improve the comprehensive strength of all units in China and promote the comprehensive development.

Keywords: data mining; information management system; association rule; classification mining

0 引 言

随着信息技术在各单位信息管理中应用的逐渐普及,信息管理系统中积累了海量的数据,本文以我国高校为例,深刻研究了高校信息管理系统,在管理信息化的条件下,对这些长期积累的海量数据进行分析和挖掘,挖掘出其中隐藏的、未知的规则和信息,将分析结果用于高校管理的分析与决策上,辅助管理者的决策,还可以为我国高校优化资源配置提供可靠的数据,节约成本,为我国高校的发展发挥着重要的作用。

1 数据挖掘的定义及技术分析

1.1 数据挖掘的定义

数据挖掘技术是一门新兴学科,集众多学科交叉融合而成的工具和技术,其中包含了数据库技术、统计学、人工智能、信息检索、模式识别等多种技术。数据挖掘(Data Mining)是指从海量的数据或数据库中分析和提取出人们感兴趣的知识的过程。这些数据知识是隐含的、事先未知的,将数据挖掘技术应用到高校信息管理上是非常有益的,可以全面地分析课程设置,教学过程等各方面因素的内在联系,是一种决策支持的过程。

1.2 关联规则分析

数据挖掘的技术方法有很多种,其中关联规则挖掘是目前使用频率最多,应用范围最广的数据挖掘技术之一。关联规则反应了事物与其他事物之间的相互依存性和关联性,可以通过研究分析海量数据,捕捉其中的相互关联和重要关系,反应数据的不同规律,预测时间的发展趋势。关联规则是易于理解和解释的一种技术,应用分析广泛,是许多其他数据挖掘方法的基础。

其中,Apriori算法是关联规则挖掘方面很有影响力的算法,通过项目集元素数目的不断增长来逐步完成频繁项目集的发现,是挖掘产生布尔关联规则所需频繁项集的基本算法。利用Apriori算法迭代识别所有的频繁项目集,发现计算量最大的部分,从频繁项目集中构造置信度不低于用户设定的最小置信度的规则。具体算法流程如图1所示。

2 数据挖掘技术在高校管理中的应用

数据挖掘技术应用到高校管理工作中,可以通过对信息系统中的海量数据的相互之间的关系进行分析,发现其中一些潜在的联系和客观规律,可以对高校管理的决策支持等工作提供极大的帮助,为改进高校管理提出了指导性的建议,使得高校管理系统在高校信息化的建设中发挥更大的作用。

2.1 数据挖掘技术在教学评估中的应用

高校员工的评价结果是日常工作情况的重要表现,是高校信息管理工作的一个重要组成部分,也是目前高校进行职称评定,绩效评定的有效标准。但是影响高校员工的评价因素有很多,包括员工年龄、工作时间、政治面貌、学历、职称等很多方面。如何通过这些现有数据判断哪些或者哪个因素对于高校员工考评的影响最大,可以通过关联规则数据挖掘的Apriori算法进行数据分析,对各方面的数据进行充分挖掘,得到有价值的信息作为高校员工考评的评价依据,以达到对高校员工管理的改进的有效支持,极大地提高了高校人事管理的效率,使高校实现科学化、正规化管理。

关联规则Apriori数据挖掘包含很多关键因素:

(1) 置信度:置信度表示[XY]关联的强度,全体事件集合D中,满足[X]的事件中有c%也满足事件[Y。]

(2) 支持度:支持度表示[XY]关联的频度,有s%的事件同时满足[X]和[Y。]

(3) 频繁项集:项集[X]的支持度Support(X)不小于用户给定的最小支持度minSup,则称[X]为频繁项集。

首先,可以从高校员工考评系统中的数据库中抽取100名某高校员工的记录若干条,挑选出其中的5个属性:员工年龄、工作时间、政治面貌、学历、职称等。将这些属性作为字段填入表中,设计成如表1所示的形式。

表1 员工考评表

[员工id\&职称\&年龄\&工作时间\&学历\&政治面貌\&评价分数\&0001\&助教\&30\&4\&本科\&党员\&83\&0002\&讲师\&25\&2\&专科\&群众\&75\&0003\&副教授\&45\&14\&研究生\&党员\&90\&[…]\&[…]\&[…]\&[…]\&[…]\&[…]\&[…]\&]

为了更好的进行数据分析,将这些文字内容换算成二进制,例如:职称助教为00,讲师为01,副教授为10等。

利用数据挖掘中的分析规则算法,可以得出评价分数在90分以上的有多少条,其中评价分数与这4个因素之间的关系,即关联规则“副教授优秀”的置信度为80.3%,支持度为30%,即表示优秀员工中副教授职称的占80.3%,而所有的副教授中优秀教师占30%。以此类推其他三个因素。可以得出如下结论:政治面貌、学历、年龄对员工评价几乎没有影响。但是工作时间和职称对员工评价有一定程度的影响。也就是职称是讲师以上的、工作时间越长评价分值也越高。

2.2 数据挖掘技术在学生成绩分析中的应用

目前,高校信息系统中存在着大量的教学数据,这些数据具有实时性和历史性,其中学生的成绩数据是学生管理的核心数据,是毕业审核的根本依据,也是学生评优的重要依据。这些数据的数据量很大,可以利用数据挖掘技术对学生的成绩进行分析处理,发现这些数据中隐含的相关规律,找出成绩和各种因素之间隐藏的内在联系,获得有利的知识,提高教学质量,指导教学活动,给决策者提供必要的理论支持。决策树挖掘步骤流程图如图2所示。

(1) 从学生成绩管理系统中抽取学生成绩信息表中的数据923条,其中包括学号、姓名、计算机网络这门课程的平时成绩、期末成绩、是否优秀、是否通过。学生成绩信息表见表2。对数据进行清理,去除缺考、登记错误等数据噪声。进行数据预处理,去掉不完整的信息。

(2) 把现有的成绩数据转换成离散数据,按成绩等级分成90分以上为优秀,60分以上为通过。平时成绩85~100是A级,71~84为B级,0~70为C级。将表格转换成如表3所示的数据处理后的学生成绩信息表。

(3) 数据分类挖掘

划分决策树,优秀属性有两个不同的值,即[(Y,N),]因此有两个不同的类[(m=2),]其中类Y有276个样本,类N有647个样本,即(276,647)给定样本所需的期望信息:[I(S1,S2)=I(276,647)=0.299。]

按平时成绩分类属性期望信息:

① 以平时成绩等级分布计算期望信息。

当平时成绩等级为A时,有89个类Y的样本,有217个类N的样本,[I(S1,S2)=I(89,217)=0.516,]若平时成绩等级为B时,有187个类Y的样本,有320个类N的样本,[I(S1,S2)=I(187,320)=0.36。]若平时成绩等级为C时,有0个类Y的样本,有110个类N的样本,[I(S1,S2)=I(0,110)=0。]

② 按考试成绩等级划分,对给定样本的分类所需的期望信息为[E(I)=0.426。]

③ 信息增益为Gain(平时成绩等级)=[I(S1,S2)-][E](平时成绩等级)=0.09。

按考试成绩分类属性期望信息:

① 以属性考试成绩等级分布计算期望信息。若考生成绩等级为A时,有267个类Y的样本,有33个类N的样本,[I(S1,S2)=I(267,33)=0.89,]若考生成绩等级为B时,有9个类Y的样本,有364个类N的样本,[I(S1,S2)=I(9,364)=0.02,]若考生成绩等级为C时,有0个类Y的样本,有250个类N的样本,[I(S1,S2)=I(0,250)=0。]

② 按平时等级划分,对给定样本的分类所需的期望信息为:[E(I)=0.426。]

③ 信息增益为Gain(期末成绩等级)=[I(S1,S2)-][E](期末成绩等级)=0.464。

如果信息增益Gain(平时成绩等级)

由上述规则生成的决策树可以退出综合成绩优秀的规则:

IF期末成绩等级=C,THEN是否优秀=N;

IF期末成绩等级=A,AND平时成绩等级=A,THEN是否优秀=Y;

IF期末成绩等级=A,AND平时成绩等级=B,THEN是否优秀=Y;

IF期末成绩等级=A,AND平时成绩等级=C,THEN是否优秀=N;

IF期末成绩等级=B,AND平时成绩等级=A,THEN是否优秀=N;

IF期末成绩等级=B,AND平时成绩等级=B,THEN是否优秀=N;

IF期末成绩等级=B,AND平时成绩等级=C,THEN是否优秀=N;

从上面的生成规则可以看出:期末考试成绩等级为A,且平时成绩等级为B以上者,成绩为优秀。

(4) 生成分类规则

通过对学生成绩进行数据挖掘,找出影响学生成绩的主要因素以及之间的关系,为教学管理部门提供高校教学中学生的知识、技能、能力之间的关系,以明确今后学生学习的重点和难点。

2.3 数据挖掘技术在高校课程设置中的应用

目前,高校学生的课程安排是相互联系的,是循序渐进的。在学习专业课前,要将先开设的课程学好,才能继续下面课程的学习。如果先开设的课程没有学好,就会影响后面课程的学习。另外,由于授课教师,班级学生的总体成绩等因素,学生的成绩有时会相差很大。教务管理人员和任课教师可以利用关联规则对课程数据进行挖掘分析,发现数据中隐藏的前期课程和后期课程的相互关联,为今后课程进程的开展提供重要的决策和理论支持。

可以通过查找存在于项目集合或者对象集合之间的频繁模式,查到相关性或者因果结构,是当前数据挖掘研究的主要模式之一,确定数据中不同领域之间的联系,利用关联规则分析课程安排的不同顺序与学生最终取得考试成绩之间的关联关系,从而得出教学计划中的课程安排的顺序与学生的考试成绩之间的关系,得出教学计划中课程之间的关系,进而合理设置专业课程。

3 结 语

如今,数据挖掘技术在高校信息管理领域中的应用日益广泛,也已经取得了一定的成绩。但是,还存在着一些不足,需要进一步的完善。主要包括以下方面的研究:首先,挖掘工具要更标准,使用更便捷。目前,挖掘工具都是针对某一具体的高校信息系统,而没有统一规范化的适用于所有系统的工具。这种情况不便于使用者更好更快地掌握,给推广挖掘工具的工作带来了困难。其次,挖掘工具操作复杂,只有从事信息工作方面的人员才能使用自如,对于广大普通管理者和从事信息管理的管理者来说掌握起来需要花费很长的时间。所以,研究一种简单、友好、方便快捷,并且通用的挖掘工具是目前高校信息处理工作的研究重点。

参考文献

[1] 朱铁樱,骆爽.数据挖掘技术在高校管理决策中的应用[J].计算机时代,2015(3):39?43.

[2] 朱丽丽.基于数据挖掘技术的高校教务管理的应用与研究[J].数字技术与应用,2014(31):239?240.

[3] 江敏,徐艳.数据挖掘技术在高校教学管理中的应用[J].电脑知识与技术,2012(24):541?545.

[4] 吕慎敏.基于数据挖掘的高校教学管理决策支持系统研究[D].济南:山东师范大学,2012.

[5] 杨恩震.浅论计算机技术在教学管理中的运用[J].湖北函授大学学报,2012,25(2):28?29.

[6] 高晓佳.数据挖掘在教育信息化中的应用研究[J].电脑知识与技术,2012,8(5):1199?1200.

[7] 孙中祥,彭湘君,杨玉平,等.数据挖掘在教育教学中的应用综述[J].智能计算机与应用,2012,2(1):78?81.

[8] 张海燕,李娟.B/S 架构的高校教学管理系统研究与开发[J].农业网络信息,2012(1):109?111.

上一篇:一种卡口车辆轨迹相似度算法的研究和实现 下一篇:基于改进PSA算法的光伏系统最大功率点跟踪技术...