数据挖掘技术在学生就业指导中的应用

时间:2022-03-26 12:10:54

数据挖掘技术在学生就业指导中的应用

摘要:管理信息系统的应用使得职业学校的就业指导工作产生了质的飞跃,但随着毕业生人数的极具增长,系统中不可避免地积聚了大量的就业信息数据,与之匹配的统计方法已不能适应现实的需求。数据挖掘技术可以有效解决这一问题,它所包含的Apriori算法,能建立在学校的就业历史数据之上,深入分析毕业生的就业数据从而发现真正影响学生就业问题的内因,还能通过结合学生的受教育与就业需求之间的相关性,分析出社会对人才的真正需求,进而为职业学校的管理者提供参考数据,帮助他们对学校的教育模式进行改革,使其更契合当下社会对人才的需求,从而最大程度地提高毕业生就业指导工作的有效性。

关键词:数据挖掘;关联规则;Apriori算法;就业指导

中图分类号:TP311.52 文献标识码:A 文章编号:1007—9599 (2012) 14—0000—02

一、引言

在学生管理工作中,学生就业指导是一个非常重要的方面。如何对学生就业进行有效的指导,是当前职业学校面临的一个重要课题。本文首先根据学生就业指导主题建立江苏省扬州商务高等职业学校学生就业指导数据仓库,利用多维关联规则Apriori算法,从无次序、规律的学生的相关学业和就业信息中找寻出两者之间内在的关联性,并推算出关联规则,为学生培养与就业指导提供决策依据。由于数据挖掘技术的Apriori算法演进而得的多维关联规则的算法,使得该算法不可避免地会形成大量的候选频繁谓词集,降低算法性能。本文针对这一缺点,提出使用不产生候选的多维关联规则Apriori算法,它的原理是长频模式直接由短频模式利用递归的方式获得,这样就可以有效避免产生大量额外的候选频繁谓词语集,从而提高了算法效率。

二、数据挖掘应用流程

SQL Serve对数据挖掘的过程是经由工作流以节点连接的方式完成的。这种方式完全符合当今通用的跨行业数据挖掘标准流程(Crisp—DM),本文以就业数据仓库为数据挖掘的对象,其流程如图1所示。

数据挖掘流程基于Crisp—DM如下所示:

问题的提出与表征—>数据准备—>建模—>产生规则—>测评与详解。

1.问题的提出与表征:通过对问题进行解析,从而发现学生整体的就业情况与学生成绩、专业、区域等相关信息的关联。2.数据准备:根据不同的问题,采用SQL Serve中的处理工具对就业数据仓库进行筛选,如通过选择、抽样和汇总等方式增加记录选项,通过过滤等方式增加字段选项,从而从就业数据仓库中获得符合条件的子集,建构特定的数据挖掘库。3.建模:数据模型的建立必须依据数据的特征和数据挖掘的目标的基础之上。笔者认为,选用数据挖掘技术的Apriori算法演进而得的多维关联规则的算法来进行数据挖掘分析非常适合。4.测评与详解:当数据挖掘应用于学生就业实际之后,对所得的数据进行测评,并结合测评结果对其进行详解。

三、关联规则的挖掘

(一)求取单维、多维频繁谓词。每一条就业信息都包含着许多属性,如果要找到它们所构成的频繁谓词集,就要先找到它们中每一维所包含的频繁谓语。因此,可以通过用SQL语言编程的方式,对数据库进行操作。

对学生信息的每一维属性而言,对就业信息事务表的操作,应运用SQL语言的Distinct语句对其进行操作,经过筛选留下来的都是满足条件的单维频繁谓词。在此基础之上,再通过K维频繁谓词进行数据挖掘。

系统的核心算法是基于多位关联规则的多维频繁谓词集的求取,是数据挖掘技术的Apriori算法演进而得的多维关联规则的算法但是该算法可能会产生大量候选频繁谓词集,降低算法性能。

基于经典的Apiori算法,频繁K—谓词集求频繁(K+1)谓词集的时候应利用利用Apriori性质。因此,开始时要产生频繁(K+1)谓词集。之后,随着扫描数据库的次数过多,可能产生大量的侯选项集,在频繁项目集长度变大的情况下,运算时间显著增加。基于此,下文的算法描述就是为了有效解决这一缺陷而设计的,提出使用不产生候选的多维关联规则Apriori算法,它的原理是长频模式直接由短频模式利用递归的方式获得,这样就可以有效避免产生大量额外的候选频繁谓词语集,从而提高了算法效率。

(二)不产生候选的多维关联规则Apriori算法描述。该算法目的是由频繁K—谓词项求得频繁K+1的谓词项,主要是通过函数递归来实现的。算法过程如图2所示:通过执行该算法,先找出频繁一维谓词集,之后再找出所有的频繁K维谓词集。比如:一维频繁谓词设置为“年龄—21岁”,二维谓词就设置为“年龄—21岁”、“性别—女”。如果能够满足二维谓词的值,那么就可以进一步选取三维谓词:“年龄—21岁”、“性别—女”、“学生地区—兴化”;如果不能满足二维谓词的值,那么只要是含有“年龄—21岁”、“性别—女”的多维模式将不再会被选取,转而对二维谓词“年龄—21岁”、“性别—男”进行计数,再重复前面的流程。经过如此反复地运算、判断,最终就能找到全部的频繁K维谓词集。

(三)产生强关联规则。置信度与支持度是关联规则的基础,算法中发现的频繁k—谓词集,其实就是找到能够匹配最小支持度值的频繁词项。接着就是在频繁谓词项之中,再通过匹配最小置信度来生成关联规则。从而得到以下的强关联规则流程图,见图2。

(四)相关性分析。执行上述的多维关联规则挖掘的算法,就可以获得所有符合匹配值的频繁维谓词集,并视它们为强关联规则。随后,对这些强管理规则,利用相关的概念来进行解析。

每一个关联规则中,最后输出的结论(B)是最需要关注的一个属性维;另外的属性维作为条件则为(A)。频繁谓词项是A∪B,它们的值在算法的执行过程之中既已保存;可以通过Apriori的算法性质推知,子集A和B一定都是频繁的,因此,它们的值也同样已经保存。所以,通过以下公式就

能很容易判断每条规则的相关性。相关性判断的流程图如图4。

四、规则释义与应用

上一篇:企业电子商务下的营销管理 下一篇:通过“教、学、做三合一”提高中职学校专业课...