数据挖掘技术在新疆高职院校招生决策中的应用研究

时间:2022-03-12 03:59:37

数据挖掘技术在新疆高职院校招生决策中的应用研究

摘要:本文以研究高职院校新生报到率为目的。以伊犁职业技术学院为例,通过关联规则对高校学生的信息库进行数据挖掘,挖掘出影响学生报到率的有效信息。为学院的招生决策提供有价值的信息。

关键词: 数据挖掘;关联规则;招生参考系统

引言

从2002年开始,国家教育部在全国实现高校招生网上远程录取,高校招生手段发生了革命性变化,同时也给招生工作带来了变革的契机,计算机管理着大量的招生信息,使得采用信息领域的新技术、新成果为招生工作服务成为可能。利用数据挖掘技术在招生数据上的应用,为有效利用招生信息进行快速、准确和方便的决策支持提供了新的思路。

2、数据挖掘

2.1数据挖掘的概念

数据挖掘(DateMining)就是从众多的、有噪声的、不完全的、模糊的、随机的大量数据中,提取隐含在其中人们事先不知道但又是潜在有用的信息和知识的过程。数据挖掘要经过数据采集、预处理、数据分析、结果表示等一系列过程,最后将分析结果呈现在用户面前。

2.2数据挖掘的功能

数据挖掘通过预测未来趋势及行为,作为前瞻的、基于知识的决策。数据挖掘的目标是从数据中发现隐含的、有意义的知识。具体的功能主要有以下4个方面。

1、概念描述

概念描述就是对某类对象的内涵进行描述,并概括其主要特征。

2、关联分析

数据关联是数据中存在的一类重要的可被发现的知识,若两个或多个变量间存农着某种规律性,就称为关联。数据关联分析的目的是找出数据库中隐藏的关联网。

3、自动预测趋势和行为

挖掘技术会自动在大量数据中寻找出预侧性的信息,以往需要使用大量人工手动分析的问题如今可以迅速直接由数据本身得出结论。可以为决策者们提供一种比较块捷的方式。

4、聚类分析

聚类分析其目的在于客观地按被处理对象的特征分类,将同特征的对象归为一类。

2.3数据挖掘常用算法

一般说来,可以有多种算法用于数据挖掘,但不存在一个普通适用的算法。一个算法在某个领域可能很有效,但在另一领域可能就不太适用。因此,在实际应用中,应结合实际,选择合适的挖掘算法。

我们可以把数据挖掘算法分为以下几种。

1.人工神经网络

2.决策树方法

3.遗传算法

4.模糊论方法

5.粗糙集方法

6.关联规则

7.覆盖正例排斥反例方法

8.朴素贝叶斯模型

9.可视化技术

3、关联规则在数据挖掘中的应用

3. 1关联规则挖掘的基本概念

关联规则是一种重要的数据挖掘方法,也是最活跃的一研究个分支。关联规则挖掘主要是通过特定的搜索算法,挖掘出数据集中项集之间有价值的关联关系,从而给出数据集的关联特征描述。关联规则最大的优点就是能够发现被大量日常操作行为所掩盖的,蕴藏于大童业务数据下的事务之间的关联关系。具体来说,关联规则就是形如“AB(support,confidence)”的蕴涵式,其中support是该规则的支持度,confidence是该规则的一可信度。

3.2关联规则的应用

对于伊犁职业技术学院来说,针对新生报到率不高的现状,我们希望能在学院新生录取、报到信息库中的学生信息中找到影响学生不来报到的规则,以此制定出有效的招生决策,用以指导今后的招生工作。例如,我们发现扭内学生的报到率要明显高于疆外学生,那么在今后制定招生计划时,我们可以适当减少疆外计划。

为了简单的说明使用关联规则算法对学生信息库进行挖掘的过程,我们在此权讨论单维关联规则((single-dimensional associarion rule),也就是在学生信息库中挖掘出的与学生报到情况有关的关联规则中的项或属性,这些项或属性每个只涉及一个维。

我们仅考虑录取时学生的某些因素(性别、考生类别、高考成绩、考生生源地)和学生报到情况的关系,假设我们己在学生信息库中找出频繁项集,那么由它们所产生的强关联规则是直接了当的(强关联规则满足最小支持度和最小置信度)。置信度可以用下式表示:

confidence(A=>B)=P(A|B)=support_count(A∪B)/support_count(A)

其中,support_count (A ∪B)是包含项集A∪B的事务数,support_count (A)是包含项集A。

根据该式,关联规则可以产生如下:

①对于每个频繁顶集1,产生1的所有非空子集:

②对于1的每个非空子集s,如果support_count (A∪B)/support_count(A)min conf,则输出规则“s=>(l-s)。其中min_canf是最小置阈值。

下面我们利用伊犁职业技术学院05级新生报到情况的样本数据集为例,讨论以下因素(性别、考生类别、高考成绩、考生生源地)与学生报到情况的关系.05年录取的学生总数为486人、而报到的学生只有248人。

1.讨论性别与学生报到的关系。在录取总人数甲有233名男生,报到总人数中有148个男生:

男=>报到[support=47.9%,

confidence==3 5%]

由此可以看出,男生的报到的置信度与女生比起来较高,而且支持度也比较高,所以这个关联规则应该成立,即男生=>报报到为强关联规则。我们可以得出的结论是男生报到的可能性大于女生

2.讨论考生类别与学生是否报到的关系。在录取人数中考生类别为农村往届的学生有72人,来报到的有51人;城镇应届考生录取了112人,报到了51人;城镇应届录取了138人,报到了62人,农村应届考生录取了213人,报到了80人。根据关联规则算法可以得出:

农村往届学生=>报到[support=13.81%, confidence=70. 83%]

城镇往届学生=>报到[support=13.96%, confidence=80. 95%]

农村应届学生二>报到[support=13.81%,Confidence=70. 83%]

城镇应届学生=>报到[support=43.82%, cnnfidexlce=37.55%]

由此可以看出,农村往届的学生、农村应届的学生、城镇往届的学生的置信度基本相差不大,但支持度非常高,所以前面三类的关联规则是应该存在的。城市应届考生来报到的置信度较高,但支持度很低。在录取时应该考虑他们有可能不来报到,可以通过给这些考生打电话,来确认他们是否来报到。从分析中我们还可以看出,城镇往届学生他们来报到的支持度是最高的,这与我们的实际情况甚至一致。

3.讨论高考总分与学生是否报到的关系。我们根据学生的高考分数划分了5个本分数段。即大于400分的,介于350与400分间的,介于300与350分之间的,介于200分与300分之间的,和小于200分的。分数在300以下的学生都为“三校生”。在学院05年的录取数据中,分数在400分以上的有11人,前来报到的有7人;分数在300-350分的有30人,来报到的有4人;分数在300-350分的有134人,来报到的有44人:分数200-300分的有235人,来报到的有109人;分数在200以下的有80人,来报到的有80人。通过分析我们得到:

高考总分(gkzf报到[support=16.46%, confidence=93.5%]

高考总分(200

高考总分(300

高考总分(350

高考总分(400报到[support=3.26%,confidence=63.63%]

由以上结果可以看出,高考成绩低于200分的同学报到的可能性是最大的,高考成绩在200-300分之间的同学报到率次之。这符合我院的实际情况。因为“三校生”大部分为我院的中职学生,毕业后通过自冶区的“三校生”考试又重新考入高职院校就读。一些成绩较好的中职考生,选择了乌鲁木齐的一些学校继续学习。成绩较低的学生,就考入我院继续学习。高考成绩在3O0-350分的置信度与支持度均高于高考成绩在350-400分的。这说明,分数较低的学生的报到率要高。虽然从分析结果看,高考总分高于400的同学报到的支持度也很高,但是由于人数不多,所以也并不能说明考分高于400分的同学的报到率就高。这一规则可以删去。

4、讨论高考考生生源对学生是否报到的影响。在2005年,伊犁职业技术学院在疆外录取了36人,报到了15人,在疆内录取了450人,报到了233人。

生源地为疆外考生补报到[support=7.04%,confidence=41.66%]

生源地为疆内考生公报到[support=93.56%,confidence=51.77%]

由此结果可以观察出,疆内学生的报到率要高。

通对以上四类属性、十二个因素的逐项分析,可以作出这样的判断:性别为女生、考生类别为城镇应届、高考总分在350到400分之间、生源地为疆外,这些因素都是影响学生报到的主要原因。所以,为了保证该学院有一个较高的报到率,招生人员应该在同等情况下,尽夏避开选择具有这些因素的学生。

在此要说明一下,为了说明间题,以上数据大部分是手工计算的。而且如果要想更精确的说明问题,还应该计算出报关度来。

4、结论

通过以上对学生信碑息库的单维关联规则的研究可以看出,挖掘结果对学院实际的招生工作是具有一定的指导作用的,但比较简单。如果我们希望挖掘出更深层次的关联规则,就需要合理的选择最小置信度(minsup)或最小支持度(Minsupport)的值。这就需要根据具体实践情况井和学降招生办的工作人员进行反复讨论。只有聚焦到真正感兴趣的关联上,得出具有实践意义的关联规则,才能为学院的招生工作更供强有力的指导,为学院的招生决策提供有价值的信息,

上一篇:电气故障检修的一般方法 下一篇:华东某高尔夫球场深排水方案的优化