数据挖掘在就业指导的应用探讨

时间:2022-07-11 01:06:53

数据挖掘在就业指导的应用探讨

摘要:本文通过对所调研的广西电力职业技术学院中现有的毕业生就业历史数据进行数据挖掘,从数据中寻找规则来验证在当今的职业教育中学生在校期间的成绩、专业、家庭的经济状况、就业的时间对学生就业是否存在着影响;并选择适当的挖掘算法、合适的数据挖掘软件和工具,形成一个可行的针对于职业教育中成绩、专业、家庭、时间、就业的数据挖掘规则,使其能应用于职业教育毕业生的就业指导的决策和研究。

关键词:数据挖掘;关联规则;就业指导;就业率

中图分类号:TP311.13 文献标识码:A文章编号:1007-9599 (2011) 12-0000-01

Application Study of Data Mining in Career Guidance

Bi Yingquan

(Guangxi Electric Power Institute of Vocational Training,Nanning530007,China)

Abstract:Based on the research of Guangxi Electric Power Institute of Vocational Training graduates in the existing historical data for data mining,to find the rules from the data to verify in today's vocational education students in school achievement,professional,family economic conditions,time employment,the existence impact of student employment;and select the appropriate mining algorithms,data mining software and the appropriate tools to form a viable vocational education aimed at the achievement,professional,family,time,employment of data mining rules to make it can be applied to the employment of graduates of vocational education and research to guide decision-making.

Keywords:Data mining;Association rules;Career guidance;Employment rate

一、课题研究的背景

随着教育改革的不断深入,我国的高等职业教育得到了长足的发展。截止2008年,全国具有普通高等学历教育资格的高等职业院校1092所,高职(专科)在校生生650万人,占普通高校在校生总数的47%。高等职业教育已成为高等教育的重要组成部分。当前,在各类院校中,特别是各级职业教育院校,经过教育部门的评估整改,院校的数据库建设已较完善,内部存储大量的教育教学生源信息,特别是最近几年来随着教育信息化的推进,院校数据库的信息量大大增加,院校几乎实现了无纸化管理,所有的信息几乎都能在电脑上找到,校园网络建设也已基本成型。但是这些数据很少被开发利用。这些隐藏着大量教育信息的历史数据没有被很好地利用,没有好好挖掘隐藏在这些数据中的教育规律,致使在一些职业技术院校中专业区分性不大,专业课设置区分不明显。另一方面,在职业教育院校中还经常容易盲目招生,盲目推出特色专业,但往往一些专业毕业的学生很难找到专业对口的工作。这里面,除了课程设置不能跟上用人单位要求,学生实际能力培养时达不到到用人单位的标准等原因外,还有很多复杂隐藏的原因。导致学生在完成了三、五年教育后,自己本身的良好素质没有被开发,能力达不到用人单位的要求。而具有实际工作能力的学生被专业或某些未被发现的因素所限制,不能就业。如此的不断恶性循环,使得职业教育的开办越来越不能吸引学生和家长,学生毕业后工作难找,对口的工作难胜任。如何揭示这些隐藏在背后的因素与学生就业的关系,从大量的教育信息中挖掘出的正确的、可靠的、可信的关联规则对教育系统,特别是职业教育相当重要,对教育教学改革也具有指导性的意义。职业院校可以利用数据挖掘技术所发现的专业、家庭经济状况、地域分布与就业的关系,合理的引导学生选择专业,最终提高学生的就业率。

二、数据挖掘技术在就业指导的应用

(一)数据挖掘的概述。数据挖掘技术可以描述为:按既定业务目标,对大量的、不完全的、有噪声的、模糊的、随机的数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进而有效的方法。对数据挖掘,也有人称为知识发现(Knowledge Discovery),它源自于人工智能的机器学习领域,其实质的内涵是在一个已知状态的数据集(Data Set)上,通过设定一定的学习算法,从数据集中发掘出其内在的规律(所谓的知识)。它实质上就是知识发现技术在数据库领域中的应用。数据挖掘的流程一般是:数据取样――数据探索――数据调整――模型化――评价。这一叙述的是数据挖掘的基本流程。实际应用中这一流程可能要反复进行,在不断反复过程中,逐渐趋近事物的本质,从而对问题的解决方案不断地优化。

(二)进行挖掘前的数据准备(预处理)。数据挖掘最后成功与否,是否有经济效益,数据准备(预处理)起到了至关重要的作用。数据预处理要完成的任务包含很多方面:综合(甚至是融合)各个方面的数据,来得到(或衍生出)进行数据挖掘所必需的数据,同时要保证数据的综合性、易用性、数据的质量和数据的时效性,这有可能要用到数据仓库的思想和技术。

在对毕业生就业数据进行挖掘时.所需要的数据主要来自于2个方面:1.背景信息,数据包括2006-2010年度的就业信息,以excel表格、Foxpro数据库表文件、Access数据库文件等多种不同格式提供。此部分信息主要来自于学生的入学及就业登记表。2.建立适用于数据挖掘的数据预处理。我们这个课题的数据预处理如下表所示:

(三)数据预处理规则。在挖掘规则之前,先数据清理,将来自不同数据源中的数据进行填补空缺值、去除孤立点、纠正不一致、平滑噪声等处理,而形成具有语法或语义正确的数据。为数据的转换与整合提供干净的数据。如:

1.检验有效性:将所有数据映射到预期范围内。如就业时间:限定2008年到2010年。2.实现数据一致性:如市场营销客服方向,电力营销同为营销专业,可以手工统一成“营销”专业。又如:籍贯,可以分成三大类,发达地区,中达地区,落后地区,可以根据当时居民年度消费金额划分。3.分类:对成绩分类,将成绩进行类次划分。不能统一地以平均成绩作为标准来分类,而以某一标准差进行正规划分,便成绩分类具有现实意义。

例如:有三位学生成绩如表所示:

A生 B生 C生

就业年度 2008年 2009年 2010年

年度标准差 30 17 24

学生成绩 380 380 380

年度平均成绩 387 390 376

年度成绩分类划分公式如下:成绩类别:(学生成绩-当年平均成绩)/(年度标准差),则A,B,C三位学生的成绩类别分别是:-0.23,-0.59,0.16,可知三位学生类别为:C生>A生>B生,且我们再次归并为三类,上,中,下,则A,B,C三位学生的成绩类别最终为:中,下,上

(四)规则的解释与应用。关联规则是R.Agrawal等人首先提出的,是形式如下的一种规则:“在购买面包和黄油的顾客中,有90%的人同时也买了牛奶”(面包+黄油一牛奶)。用于关联规则挖掘的主要对象是事务型数据库(transactional databases),一个事务一般由如下几个部分组成:事务标识符,事务中包含的项目集(items)。则采用数据挖掘关联规则的经典算法Apriori算法的改进,得到如表1下的关联结果表:

表1

由表1我们可以解释为:来自A、B两类地区,成绩中等的考生,具有较高的就业率。这符合现实情况,因为我们深入分析,发现A和B两类籍贯相似的地区以济较为发达,人们的生活水平相对较高,家庭经济状况较好,一般家庭也有能力支付较高的学习费用,所以学生的就业率也相对较高。而成绩中等的学生没有进入更高层次的学习的可能,比如参加自学考试或研究生的考试,他们的成绩达不到,那么选择进入社会的一些私营企业工作就是他们的首选。

表2

由表2得到的关联规则,我们可以解释为:来自C类生源的籍贯地区、成绩较低的学生灵活就业率较高,就业不稳定现象比较严重。这一点的实际情况是:c类地区是我区较为贫困落后的地区,人们经济收入相对较低,农村家庭更是比较贫困,一般家庭无经济能力帮助孩子就业,再加上成绩偏低,所以不论是家庭还是学生本人他们都没有学习的兴趣,而更多的则是选择外出务工,以减轻家庭的经济压力。所以一般这些学生工作中没有稳定的单位,往往是在个体经营者的门店打工,想做就做,不想做就换一家这种情况。

通过关联规则,还可以分析比较出:就业时间的不同所带来的就业率的不用。自从2008经济危机以来,国际金融形势振荡多变,国内经济增速变缓,部分中小企业生产经营困难,财会类的学生就业去向主要是各私营公司或私营企业,在此形势影响下,2009年的就业情况明显下降了很多。但是市场营销,物流等第三产业类专业的学生就业率并没有受到太大影响,究其原因,主要还是由于网络营销的份额加大,特别是网上购物已成为许多白领阶层的首选。通过以上的关联规则,可以给职业教育决策者们提供一些就业指导的依据,即在学生从入学起,就充分考虑到就业问题,依据规则中的相关因素合理的组织,给予学生以正确的指导,避免不良因素的组合,从而提高学生的就业率。这同时也提醒着教育的决策者们在教育体制改革完成的过程中每一个因素都有可能成为制约就业问题的因素。不能就单一问题来看单一问题,而应综合的考虑问题,如何能提高生源的学识、动手能力等在今后也可能将是拓宽就业的因素。

三、总结与展望

如何提高毕业生的就业率,是每个高职院校都必须面对的严峻问题。学生来自的不同地区结构对就业的影响、学生所学专业对就业的影响、学生成绩对就业的影响、就业时间的不同所带来的就业率的不用都是院校职能部门指导毕业生就业的重要方面。本文研究的课题是随机抽取了我校学生管理系统中的部分数据,利用关联分析对这些数据进行挖掘,得出了隐含于数据背后的规则,为提高就业率和就业质量提供帮助。通过本文的研究,初步实现了关联规则挖掘在就业指导中的应用。但是,本文对数据挖掘技术在就业指导中的应用研究还只是一个阶段性初步成果,在很多方面还有待进一步研究。如何构建效率高的数据仓库与数据挖掘在职业教育管理领域的应用是一个综合复杂的系统工程,可以涵盖招生、就业、科研、人事、财务等方方面面。构建开发一套基于数据仓库的高职院校综合信息决策支持管理系统,将有效地推动高职院校的深化改革,使高职院校管理逐步走向信息化、科学化,这是作为高职院校管理工作者努力的目标。

参考文献:

[1]蔡秀娟.模糊数据挖掘在高校学生管理中的应用[J].华南农业大学学报,2006,3

[2]廖燕玲.数据挖掘在学生职业能力分析中的应用[J].电脑知识与技术,2010,6

[3]袁燕.数据挖掘的教学评价系统研究[D].计算机应用研究,2006,3

[4]陈跃华.模糊聚类分析在高职学生职业岗位能力评价中的应用[J].教育信息化杂志,2009,5

上一篇:工学结合的“程序设计类”课程改革与实践研究 下一篇:影理论概要及在表征管理中的模糊信息的应用