基于数据挖掘的成人高等学历教育发展的研究

时间:2022-08-30 01:20:02

基于数据挖掘的成人高等学历教育发展的研究

摘要:随着成人高等学历教育的发展,选择教学点和设置专业越来越重要。本文分析和研究了成人高等学历教育的发展过程,结合数据挖掘技术,建立了成人高等学历教育发展的数学模型。结合应用实例,证明了该模型的实用性,为我国成人高等学历教育的发展提供理论支持。

关键字:数据挖掘;成人高等教育;教学点

Research onhigher diploma education development based on Data Mining

JIAN You-guang, QIN Guang-quan, HE Bin-cheng

(College of Continuing Education, Zhongkai University of Agriculture and Engineering, Guangzhou 510225,China )

Abstract: The growth of the higher education calls for better specializations and correspondence course services. This article tries to have a research on the development of thehigher education and then establish a mathematics model for it based on data mining. A case study is also shown here to prove the practicality of this model, therefore to provide theory support for the development of thehigher education.

Key words: Data Mining; Adult higher education; Correspondence course services

1 成人高等学历教育的特点、现状及存在问题

我国成人高等学历教育招生始于上世纪60年代初,当时整个社会处于教育发展的初级阶段,高等学校受各种条件限制,存在一些不足,如:专业设置不够理想,学生人数少,教师缺,管理水平不高等。但是我国成人高等学历教育作为高等教育的重要组成部分,经过近些年的发展,已形成多层次、高规格、多渠道、有相当规模的办学体系,并将在未来高等教育的普及过程发挥重要的作用。随着社会主义市场经济体制的不断完善和竞争机制在社会各个领域进一步渗透,成人高等学历教育正面临新的挑战和机遇。加强和提高成人教育教学质量既是面向市场、服务社会的需要,也是高等学校深化改革的需要。

我国高校的成人学历教育主要有函授、夜大学和成人脱产班三种形式。成人高等学历教育对象的特点是:成人、在职、业余。学习形式为利用业余时间以自学为主,一般为在职职工, 特别是函授学员,分散在不同地区的不同部门,其管理难度较大,高等院校一般放权到教学点,教学点的领导对学生管理工作重视程度不够,一般没有配备专门的管理人员,大多为在职人员兼职,对成人教育的学生不像普通高校的管理那样要求严格,学生管理规定比较简单,执行的不严格,致使一部分混文凭的学生能够如愿以偿。被社会认为现在的成教政策是“严进宽出”。即只要能通过全国组织的成人高等学历教育入学考试,一般都能获得毕业证。部分学生入学后,学习动力不足,靠考试之前的老师的重点辅导,划定范围,搞突击。几年下来,得到的只是一张毕业文凭,学到的知识很少。虽然这种现象是少数,但对成人教育的发展是极为不利的,必须要改革。同时由于成人高等学历教育的学生入学时差异较大,主要是在年龄结构、工作经历、家庭状况、学习时间、学习基础等等方面的不同,导致学生在学习时间和学生接受能力等方面差异明显。针对这些实际情况,特别是近几年来随着普通高校成人办学规模的扩大、学生人数的逐年增长和校外教学站点的不断增多,如何在保证培养人才质量基础之上选择合适、有发展前景的教学点以及设置合理的培养专业都成为当前急需解决的问题。本文结合数据挖掘技术对此进行相关研究,并建立数学模型。

2 数据挖掘技术

2.1数据挖掘概述

数据挖掘(Data Mining)就是从大量数据中提取隐含的、感兴趣的、有用的知识和模式。这些数据可以放在数据库、数据仓库或其他信息存储中。这是一个年青的跨学科领域,源于诸如数据库系统、数据仓库、统计学、机器学习、数据可视化、信息检索和高性能计算。数据挖掘过程包括:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估和知识表示等7个步骤。

目前,国外对数据挖掘的研究,不管是理论还是实际应用都比较成熟。与国外相比,国内对数据挖掘的研究稍晚,尚未形成整体力量。1993年国家自然科学基金首次支持原武汉测绘科技大学的李德仁院士等一些专家学者对该领域的项目进行研究。目前,国内的许多科研单位和高等院校竞相开展数据挖掘的基础理论及其应用研究,包括:清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心、北京系统工程研究所和北京大学等。

2.2 关联规则挖掘

在数据挖掘中,可以挖掘的模式主要有6种[3],其中比较重要的是关联规则。关联规则[9]指的是大量数据之间有趣的关联或相关联系,是当前数据挖掘的主要模式之一,侧重于数据不同领域之间的联系。关联规则挖掘就是发现大量数据中项集之间有趣的关联或相关的联系。随着大量的数据不停地收集和存储,人们对于从数据库或数据仓库中挖掘关联规则越来越感兴趣。

定义1 关联规则挖掘的数据集记为D(一般事务数据库),D={t1, t2, …,tk, …,tn}, tk={ i1, i2, …,im, …,ip}, tk(k=1,2,…,n) 称为事务,im(m=1,2,…,p) 称为项目。

定义2 设I={ i1, i2, …,im}是D中全体项目组成的集合,I的任何子集X称为D中的项目集,|X|=k 称为集合X的k项目集。设tk和X分别为D中的事务和项目集,如果X tk,称事务tk包含项目集X。每一个事务都有一个唯一的标识符,称为TID。

定义3 数据集D中包含项目集X的事务数称为项目集X的支持数,记为δx。项目集X的支持度记为support(X)): support(X)=δx/|D|。其中|D|是数据集D的事务数,若support(X)不小于用户指定的最小支持度(minsupport),则称X为频繁项目集,简称频集(或大项目集),否则称X为非频繁项目集,简称非频集(或小项目集)。

定义4 若X、Y为项目集,且X Y= ,蕴涵式X Y称为关联规则,X、Y分别称为关联规则X Y的前提和结论。项目集X Y的支持度称为关联规则X Y的支持度,记作:support(X Y), support(X Y)=support(X Y)

关联规则X Y的置信度记作,Confidence(X Y):

Confidence(X Y)=support(X Y))/ support(X))

通常用户根据挖掘的需要指定的最小置信度记为 miniconfidence。

支持度和置信度是描述关联规则的两个重要概念,前者用于衡量关联规则在整个数据集中的统计重要性,后者用于衡量关联规则的可信程度。一般来说,只有支持度和置信度均较高的关联规则才可能是用户感兴趣的、有用的关联规则。

挖掘关联规则的问题就是找出这样一些规则,它们的支持度和置信度分别大于用户指定的最小支持度和最小置信度限度,因此,通常把该问题分解成如下两个子问题:(1)产生所有支持度大于指定的最小支持度值的频繁项目集,而其它的称为项集;(2)对于每个频繁项目集,产生所有比最小置信度大的规则。

3 建立数学模型

针对成人高等学历教育的实际情况,结合数据挖掘技术,我们建立数学模型,其系统结构图见图1。

首先,选择原始数据就是根据历年招生入学数据建立原始数据库,并根据学籍学历管理平台的数据进行相关的清理,主要是剔除新增加的教学点和撤销的教学点数据;然后再根据实际需要进行数据集成、数据选择和数据变换,建立符合挖掘的挖掘数据库。

其次,数据挖掘的算法主要是选择Apriori算法[9],根据实际挖掘的需要,也可以选择其他一些挖掘算法,如:Apriori-tid、AprioriHybrid、Separate、FUP、IUA[4]等等。Apriori算法是1994年Agrawal等人在联规则的挖掘算法AIS和SETM基础之上提出的改进的算法。该算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其算法的基本思路:使用一种称作逐层搜索的迭代方法,K项目用于搜索(K+1)项目集。首先,找到频繁1项目集合,记为F1。F1用于找频繁2项目集合F2,而F2用于找F3,如此下去,直到不能找到频繁K项目集合。找到Fk需要一次数据库扫描。最后由频繁K项目集合可直接产生强关联规则。其中,用F(k-1)找Fk需要两个步骤:连接和剪枝。

最后,对挖掘的结果进行分析和相关知识的解释。主要是根据挖掘的结果结合成人高等学历教育、教学点和实际开设的专业等情况进行合理性分析,并做出相应的决策。

4 应用实例

为了验证数学模型的实用性和理论意义,本文以广东省某高校成人入学数据为例进行数据分析。数据来源:学籍学历信息管理平台2002年入学到2008年入学共6年(注:2003年因非典原因无招生入学数据)入学数据为例来进行应用实验。

4.1建立数据库

选择原始数据,并进行相关数据预处理,主要是剔除新增加的教学点和撤销的教学点数据,如2008年新增的深圳某教学点入学人数23人,而这6年总入学报到人数5719人,所占比例为0.4%,故剔除不影响整体评价决策。建立原始数据库,数据库类型是Access,总记录数220条,其数据库结构见表1。

然后对原始数据库的数据进行处理,如果某教学点同层次和同专业人数在相邻年份减少20%,则发展前景字段用“0”表示前景不好,否则用“1”表示前景很好,如是新增教学点的专业,都认为是有发展前景的,用“1”表示。同时对教学点、专业、层次排序编号,其中教学点编号从1到25,分别表示校本部到万顷沙成校;专业从1到27,分别表示财务管理到植物保护;层次编号为1、2、3,分别表示本科、专升本和专科。按照专业编号、教学点编号和层次编号顺序升序排列,依次编序号为1到220建立挖掘数据库,数据库类型是Access,总记录数220条,其数据库结构见表2。

4.2利用Apriori算法挖掘的关联规则的结果(支持度1/22,置信度8/10),如表3:

4.3 应用实例挖掘结果解释和相应的决策

以下仅以关联规则1进行挖掘结果解释和相应的决策,结合原始数据库进行分析,可以看出,序号9、10、11、12与13、14、15、16与17、18、19、20彼此相关,其中9、10、11、12是教学点8(即石龙教学点)的2005、2006、2007和2008年财务管理专业的专升本数据,同一个教学点同层次同专业发展前景相关很好理解。同样13、14、15、16是增城教学点的2005、2006、2007和2008年财务管理专业的专升本数据;17、18、19、20是番禺大石教学点的2005、2006、2007和2008年财务管理专业的专升本数据。这3个教学点在这4年财务管理专升本招生数据发展前景相关。结合实际情况进行分析:其中石龙和增城在地理位置上是邻近,据“东莞在线”报道:并且从2002年起石龙镇充分发挥地缘和人缘优势,优先发展光学电子、医药、信息等高科技产业[10]。据中国广州增城网报道[11]:广州增城将建成广州东部新型制造业基地、现代服务区域中心、生态旅游休闲区等。同样对于番禺大石来说,特别是大石家私城和长隆旅游板块的带动下,经济得到迅速发展,据新新华网广东频道2007年9月14日电报道[12]:番禺大石:“发展锁定地铁餐饮旅游圈”。这样他们3地区经济在近几年都得到迅速发展,企事业单位由于经济迅速发展就急需要大量高层次财务管理人才,这一结果经过与该3个教学点分别实际考察、讨论结果完全一致。这样主办院校就可以在这3个教学点大力发展的财务管理专升本专业,为该地区经济发展多做贡献。

5 结论

通过对我国成人高等学历教育进行分析和研究,结合数据挖掘技术,建立了成人高等学历教育教学点和重点发展专业选择的数据挖掘模型。以广东省某高校的成人教育2002年到2008年入学共6年数据为应用实例,给出应用实例系统结构图,结合实际情况对挖掘的结果进行分析,并做出相应的决策,与实际情况完全符合。结果证明了该模型的实用性和理论意义,为我国成人高等学历教育的发展提供理论支持。

参考文献

[1]李东红.试论成人高等教育的教学与管理[J].辽宁师专学报,2002(1):118-119.

[2]吴遵民.当代成人教育与终身教育的发展现状与趋势[J].继续教育研究,2005(04): 22-24

[3] (加)Jiawei Han,Micheline Kamber.范明等译.数据挖掘概念与技术[M](Data Mining:Concepts and Techniques).北京:机械工业出版社,2001.8.

[4] 简友光, 简曙光. 空间数据关联规则挖掘研究综述[J].计算机与数字工程. 2007,35(7):52-55.

[5] Mehemed Kantardzic.闪四清,陈茵,程雁等译.数据挖掘-概念、模型、方法和算法[M](Data Mining: Concepts,Models,Methods and Algorithms).北京:清华大学出版社,2003.8.

[6] David Hand,Heikki Mannila,Padhraic Smyth,张银奎,廖丽,宋俊等译.数据挖掘原理[M](Principles of Data Mining).北京:机械工业出版社,2003.4.

[7] Olivia Parr Rud.朱扬勇 左子叶 张忠平等译.数据挖掘实践[M](Data Mining Cook book:Modeling Data for Marketing,Risk,and Customer Relationship Management).北京:机械工业出版社,2003.9.

[8] Frawley W, Piatetsky-Shapiro G &Matheus C. 1991.Knowledge Discovery in Database: An overview. In G.Piatetsky-Shapiro and W.Frawley (Ed.), Knowledge Discovery in Database, AAAI/MIT Press.

[9] Agrawal R,Srikant S.Fast Algorithms for Mining Association Rules in Large Databases[A]. In:Proc.of the 20th Int1.Conf.on Very Large DataBases[C]. MorganKaufman,1994.487-499.

[10]东莞在线.今日东莞[EB/OL].(2008-5-18). www.省略/today_dongguan/shilong.asp.

[11] 中国广州增城.发展规划[EB/OL].(2008-5-19).

www.zcic.省略/zxzx/rdzt/dbbk/gzdbbkzc/t20060621_10773.htm

[12]新华网广东频道. 番禺大石:发展锁定地铁餐饮旅游圈[EB/OL].(2007-9-14). www.gd.省略/dishi/2007-09/14/content_11146732.htm.

上一篇:基于4E标准的高校信息化工程绩效观 下一篇:试述教育公平在高校教学管理中的应用