浅析数据挖掘技术在电大学员延期毕业分析中的应用

时间:2022-10-14 01:56:25

浅析数据挖掘技术在电大学员延期毕业分析中的应用

摘 要:近几年随着其他高校的网络教育不断涌现,也对电大的生源产生了一定的影响。我们可以借助数据挖掘工具对大量学员数据进行深层次分析,找出导致学员延期毕业的原因,针对原因找出相应的对策,使得学员如期毕业。可见把数据挖掘技术应用于开放教育有很大的现实意义。

关键词:数据挖掘; 延期毕业

中图分类号:TP311.13 文献标识码:A 文章编号:1006-3315(2012)04-135-001

一、数据挖掘技术

数据挖掘就是从海量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐藏在其中人们事先不知道的但又有潜在有用的信息和知识的过程。数据挖掘技术要完成不仅是面向一般数据库的简单查询工作,而且要对这些数据进行统计、分析、综合和推理,得到有用的信息,以指导实际问题的求解.发现事件间的相互关联。甚至利用已有的数据对未来的活动进行预测。数据挖掘是一门交叉学科,涉及数据库、数理统计、人工智能、可视化、并行计算等方面的技术。数据挖掘技术从产生以来,已经被应用于多种领域,并得到了充分的验证,显示了其重要的经济价值,同时在应用过程中得到不断的完善和进步。

二、数据挖掘在电大学员数据中的应用

1.数据仓库的建立

1.1数据仓库主题的分析。建立数据仓库和进行数据预处理是进行数据挖掘的数据准备.它的任务是为数据挖掘提供合适的数据。经过分析,我们可以发现要学员延期毕业有以下几个方面原因:专业的因素;课程的因素;考试的因素。数据仓库所要实现的系统功能包括:数据仓库可以帮助制定招生策略:还可以对学员平时的学习提供一些有效的建议,提高毕业率。

1.2数据仓库模型设计。对“学员延期毕业”主题进行模式划分。采用星型架构设计出下面的事实表和各维表:

1.2.1事实表设计:事实表名称、学员成绩事实表

索引字段:学号、课程代码、班代码、专业代码、学年学期号

度量值:成绩、学分

1.2.2维度表设计:

1.2.2.1学员维度表名称:学员信息

学员维度表结构:学号、姓名、班代码、单位代码、性别、年级、身份证号、籍贯、学籍状态、专业代码、职业

1.2.2.2班级维度表名称:班级信息

班级维度表结构:班代码、班级名称、专业代码、毕业学分、补专学分、年限、必修学分、限选学分、选修学分

1.2.2.3专业维度表名称:专业信息

专业维度表结构:专业代码、专业名称、本专科

1.2.2.4课程维度表名称:课程信息

课程维度表结构:课程代码、课程名称、学分、学时、开设学期、性质

1.2.2.5时间维度设计:时问维度表名称、学年学期时间维度表结构:学年学期号、学年、学期

1.2.2.6考试考勤维度设计:考试考勤维度表名称、考勤信息

考勤维度表结构:学号、课程代码、考勤时间、考勤结果

2.系统的实现

首先,将源数据(学员、班级、专业、课程等相关数据)经过抽取、转换、加载存储到SQL Server数据库中,SQL Server的DTS工具可以完成大部分数据的转换和清理工作,这样不同源数据就可以统一有序地存储在服务器端的SQL Server数据库中,为数据挖掘做好数据准备。其次,利用某种高级语言实现数据挖掘算法,编制相应的外挂数据挖掘模块。最后与服务器上的数据库进行数据交互。在这种利用外挂模块实现数据挖掘的方案中,不同的数据库的访问技术有所不同,微软公司主要的数据访问方法是ADO,它是一个简单的对象模型,在应用程序中使用该模型可以方便地与SQL Server数据库进行数据交互。

3.数据挖掘试验结果分析

本文随机选取了20名学员的数据作为样本数据,对数据进行离散化等一系列处理以后得到最终决策树。

从决策树中,可以方便地得出以下规则以供决策参考:

3.1若课程不及格比例

3.2若考勤为差则会延期毕业;

3.3若课程不及格比例>50%且考勤为一般且年龄在20~30的公司职员则不会延期毕业。

3.4若课程不及格比例≥50%且考勤为一般且年龄在30~40的干部,则会延期。

从上述规则中,可以很直接地看到在延期毕业这个问题上考试考勤是一个非常值得关注的原因,一般考试不能正常来的学员都会延期毕业;平时考勤好且课程不及格比例小于50%的,一般都会如期毕业;而课程不及格超过50%的学员,虽然考勤为良,但是由于年龄和工作的关系,也会延期。

三、结束语

把数据仓库和数据挖掘技术应用于电大开放教育,通过需求分析确立主题,利用电大开放教育数据库中已有的数据进行整合建立电大开放教育数据仓库,并利用粗糙集挖掘出一定的规则,生成对开放教育有效的决策规则,并对规则进行分析,最后利用一组随机数据验证了决策规则的有效性。

参考文献:

[1]陈鹏,张红祥.开放教育考务系统数据库设计UJ——思茅师范高等专科学校学报,2009(03):60—63

[2]董贺,荣光怡.数据挖掘中数据分类算法的比较分析Ⅲ.吉林师范大学学报(自然科学版),2008,(04):107—108,1.43

上一篇:当前会计报表中存在的问题与对策分析 下一篇:高职高专《网络营销》课程教学改革浅析