关联规则挖掘在民族高校学生成绩分析中的应用研究

时间:2022-06-05 04:26:02

关联规则挖掘在民族高校学生成绩分析中的应用研究

摘要:使用数据关联数据挖掘技术对民族高校长期积累的学生成绩数据进行深层次分析,寻找真正影响学生成绩的因素,找出其中的关联规则,得到一些深层次、有意义的分析结论,对民族高校决策者确定未来教学管理方向有较大的参考作用。

关键词:数据挖掘;关联规则;成绩分析;APRIORI算法

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2017)04-0078-03

一、引言

随着时间的推移、高校的扩招和新课程的开设,高校教务管理系统积累了大量的学生数据信息[1]。普通的教务管理模式对学生成绩数据处理还停留在简单的储存、查询、统计等初级阶段,已经很难有效的管理这些数据资源,造成了巨大浪费[2]。怎样从海量的学生成绩数据中挖掘出对于高校教学管理者有用的隐藏信息,以及通过信息之间的联系得出一些有价值的结论呢?

数据挖掘技术的应用就是为了能从海量的数据中挖掘出隐藏其中的真正有价值的信息,并找出这些信息之间的联系[3]。关联规则挖掘是数据挖掘技术的重要组成部分,APRIORI算法是其中相当有影响的布尔型挖掘关联规则频集算法[4]。本文通过运用关联规则挖掘知识对本校部分学生成绩进行较深入的分析,总结出对高校管理者未来教学管理工作的开展有重要参考作用的信息和结论[5],从而为教师评价学生以及明确今后的教学和管理方向提供依据。

二、数据预处理

1.数据来源及数据集成。本文利用数据挖掘技术,使用SQL Server 2012进行操作。从本校教务系统中导出2008级(已毕业)学生的相关信息作为样本,然后删除所有学生的姓名数据,以达到保护学生隐私的目的,将学号作为索引,对导出的数据进行集成和变换,全部转变成XLS格式,导入到数据库中。

2.数据的精简。成绩数据库数据量很大,需对数据进行有针对性的精简。本文选取八门有代表性的必修课程的成绩。因为成绩数据有缺失、重复等特点,首先要对成绩数据进行预处理,其中缺失的删除,有成绩的数据重复的仅选初修成绩。成绩视图如表1所示。

(1)不同民族的学生成绩对比。为了突出分析效果,本文仅将少数民族学生整体与汉族学生整体进行分析。采样数据库中的成绩,将数据离散化,对民族、课程名称和其对应成绩映射成相对应字符。汉族学生映射成字符H,少数民族学生映射成字符S,将课程名称按上表顺序映射成字符A、B、C、D、E、F、G、I。根据学生成绩的实际情况,将成绩阈值分别设为55、60、65、70、75进行试验。根据实验结果的效果,本文选取65分为成绩阈值进行分析。成绩映射:将65分以上成绩映射成“1”,65分之下(含65分)映射成“2”。设定最小支持度为0.4,最小置信度为0.7。处理后实验结果如表2所示。

(2)不同课程成绩之间的关联。采样数据库中的数据,将课程名称和其对应成绩映射成相对应字符。将课程名称按上表顺序映射成字符A、B、C、D、E、F、G、I。我校成绩百分制到五级制的换算标准为:100~90为优秀,89~80为良好,79~70为中等,69~60为及格,59~0为不及格。通过对本校学生成绩分析,发现达到“优秀”标准的学生成绩较少,为突出分析效果,本文将“优秀”与“良好”两等级进行合并分析。成绩映射:将80分及80分以上为优良设为“1”,70―80分为中等设为“2”,60―70分为及格设为“3”,60分以下为不及格设为“4”。设最小支持度为0.1,最小置信度为0.7。处理后实验结果如表3所示。

(3)不同性别的学生成绩对比。采样数据库中的数据,将学生性别、课程名称和其对应成绩映射成相对应字符。男生映射成字符M,女生映射成字符W,将课程名称按上表顺序映射成字符A、B、C、D、E、F、G、I。根据学生成绩的实际情况,将成绩阈值分别设为55、60、65、70、75进行试验。根据实验结果的效果,本文选取70分为成绩阈值进行分析。成绩映射:将成绩70及70分以上设为“1”,将成绩70分以下设为“2”。设置最小支持度为0.3,最小置信度为0.6.处理后实验结果如表4所示。

三、数据挖掘的实现

关联规则技术是数据挖掘的重要方法。关联规则是指数据之间简单的使用规则及相互依赖关系,反映当项目集A出现的时候,往往项目集B也会跟着出现这一规律。关联规则挖掘过程主要包含两个阶段:先从资料集合中找出所有的高频项目组,再由这些高频项目组中产生关联规则。APRIORI算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。APRIORI算法实现步骤和案例分别如图1所示。

四、数据分析的结论

由于本文的篇幅问题,文中所做的实验只针对民族高校学生成绩中的一部分问题进行分析,不能涵盖成绩管理的方方面面,仅从以上三个方面来实验说明。

将数据挖掘技术运用于学生的成绩分析,我们可以很直观的得出很多隐藏在数据之下的信息,由此得出以下结论:①不同民族的学生成绩确实有着一定的差距。汉族学生的总体成绩要优于少数民族学生,说明部分少数民族学生入学前的基础知识储备不够。希望今后学校分级教学的课程覆盖面进一步加大,从入学开始就给予少数民族学生更多关注。②各课程之间有很大关联。总体来看,高等数学1成绩不好的学生,高等数学2成绩依然很差;高等数学成绩优异的学生,离散数学成绩依然很好;大学英语特别差的学生,程序设计语言成绩也并不突出。因此,高校管理者也应该在课程管理上多下功夫,如果一门基础课程掌握不好,很可能导致后面大量的专业课学习跟不上,因此建议高校课程建设的方向应多向基础课及核心专业课倾斜。如果是专业实用性比较强的专业,就应该提供更多的实践机会,让学生真正学到知识。③不同性别学生之间成绩差别也很大。女生各门课程成绩总体都明显优于男生,即使在传统观念普遍认为男生较为擅长的理工科课程上面,男生的成绩也不如女生。因此,对男、女生的管理也应区别对待,敦促男生多花精力在学习上,鼓励女生多花时间在实践或能力锻炼上,让每一个学生都领悟到上大学的真实意义。

五、结语

数据挖掘技术已经在西方被广泛应用,并且该技术在金融、电子商务等方面已初步体现了它的价值。而我国正处于数据海量、但有价值的信息却相当缺乏的宓兀大部分数据使用也仅仅只是实现对其输入、储存、统计等简单功能操作,无法从海量信息中甄别出有益、有价值的信息。当今社会信息技术高速发展,各种数据都在飞速巨增,如果数据挖掘技术被广泛运用于我国的高等学校教育中,那么将来我国的整体教育质量必将快速提升。作为致力于为少数民族地区输送合格人才的民族高校,更应加快步伐,将新兴技术运用到日常教学及管理工作中,为加快我国少数民族地区各项事业的发展做出贡献。

参考文献:

[1]R.Ventura. Educational Data Mining[M]. A Review of the State of the Art,2009:29-38.

[2]刘春阳.数据挖掘技术在高校成绩管理中的引用研究[D].大连交通大学工程硕士学位论文,2009:11-25.

[3]刘巍,董哲宇.数据挖掘如何应用于高校教学[J].中国教育网络,2014,(11):43-50.

[4]郭茹.数据挖掘技术在教育领域的应用[J].科技和产业,2014,(09):45-49.

[5]李梅,张阳,蔡晓妍.关联规则挖掘在学生成绩分析中的应用[J].中国电力教育,2014,(20):70-76.

The Application of Association Rules Mining in the Analysis of College Students' Performance in Universities

GUO Min,LEI Jian-yun

(Department of Education,South-Central University for Nationalities,Wuhan,Hubei 430074,China)

Abstract:The use of data association data mining technology to carry on the deep analysis of national universities long-term accumulation of data to find the real factors affecting student achievement,student achievement,find strong association rules which are some deep and meaningful conclusions,to the national high school decision makers to determine the future direction of teaching management has great reference.

Key words:data mining;association rules;performance analysis;APRIORI algorithm

上一篇:应用型人才培养模式下本科数据库管理系统课程... 下一篇:中外合作办学大学新生学业适应教育探析