数据挖掘技术在成绩分析中的应用

时间:2022-02-17 06:12:49

数据挖掘技术在成绩分析中的应用

摘 要:在学生成绩管理系统中,学生成绩是一个重要的组成部分,体现了教师的教学水平以及学生的学习情况。如何合理利用这些成绩数据,从中找出能够影响成绩高低的因素,对提高教学质量有着非常重要的作用。利用数据挖掘的关联规则算法可以科学的分析出影响成绩变化的主要因素。

关键词:成绩分析;数据挖掘;关联规则

中图分类号:TP311.13 文献标识码:A 文章编号:1674-7712 (2013) 20-0000-01

随着高职院校的不断扩招,生源质量在下降,生源的数量也在逐步出现萎缩。在这种情况下,如何有效的利用现有的教学资源,改善教学质量,使人才的培养质量得到进一步的提高,在逆境中成长,是每一所高职院校面临的重大挑战。

目前各个高职院校的教务管理基本上都是采用基于数据库的教务管理系统软件。教务软件在这么多年的应用中积累了大量的数据,学生的成绩信息在教务软件的数据库中就大量的存在。一般情况下,成绩数据仅仅只是作为一种备份数据存放于数据库中,大部分只是进行简单的查询修改操作等,对于数据之间潜在的联系,影响成绩的因素等这些信息,我们却无从得知,并没有做到充分的利用这些数据。

利用数据挖掘技术,我们可以从这些成绩数据中挖掘出可以指导我们教学的,有意义的信息,主要表现在:(1)可以全面地认识学生的学习状况。对学生学习成绩的全面分析,不仅能够获得学生学习的整体情况,还可以了解学生对具体课程内容的掌握情况。(2)可以分析课程之间的相关性。分析各个专业的核心课程,可以了解学生对这些课程的理解情况,以及学生在这些课程中的得分情况,找出课程之间的联系,还可以对排课情况进行指导。(3)可以分析入学成绩对在校学习情况的影响。跟踪学生在本专业的学习情况,结合入学的成绩,找出入学成绩对专业相关课程的影响情况,从而指导学生的专业学习。

一、数据挖掘的概念与技术

(一)什么是数据挖掘。数据挖掘是一门涉及面很广的交叉学科,受到了各种不同领域的专家学者的关注,关于数据挖掘的定义也有非常多种,但归纳起来数据挖掘主要就是从大量的没有经过处理的数据中发现未知的有价值的规律的过程。

(二)数据挖掘的过程。数据挖掘的过程一般由五个阶段组成:(1)定义问题,明确数据挖掘的目的是什么。(2)数据准备,包括要选择什么样的数据以及对选择到的数据如何进行预处理等。(3)数据挖掘,根据数据的特点,选择合适的数据挖掘算法,在已经处理过的数据上进行数据挖掘。(4)结果分析,对数据挖掘的结果进行合理的解释,给出能够被用户所接受的知识。(5)知识运用,将数据挖掘出来的结果应用到相应的领域中。

数据挖掘的过程并不是一个简单的按流程完成任务的过程,在数据挖掘的过程中往往会出现循环往复,精益求精的过程。例如,在任务过程中发现之前选择的数据不是很好或者对数据的预处理没有达到我们的效果,那么这个时候我们就需要重新对数据进行选择或者重新对数据进行处理,直到达到我们的效果。

(三)常用的数据挖掘方法。数据挖掘技术是一门交叉学科,充分结合了人工智能与机器学习的特点,因此如聚类分析,决策树,统计分析等在机器学习,模式识别,人工智能等这些领域中的一些常规技术经过改进,大部分都可以作为数据挖掘的方法进行使用。模糊集方法,关联规则方法,遗传算法,神经网络方法,覆盖正例排斥反例方法,决策树方法,统计分析方法和粗集理论方法等都是数据挖掘技术中常用的方法。

二、成绩分析中的数据挖掘方法

成绩分析中主要是采用关联规则算法作为数据挖掘的方法。关联是指两个或两个以上的事务间存在着某种的规律性,数据关联是数据库中普遍存在的可被发现且重要的知识。关联规则算法就是从大量的数据中找出隐藏在其中的关联数据的一种算法。把关联规则算法应用于成绩分析中,主要是要从这些成绩数据中找出他们之间存在的关联关系,找出影响成绩变化的因素,分析入学成绩对在校成绩的影响主要体现在哪些方面,以及针对试卷中的得分情况,对学生容易失分的知识点进行总结,还能够得出课程之间的相关性分析。

以下是与关联规则挖掘中需要特别注意的几个概念:(1)关联规则。关联规则是表示成XY的一个蕴含式,其含义为如果X在一个事务中出现,那么Y肯定也会在出现在同一个事务中,X就称之为条件,而Y就为这个规则中的结果。(2)置信度和支持度。XY的置信度指的是同时包含X和Y的事务数与只包含X的事务数的个数的比值。XY的支持度指的是同时包含X和Y的事务数与事务总数的比值。置信度与支持度主要是为了验证规则的可靠性与可用性。(3)最小置信度和最小支持度。最小置信度和最小支持度是关联规则中依靠的两个主要的评估准则。这两个数值都是由用户定义的。最小置信度表示了关联规则中必须满足的最低可靠度,。最小支持度则是表示数据集在统计过程中必须满足的一个最低程度。而支持度只要比最小支持度大的非空集合我们都称之为频繁项集。(4)强关联规则。强关联规则就是同时满足最小置信度和最小支持度的规则。

三、关联规则挖掘过程

利用关联规则进行数据挖掘的过程从本质来上说是找寻强关联规则的过程,主要通过以下两个阶段来实现:(1)分析识别数据库中的频繁项集。在数据挖掘之前,先定义出最小支持度,再根据这个最小支持度,从原始数据集合中找出支持度不小于最小支持度的项集,即频繁项集。(2)强关联规则的产生。利用(1)中所产生的频繁项集,来产生规则,这个规则必需满足的条件是其置信度要大于或者等于最小置信度

四、结语

成绩作为现代高职院校管理系统的一个重要组成部分,要充分利用起来,才能更好的指导教学,改善教学质量,提高人才培养的水平,提升学校声誉。通过对海量的成绩数据进行数据挖掘,可以更好的获得相关数据之间的关联关系,提高了成绩分析的效率,保证了成绩分析的科学性。

参考文献:

[1]杨晓,张迎新.Apriori算法在消费市场价格分析中的研究与应用[J].北京工商大学学报(自然科学版),2009(3).

[2]唐新宇,陈晓明.最小支持度在教学质量评价系统中的数据挖掘应用[J].计算机与现代化,2012(8).

[3]韩家炜,堪博.数据挖掘概念与技术[M].北京:机械工业出版社,2007.

[作者简介]吴梨梨(1983-),女,福建福州人,福州英华职业学院计算机系讲师,福州大学在读工程硕士,主要从事数据挖掘方面的研究。

[基金项目]2012年福建省教育厅A类社科研究项目,项目名称:基于数据挖掘的高职院校学生培养模式评价与分析研究,项目编号:JA12499S。

上一篇:旅游业的网络营销发展势态及对策 下一篇:构建财务诚信评价体系的探讨