基于数据挖掘的高校学生信息海量数据处理

时间:2022-04-12 08:31:27

基于数据挖掘的高校学生信息海量数据处理

摘要:随着高校学生规模的日益扩大,学生信息的数据激增,在学生信息管理中,如何处理海量数据是每个学生管理者非常关心的问题;该文提出了利用数据挖掘方式首先对数据进行预处理,然后根据缓存页面分页算法来处理海量学生信息,在实际处理数据时,具有很高的参考价值。

关键词:数据挖掘;决策树;关联性规则;页面分页算法

中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)24-5823-03

Dealing with College Students Date Based on Date Mining

SUN Sheng-yao,NIE Li-ying

(Soft College of Henan University, Zhengzhou 450008, China)

Abstract: With numbers of the college students increasing and information of students increasing, how to deal with these date is the key problem which student manager cares about. This article comes up with a method: firstly, dealing with date promisingly based on date mining, then dealing with huge information about students according to cache-page-algorithm. In fact, it is valuable in dealing with date.

Key words: date mining; decision trees; connected rules; cache-page-algorithm

近时间来,随着高校的扩招,学生规模日益扩大,导致在高校工作中出现了诸多问题,尤其表现在学生管理工作中;高校工作管理者为提高工作效率,需要常常处理大量的关于学生的数据,这些数据有着非常大的查询和分析价值。但随着数据量的增大,对于如何处理海量数据查询效率的问题,已经迫在眉睫;这些数据主要是学生的基本信息以及从基本信息中衍生出的伴生信息,这些数据之间存在着一定的联系,在其中蕴含着一些经分析后的一些重要信息,如何将信息快捷处理,并少产生冗余数据,是每个学生管理者关心的问题。近年来数据挖掘技术运用越来越广泛,若将数据挖掘技术运用于学生管理工作中海量数据处理中,通过数据挖掘技术,搜集分析学生信息中数据的各种特征和相互关系,有助于减少学生工作者的分析数据的工作量,从而提高管理工作的质量和效率。

1 数据挖掘

数据挖掘(Data Mining)是从大量的无关数据中,得出潜在的、有价值的知识(模型或规则)的过程,是一种数据深层次的分析方法。数据挖掘是一门交叉性学科,其包括机器学习、神经网络、数据库、模式识别等计算机学科方面的知识,又包括数理统计、粗糙集、模糊数学等相关数学方面的学科知识。数据挖掘过程经过数据收集、数据处理、数据变换、数据挖掘、模式评估、知识表示一系列的过程。该过程不是一次完成的,其中的一些步骤或整个过程都是经过数次数次或反复进行的。进行数据挖掘的非常多,比较常见的有:关联规则方式、多层次数据汇总归纳方式、决策树方法方式、神经网络方法方式、正比例覆盖排斥反例方式、粗糙集方式、遗传算法、公式发现、统计分析方法、模糊论方法、可视化技术等[1];以上诸多方式中,以下几种方式比较适合于高校学生信息海量数据处理。

1) 关联分析。关联规则挖掘是数据挖掘处理数据的重要方式,也是最常见的一种技术。

关联规则描述的是存储在数据库中数据数据项之间的潜在关联。其理论来源于现实生活中市场购物篮物品分析模型,目的是通过分析购物篮内物品,得出顾客购买物品方式;现在关联性原则不在局限于分析消费者潜在的购物模式,已经拓展到诸多领域内,例如学生管理工作,通过分析学生几个学期内的学生表现,得出适合学生的最佳学习模式等等。

2) 分类与预测。分类是将数据根据某种数据分类原则,将大量数据划分到若干个类别中的某一类别中,减少数据的分析量。

分类预测一般分成两个步骤:第一步,构造分类器,利用构造所得的分类器对数据进行分类;分类其实是一种指导数据学习的过程,将数据置放于已知的样本训练集中,并且这些类别是根据模型预先设计好的,个数是确定的,目的是将分类的模型用于下一步的预测中;第二步,预测;预测是根据源于的模型和经学习训练的模型对未知的数据和数据类别对象进行类别预测,得出分类的数据,从而减少数据的查询量。

3) 聚类

聚类和分类预测大致相同,主要区别在于聚类是一种无指导的学习过程,面对海量数据,事先并不知道样本的类别,也不知道样本类别的个数,而是将数据划分成若干个组,在划分中使同一组内的数据对象具有较高的相似性,而不同组中的数据对象相似性较低;形成的聚类运用于不同数据处理过程,有效降低数据处理量。

4) 决策树方法

决策树数据挖掘方式是利用信息论中的信息(信息增益),从中寻找存储于数据库的数据具有最大信息量的属性字段,把该字段建立为决策树的一个结点,然后根据该结点字段的不同取值建设树的分支,决策树的每一个分支的结点按照同理的方式建立结点和下层的分支。决策树是一种数据的“分治策略”,将比较复杂的问题分解成若干个相对简单些的子问题,通过解决若干分支简单问题,从而解决整个复杂问题。并且,分支的问题还可以递归,在对问题进行分解,即接着分解,直至分解成最简单的元问题为止。其中,在该树中每个内部逻辑结点表示为对数据的某个特征逻辑判断;边表示成逻辑判断的结果;树的叶子结点是数据的每个类别的标记;从树的根节点出发到任意一个叶子,经过的边就是某一类数据的特征序列 [2]。

2 目前处理海量数据的方式

目前海量数据处理主要集中在数据库的设计上,采用的方式有:

1) 对海量数据进行分区操作

把不同数据表征的数据存放于不同的物理磁盘空间下,通过该方式把数据分散开,用于减少在数据读取和存放时的磁盘I/O操作,进而减少了整个系统的符合,这些数据表征中同样包括日志文件和索引文件。

2) 创建索引

创建索引的目的是提高数据的查询效率,通过建立索引,便于数据操作时快速定位到操作的数据,但该方式会降低服务器的操作效率,故在系统中是否建立索引和建立什么样的索引要根据实际的需要进行权衡。

3) 创建索引表

建立索引时,在数据表上创建索引或复合索引,当索引较多时,我们可以为索引建立索引,提高数据检索效率。

4) 创建存储过程

把数据的操作交给数据库自身进行处理,不通过程序架构的中间层。

5) 采用B/S模式

不再专门制作客户端,减少数据的中间访问层次,从而提高数据的访问速度与效率[7]。

以上五种方式是目前面对海量数据处理时大家采用的应对方式。

3 问题分析

1) 很多信息经过处理后并非我们需要的数据

以学生年终考核信息为例:我们需要的是排名前20的学生的名字、学号和平均考核成绩即可判定出那些学生年终考核是优秀的,而一些伴生信息如性别等我们并不需要,而在查询中往往出现,大大加重了服务器的负担[3]。

2) 很多信息需要多个数据进行联合运算得出结果

例如我们需要学生的详细的家庭信息,可能要经过多个表的联合运算才可出现结果,众所周知,在数据的联合运算中,往往采用笛卡尔积的形式,数据会是以几何增量的方式累加,本已经是海量的数据,经过联合运算,数据更大,更难进行处理[4]。

3) 数据的处理往往交给服务器

大量的数据都是在服务器端运行,作为提交用户的客户端很少或基本不参与到运算中来,形成瘦客户端胖服务器的格局;目前提倡的云计算、网格计算等对该方式是极力排斥的,在海量数据处理中,如果让客户端参与到处理过程中来,将会大大减轻服务器的负担,提高服务器的性能[5]。

4 数据挖掘在学生信息管理中的应用

对以上现实中存在与学生管理中的问题,可以通过数据挖掘的理论和一些其他的处理技巧来完成。

1) 决策树在学生信息管理中的应用

在学生管理中关注的只是一些比较特殊的数据,可以通过决策树的训练分类规则,首先通过表征数据的关键属性段建立根节点,建立数据训练集,输入已有数据,通过决策树的构建,生成预测学生信息的决策树,这样大量数据可以分成具有数据表征数据,便于直接定位学生管理者感兴趣的数据。以学生综合测评为例分析:

综合素质测评涉及多个方面,主要为政治思想素质、学业成绩平均分数、社会实践能力、体育活动等,而这些指标中只有部分是可以量化的。学生管理部门对这些数据的处理主要采用人工测评方式,利用层次分析模式抑或模糊分析方式进行评价。人工测评受主观因素影响非常大,准确度不够理想,同时还需要设计不同的效用函数给各个指标不同的权值,处理过程比较复杂且难推广[6]。

在评测过程中,分别把政治思想素质分成若干等级:例如优、良、中、差分成四类集合,以学生的学号作为表征数据的根节点树,通过数据的分类,表征不同的数据对象,通过决策树递归,形成“政治思想素质”决策树;同理学业成绩平均分数、社会实践能力、体育活动等也会有不同的训练决策树,再把几种决策树作为新的决策树的数据,把几种决策树通过数据挖掘的再次分类和预测;其中分类就是预测分类标号( 或离散值),根据训练数据集和类标号属性, 构建模型来分类现有数据, 并用来分类新数据;其中预测就是建立连续函数值模型;通过该种方式可以摒除在学生数据管理中大量的无用数据,从而得出学生管理者感兴趣的数据,大大降低无用的数据的数量。

2) 关联集分析方法在学生信息管理中的应用

由于各种学生信息之间具有前后的联系,所有的信息都似乎循序渐进的,需要学生根据在校内的各种表现进行完善。同时,学生信息的完善在时间上具有一种线性的关系。可以使用数据挖掘中的关联规则分析方法,用来分析学生信息检索过程中之间信息的关联系;例如学生首先完善基本信息,才能完善学生家庭信息,然后每个学期根据校内表现完善各种伴生信息,因此根据关联系原则,在搜索某一学生信息时,可以把一些没有必要的数据直接不让参与运算,例如搜索大二学生的信息,就不要把大三表现的情况信息参与到运算中来。

通过对数据库中学生信息进行回归分析、关联分析,探究学生的信息和其他各种伴生信息之间的关联性,很容易找到处理不同的数据(例如处理不同年级学生)合适的处理方法,进而减少了数据的操作量。

关联规则的分析方法除适用以上方面,还可以有效的分析学生的学年学期情况、成长过程以及生活情况等诸多方面进行描述和评估,进而使学生管理者更容易即使发现学生的问题,进行针对性的指导与疏导。

3) 缓存技术在学生信息管理中的应用

处理数据的时候,按照时间这一维度,把数据放于不同缓存数据文件中,这样有助于减少客户查询数据时,减少查询时间,并且数据量越大,该方式效果越明显;即按照页面缓存的原理,先从海量数据中获得用户感兴趣的信息,以页面缓存技术储存在客户端上,再次从服务器上索要数据时,首先在本地缓存上进行查询,根据分页的页面算法获取数据,从而减轻服务器端的负载量,提高服务器的负载能力,更好的为用户提供服务[8]。

根据缓存技术的原理,同样可以运用到高校学生海量数据的处理上,以综合素质测评为例,学生管理者关心的数据是前40%学生的信息,初次查询出的数据,可以存放于客户端上,利用缓存分页技术,当用户再次提取数据时,根据分页算法,先查询客户端存放的数据,当数据不存在或不满足需求时,再从服务器上进行索取,从而大大提高服务器的处理能力,提高在学生信息管理中海量数据的处理能力。

5 结束语

数据挖掘作为一种新兴技术工具,对人类未来将会产生重大影响,将其应用于高校学生信息海量数据的处理中,将会带来效率提高,可以帮助学生管理工作者在日常海量的数据时及时的发现数据的规律和学生潜在存在的问题,为决策提供信息支持,从而不断的提高高校学生的管理质量,提高高校的竞争力,为未来的发展提高强有力的支持。

参考文献:

[1] Janwei Han and Micheline Kamber.数据挖掘概念与技术[M].范明,孟小峰,译.北京:机械工业出版社,2007.

[2] 朱玉全,杨鹤标,孙蕾.数据挖掘技术[M].南京:东南大学出版社,2006.

[3] 刘美玲,李熹,李永胜.数据挖掘技术在高校教学与管理中的应用[J].计算机工程与设计,2010(5):1130- 1133.

[4] 潘锋.浅谈数据挖掘技术在高校教学管理中的应用[J].重庆科技学院学报:社会科学版,2008(4):100-101.

[5] 张儒良,王翰虎.论数据挖掘优化教学管理[J].贵州民族学院学报:哲学社会科学版,2004(2):133-135.

[6] [美]John Papa.Matthew Shepker[M].北京:机械工业出版社,2000.

[7] 百度文库.SQL效率之索引.

[8] 张占杰.浅谈海量数据处理技巧[J].信息科技,2011,1,1(下).

上一篇:基于小波多尺度的NCC算法的优化 下一篇:地方大学计算机实验教学方法研究