数据仓库技术在高校信息化管理中的应用

时间:2022-07-02 04:55:07

数据仓库技术在高校信息化管理中的应用

[摘 要] 随着信息技术的发展,许多高校建立了相对完善的管理信息系统。但是,目前所在高校只有基于联机事务处理的管理系统, 缺乏对历史数据的有效利用和分析, 不能获取潜在有用信息。本文重点介绍了运用数据仓库及其相关技术和Microsoft SQL Server 2000 提供的数据透视表服务构建学生成绩分析数据仓库。最终实现数据多维分析与查询。

[关键词] 数据仓库 学生成绩分析 联机分析处理 多维分析

一、引言

目前,许多高校的管理信息系统已经完善,其中记录的大量信息已经成为学校的宝贵资源,但是这些信息大部分只是简单地存储在数据库中,隐藏在这些数据中的潜在信息闲置,所隐含的价值没有挖掘利用。对一个学校来说,学生成绩是评估教学质量的重要依据,也是学生是否掌握好了所学知识的重要标志。目前的高校学生成绩管理系统使用的多是传统的数据库系统,即联机事务处理系统,一般能够对学生各类课程成绩、毕业设计成绩和学分制成绩等进行有效管理,进行数据查询和简单的统计功能。但传统的学生成绩分析无非是得到均值、方差、效度等,其实另外还有一些不易察觉的信息隐含其中。学生成绩分析数据仓库正是为解决这一问题而设计的,通过它可以及时发现教学中存在的问题,找到影响学生成绩的真实原因,从而采取有利于提高学生学习质量的有效的教学手段,提高教学质量,为难以制定的管理决策提供科学的依据,为教学的管理和发展上做出即时、正确的判断。

二、基于数据仓库技术的决策支持系统

1.数据仓库

数据仓库技术从本质上讲,是一种信息集成技术。数据仓库从多个信息源中获取原始数据,经过加工整理后,存储在数据仓库的内部数据库中,通过向终端用户提供信息访问工具,向数据仓库的用户提供统一、协调和集成的信息环境,支持企业全局的决策过程和对企业经营管理的深入综合分析。

2.基于Analysis Services的OLAP相关技术

数据仓库的实现最终是由许多支持工具来共同完成的。Microsoft公司在SQL Server2000上提供了Analysis Services,它用于联机分析处理(OLAP),是数据仓库的解决方案,也是Microsoft决策支持服务的主要组件。

Analysis Services系统包括服务端和客户端两个部分。服务端的组件是为创建和维护多维数据结构,并提供多维数据以响应客户端查询而专门设计的。它具有创建和管理OLAP数据,通过透视表(PivotTable)向客户端提供数据的能力。它的操作包括从基于关系型数据库的数据仓库中创建多维数据立方体和将其存储到多维立方体结构,关系数据库或两者的结合中。

多维立方体结构中的元数据存放在关系数据库的存储单元中。客户端中关键的部分是透视表服务(PivotTableService)。PivotTable服务是应用程序访问Microsoft Analysis Services的接口,MicrosoftExcel和其他供应商提供的应用程序可以通过它来访问服务器中的数据并将结果显示给用户,或用它创建用于脱机分析的本地多维数据集。同时,通过它还可以和OLAPServer连接,为用户的客户端应用程序提供一个接口,从服务端获取OLAP数据。

3.创建立方体

本文以对学生成绩的分析为例,以原有数据库中保存的历年学生成绩数据做依据,用数据仓库技术帮助我们分析处理数据,得出有价值的结论。

首先进行数据的准备。包括数据抽取、选择.预处理转换。学校的传统数据库中存有近几年的基本信息表,这些数据的格式有关系数据库表和纯文本文件等,因此由原有异构环境向OLAP环境转换就成为数据仓库构建过程中最重要的一步。在构建数据仓库之前创建一个名为gzxy的数据集市,打算采用星型模型维度建模,来描述学生、教师、课程、时间之间的关系。在学生成绩分析数据仓库中以成绩表作为事实表。而课程信息、教师信息、学年学期信息等作为维度表。主要结构如图1所示。

数据集市支持不同的类型的数据存储类型。目前有MOLAP、ROLAP、HOLAP三种,但以MOLAP效率较高,成为首选。MOLAP(多维OLAP)是将基础数据和它们的聚集使用多维立方体的存储方式来存贮,创建后的多维立方体如图2所示。其中维度包括学期,性别,课程名。度量值包括成绩,课程号,学年学期,学号。计算成员AvgScore用来计算某门课程的平均成绩,这样可以对成绩作横向的比较。它的表达式为:[Measures].[Cj]/[Measures].[Xh],其中cj成绩度量值设为sum求总和,xh学号度量值设为count求学生人数,这样就可以得到平均分了。

对多维数据集处理后在“数据”窗口内可以看到数据分析的结果,如图3所示。比方说,我们在“课程名”中选择“英语”课程,比较每个学期男生,女生的平均分情况后我们发现每个学期女生的分数都高于男生大概有6分左右,所以“英语”这门课女生还是比较有优势的,这个情况依旧没有改变,学校可以着重加强动员男生学习英语的兴趣。再比如“C语言课程”,主观认为应该男生应占优势,但根据数据显示,依旧是女生的平均分高出5分左右。所以我们可以发现现在高校普遍存在的一个现象就是女生的成绩普遍好于男生,即使是在一些男生占优势的课程上。就其原因来看可能是女生在找工作时的局限性大于男生,特别是在我校以铁路专业为主的情况下,女生更多的想通过成绩上的优秀与男生竞争,学校可以通过这些数据的比较有侧重的安排教学改进措施。

4.数据分析结果展现

对于多维数据库的显示,可以有很多种方式,可以在VB中引用Microsoft Office Web Component(OWC)中的组件PivotTable来完成对多维数据集的显示;当然要显示多维数据集中的查询结果肯定要涉及到ADO MD和MDX。对多维数据集查询结果进行显示即把通过MDX语句查询出的结果利用OWC的数据透视表组件PivotTable显示。通过把MDX语句的查询结果作为OWC中的组件PivotTable和Chartspace的数据源。

上面的分析结果用MDX语句表达,作为PivotTable的数据源,可以在PivotTable上面显示如图4的显示结果。

mandText=“select crossjoin({(measures.[scoreAvg])},{[性别].[所有 性别].children}) on columns,

{[学期].[所有 学期].children} on rows

from 成绩分析

where ([课程名].[所有 课程名].[C语言程序设计])”

通过上面这个MDX语句,我们可以得到关于C语言课程各个学期男女学生考试成绩的平均分。

三、结束语

本文通过SQL Server2000上的AnalysisServices的联机分析处理(OLAP)验证了构建的数据仓库的合理性和有效性,用透视表服务PivotTableService作为客户端的展示工具。由于数据仓库技术是一门新兴的前沿学科,构建数据仓库帮助教育管理人员做出科学的决策仍然处于不断的研究和探索之中,但就其对高校教学管理信息化建设而言是有必要的,而且相信在今后的工作中一定能体现出它的强大优势。

“本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文”

上一篇:浅谈饭店的服务补救 下一篇:基于数据挖掘技术的证券营业部客户关系管理分...