高等院校教学数据仓库设计研究

时间:2022-08-25 04:28:56

高等院校教学数据仓库设计研究

摘要:对高等院校教学数据管理需求和数据仓库建设必要性进行了深入分析,建立了由数据源层、数据抽取层、数据预处理层、数据仓库层和综合应用层组成的通用高等院校教学数据仓库体系结构框架,并对各层进行了描述。在此基础上,对院校教学数据仓库的主题、维度表、事实表和数据集市进行了设计。构建的高等院校教学数据仓库能够有效支撑数据综合查询、统计报表、OLAP多维分析和数据挖掘,提高院校教学决策水平。

Abstract: This paper deeply analyzes the necessity of the construction of education data managing requirement and data warehouse in higher educational institutes, constructs the architecture frame of the general college education data warehouse constituted by data source, data extracting, data preprocessing, data warehouse and compositive applying and describes the layers. Based on this, it designs the themes, dimension tables, fact tables and data marts of college education data warehouse. This data warehouse can support data search, statistics report, OLAP multi-dimension analysis and data mining and improve education decision level.

关键词:高等院校;教学数据;数据仓库;数据挖掘

Key words: higher educational institutes;education data;data warehouse;data mining

中图分类号:TP311.1 文献标识码:A 文章编号:1006-4311(2016)20-0071-04

0 引言

当前,高等院校教学呈现出课程种类繁多、学员数量庞大、教学管理复杂的特点,需要采集、处理、传输、管理与使用不同类型的数据,才能确保各项教学工作高效、有序开展。数据仓库是一个面向主题的、集成的、非易失的、随时间变化的、用来支持管理人员决策的数据集合[1]。通过构建高等院校教学数据仓库,能够实现多源异构教学数据按教学主题、数据类型和数据关联关系进行科学整合、组织与管理,确保数据的系统性、规范性和有序性,更好地为上层应用提供数据支持。同时,数据仓库为数据挖掘提供了高质量的数据来源,能够有效挖掘海量教学数据的潜在价值,解决单一、少量业务信息无法解决的综合性问题[2]。

1 教学数据仓库需求分析

1.1 教学数据管理需求

目前,高等院校教学数据在管理与使用过程中存在着管理分散、标准不统一、利用水平低等突出问题,由此导致的数据不系统、不连贯、不全面等影响和制约了院校教学效能的充分发挥。其主要特点描述如下[3,4]:

①数据量巨大。在院校开展教学过程中产生了海量的信息资源,包括历届学员学习信息、课程信息、教学管理信息、教学软件平台使用信息、用户网络行为信息等结构化数据,以及各类文档资料、图像、音视频等非结构化数据,而且这些数据还在逐年快速递增。

②结构化数据和非结构化数据,结构化数据包括了*.dbf、*.dmp、*.mdb、*.vfp、*.xls等格式;非结构化数据包括了*.doc、*.ppt、*.pdf、*.caj、*.txt、*.dxf、*.jpg、*.avi、*.mp4、*.rmvb等格式。

③数据管理分散。院校教学信息化建设初期主要考虑了各业务工作独立需求,系统分散开发,数据分散管理,虽然较好地满足了当时单项业务的急需,但也导致了数据的不系统、不规范,数据很难被别人发现和获取,存在的质量问题也很难溯源。

④数据标准不统一。院校教学信息化建设过程中,还普遍存在着标准化程度不高、数据标准不统一的现象,形成了多个“信息孤岛”、竖起了很多“烟囱”,信息系统之间、信息系统本身相关数据的一致性、正确性难以有效保证,数据不能得到有效的流通和交换,数据的综合集成和一体应用难度非常大,整体数据质量不高。

⑤数据利用水平低。当前的院校教学数据应用主要以查询统计、综合报表为主,主要是面向单项教学应用需求,也出现了个别综合性应用,但在分析过程中需要消耗大量的人力、物力和时间来进行数据准备、数据集成和综合分析。

针对上述问题,对院校教学数据进行系统、规范、有效的管理,提高数据利用的深度和广度,为教学工作的开展及教学决策提供有力支撑变得尤为迫切。

1.2 教学数据仓库必要性

数据仓库是一个将从多个数据源采集来的数据以统一的模式进行存储的仓库环境,它为用户提供了单独的、统一的数据接口,便于数据的采集、存储和访问,为数据共享交换、挖掘分析和综合应用提供支撑。构建院校教学数据仓库的必要性体现在以下几点:

①能够实现有效的数据集成。这种集成体现在横向业务信息系统之间的数据集成,也体现在纵向上单系统历年数据之间的集成,而不单单是数据源中原有数据的简单拷贝。数据仓库通过使用数据清理和数据集成,能够将来源于异构数据库的数据进行规范化处理,确保数据命名、数据格式、编码结构和属性度量等的一致性,并按照业务逻辑、管理模式和应用需求进行不同程度的集成,为多种数据应用服务奠定坚实基础。

②能够实现有效的存储管理。数据仓库将分散异构的教学信息,按业务主题、信息类型和信息关联关系进行科学整合、组织与管理,确保数据管理的系统性、规范性和有序性,更好地为应用提供支撑。同时,数据按照建立的数据采集策略,可以采用源驱动架构,通过数据源连续的或周期性的推送数据进行数据更新,也可以采用目标驱动架构,通过数据仓库周期性的向数据源发送数据采集请求进行数据更新,如此便可实现历史数据的不断累积。此外,数据仓库中的数据根据存储时间的延长、使用频率的变化,对数据进行轻度、中度和高度综合,以满足各个层次的决策需求。

③能够实现有效的挖掘利用。首先,数据仓库能够支持海量数据的查询和基本的统计分析,并通过交叉表、表、图进行显示。其次,数据仓库中的数据通过事实表、维表进行组织和管理,这种多维数据模型将数据看做立方体形式,能够为基于OLAP(联机分析处理)的教学数据多维动态分析、可视化展现提供有力支撑。第三,数据仓库中的数据是从多源异构系统经过抽取、转换、加载等步骤得到的,能够直接为数据挖掘提供高质量的数据来源,挖掘分析海量数据中隐藏的模式和关联,从而为教学规律分析、教学能力评估、教学决策等提供支撑和服务。

2 教学数据仓库体系结构设计

由于院校教学数据来源的广泛性、类型的多样性以及应用的复杂性,使得对整个教学数据仓库体系进行科学规划就显得尤为重要,必须在深入分析数据细节和应用需求的基础上,设计出科学、合理的数据仓库体系结构框架,确保海量教学数据能够得到有效集成管理与高效分析利用。

2.1 总体框架结构

教学数据仓库设计为数据源层、数据抽取层、数据预处理层、数据仓库层和综合应用层五层结构[5,6,7],并遵循相关标准规范,如图1所示。数据源层提供各类教学数据,数据抽取层负责将数据源中的数据抽取出来,数据预处理层接收数据抽取层提交的数据,进行数据转换处理,根据需要分别加载到统一信息视图库和数据仓库中,数据仓库层进行教学数据的集中存储,为上层OLAP、数据挖掘、决策支持等应用提供支撑。

2.2 体系结构描述

教学数据仓库体系结构框架中各层描述如下:

①数据源层。是教学数据仓库系统的数据来源,包括了来自院校教学开展过程中产生的信息系统数据、电子文件,以及外部相关单位、部门提供的数据等,其中结构化数据可能存在于Oracle、SQL Server、Access等数据库管理系统,也可来自于XML或Excel文件,非结构化数据来自于各种类型的电子文件。

②数据抽取层。主要是将数据源层不同系统中的数据抽取出来并导入预处理数据库,包括数据源连接、数据抽取、数据导入和元数据著录等项工作。

③数据预处理层。主要是提供对从教学信息系统中抽取数据的预先存储与处理,按功能分为预处理数据库和统一信息视图库两个区域,预处理数据库为教学数据进入数据仓库之前提供数据缓冲服务,统一信息视图库为教学管理人员提供近实时的快速数据查询与报表功能。

④数据仓库层。主要提供教学数据的集中存储功能,包括教学数据仓库、数据集市和产品数据库。其中,数据仓库存储经过清洗、转换、集成处理后的原始粒度数据,为OLAP和数据挖掘等提供持续、稳定、优质的数据服务;数据集市是数据仓库的子集,为面向专题的数据分析提供服务;数据产品主要包括在对统一信息视图和数据仓库进行相关数据操作后生成的一系列产品,如各种视图、专门定制的条件查询结果、OLAP多维数据分析生成的图表、数据挖掘分析结果等。

⑤综合应用层。主要是面向不同用户提供多种数据应用,包括综合查询、统计报表、OLAP和数据挖掘等。应用层的各种应用通过调用不同的数据服务,完成从数据仓库中进行数据获取、数据计算和数据可视化展现。此外,综合应用层还可以根据现有教学信息系统的数据需求,为其提供必要的数据服务。

3 教学数据仓库模型设计

教学数据仓库采用多维数据模型进行设计,这种多维模型能够有效支撑数据分析与展现,提供高效的数据查询分析,实现对数据的全面理解与认识。在多维数据模型中,通过事实表和维度表进行数据的组织与管理,事实表与维度表通过公共属性建立关联关系。事实是数据分析的焦点,事实表包含了大量的院校教学数据,是多维模型的基本表,围绕院校教学主题进行组织,其中最有用的是数值型和可加型事实。维度是分析事物的角度,维度表中的值实际上就是事实表的粒度定义,并确定了相关数据项的取值范围。教学数据仓库采用典型的星形连接模型进行设计,事实表包含两个或者两个以上的外键,外键与维度表的主键连接,如图2所示。

下面,分别介绍教学数据仓库中主题、维度、事实和数据集市的设计。

3.1 主题设计

数据仓库中的数据是面向主题的,每个主题域都以一组相关的事实表和维度表来实现。业务信息系统数据经过处理后,最终都要存储到这些表中。通过分析发现,院校教学工作的开展主要涉及教师、学员、学科、课程、教材、教学活动、教学管理和教学保障等8类对象,因此在其数据仓库设计过程中主要以8类实体对象为核心进行主题的提炼和细化,形成教学数据仓库的主题框架。以学员实体为例,其主题包括学员基本信息、学员受训信息、学员奖惩信息、学员任职经历信息、学员参加大项活动信息等。

3.2 维度表设计

维度是观察事物的角度,它是条件查询、分组、报表标签生成的基本来源。教学数据仓库中的维度表包含许多属性,这些属性用于对维度表的行进行描述。在实际应用中,通常维度表的行数较少,但列数较大,这样做的目的是使得数据分类清晰,而且对每个类别都有详细的属性描述。教学数据仓库维度表基于现有业务信息系统中的各种分类进行设计,首先汇总各业务信息系统中的分类表,然后进行分类表的统一和规范,使其能在教学工作全局进行使用,最后结合实际教学工作需求对规范后的分类表进行筛选和补充,以满足数据多维分析的需求。在教学数据仓库众多维度表中,有很多维度表被多个事实表所共用,如时间维。

下面列举了数据仓库中学员和教学活动类别下的部分维度表。(表1、表2)

3.3 事实表设计

在教学数据仓库中,通过事实表保存了大量教学详细事实,这些事实表示数据分析的基础。事实表通过外键与多个维度表连接。教学数据仓库遵循数据仓库设计的一般原则,在事实表中减少描述性信息,而是以数字类型与可加型事实为主,这也符合大部分数据挖掘分析算法对数据的要求。

在表1中已经对人员主题下的主题进行了列举,其主要事实表也即包括相应的学员基本信息、学员受训信息、学员奖惩信息、学员任职经历信息、学员参加大项活动信息等。以学员参加大项活动信息为例,其数据结构如表3所示。

3.4 数据集市设计

在院校教学过程中,教学管理、学员管理、课程成绩分析、教学质量评估、教学能力评估等始终是各级领导关注的重点,是开展教学决策、提高教学质量的重要支撑。因此,围绕这些特定教学分析需求建立了数据集市,存储从数据仓库中进行筛选、集成、汇总,并经过统计分析后形成的数据,以快速高效的满足不同用户在特定方面的数据查询分析需求,有效支持OLAP分析工具。部分数据集市具体如表4所示。

4 教学数据仓库应用分析

教学数据仓库的构建,主要是用于满足综合性数据分析与应用,包括综合指标、数据统计、多维分析和数据挖掘等方面,为教学决策提供支持。

4.1 综合指标

在院校教学管理过程中,决策者通常只关心能够直观有效反映当前院校教学总体情况的若干个关键指标,便于其客观、正确的判断教学总体形势,从而做出科学决策。这些指标针对院校教学管理中的焦点问题而提出,是由低层级的单项业务指标和高层级的综合业务指标构成的指标体系,能够为不同层级的决策者提供支持。教学指标通常需要跨主题、跨年度的教学数据进行计算,而数据仓库汇聚整合了教学相关的高质量数据,能够支持各类数据的快速提取和计算,最终得出指标值。

4.2 数据统计

教学管理活动相关的规划设计、计划拟制、需求评估、经费测算等,离不开针对教员学员、教学活动、教学管理、教学保障等信息的统计计算。数据仓库中的各类教学按照应用主题进行存储管理,针对常用的数据统计,通过数据集市进行数据的定向组织,并通过预设的统计工具进行数据的计算,并生成数据统计报表,支撑院校教学管理活动的有序开展。

4.3 多维分析

在日常教学过程中,有许多临时性、随机性的教学数据分析活动,这些分析活动需要的数据表没有定式,管理人员可以根据需要从不同角度对数据进行观察分析。在分析过程中,可充分利用数据仓库中的事实表和维度表,选择自己关心的指标和分析的口径,通过钻取、切片等操作,在同一张表中按照多个分析维度得到统计分析数据,实现对相关问题的全面准确把握。

4.4 数据挖掘

当前,广大院校教育工作者已经意识到,海量教学数据中隐含着许多有用的知识,包括模式、规律、趋势等,对于教学工作至关重要。数据仓库中的数据是经过清理、整合的高质量数据,以其为基础,通过采用关联规则分析、聚类分析、决策树、文本挖掘等分析方法,能够挖掘出不同类型学员培养模式、课程设置优化方法、不同教学要素间的关联关系等,从而为有针对性的教学改革提供辅助,提升教学能力和水平。

5 结束语

数据仓库能够实现面向主题的、集成的、随时间变化的数据集合的存储和管理,为有效解决院校教学数据管理中存在的不系统、不全面、不一致等问题提供了重要手段和方法。本文结合当前院校教学数据管理与使用中存在的问题,研究构建了院校教学数据仓库体系结构框架,并进行了数据仓库模型的设计研究,目的是通过提供高质量的数据,来支撑从海量数据中快速、准确的挖掘院校教学所需的高价值信息,从而为教学工作开展和决策支持提供支撑。

参考文献:

[1]William H. Inmon.数据仓库[M].四版.北京:机械工业出版社,2006.

[2]战晓苏,吴云浩,皮人杰,译.数据仓库设计:现代原理与方法[M].北京:清华大学出版社,2010.

[3]吕海燕,吕红,任颖,等.数据仓库在教学管理系统中的应用研究[J].现代计算机,2009(10):163-165.

[4]邓雅琼.数据仓库和数据挖掘技术在高效统考课程成绩分析中的应用[D].广西师范大学,2011.

[5]孙剑.海洋环境数据仓库与数据挖掘应用研究[D].中国海洋大学,2011.

[6]王斌.一种面向医疗机构的数据仓库应用架构[J].价值工程,2012:160-161.

[7]朱传华.三峡库区地质灾害数据仓库与数据挖掘应用研究[D].中国地质大学,2010.

上一篇:深入解读俄罗斯“大欧亚伙伴关系” 下一篇:居派画风溯源