高校数据平台集成方案的分析研究

时间:2022-09-04 07:09:48

高校数据平台集成方案的分析研究

【摘 要】20世纪初,高校普遍兴起信息化建设的风潮,不同时期、不同部门建立了多个封闭的应用软件系统。这些应用软件分别有各自的数据存储和访问方式,各自独立,无法进行数据流通和共享,致使信息存在大量冗余、不一致,甚至变成了“信息孤岛”,严重制约了信息化发展。现阶段,高校信息化建设进入高速发展时期,越来越多的高校认识到信息整合的重要性。本文以我校的信息化建设现状为例,对数据集成进行研究分析,提出了基于ETL技术的高校数据平台集成设计方案。

【关键词】数据平台;集成;ETL技术

我校从2000年开始信息化建设,早期缺乏统一的规划和信息标准,各部门根据自己的业务需要,建立了各自的管理信息系统和数据库系统。各应用系统建设时期不同,采用的技术架构不同,运行管理维护各自独立,当对信息的处理涉及多个系统之间的协调时,处理诸如跨操作系统平台、跨数据库、跨开发平台等多方面的工作,容易形成混乱,给开发、管理、维护工作带来大量的工作量和难度。为解决这些问题,需要建立一个统一的数据平台,对各类应用和数据进行整合,消除“信息孤岛”,形成统一的数据服务,提高管理效率,降低管理成本。

1.总体设计

数据平台的建设并不是一件简单的事情,有一些集成需求是面向数据的,还有一些集成项目是基于事件驱动的体系架构或者面向服务的体系架构,把整个高校基于各种不同平台、用不同方案建立的异构应用和数据整合是一个复杂的任务,甚至是涉及到学校的体制、各部门责任和利益的复杂的系统工程。数据平台的总体设计采用三层数据模式,分别为表示层、应用服务层和数据层。表示层对全校学生和教职工提供应用平台的访问服务,以B/S方式体现;应用服务层涵盖学校所有现有的应用软件系统,包括综合信息系统、办公自动化系统、校园一卡通、教务管理系统、科研管理系统、人事管理系统、财务管理系统、学工管理系统、网络教学系统、图书管理系统、档案管理系统等,这些子系统有机的组成一个整体,提供基于统一身份认证的信息集成,提供信息化系统服务,并且提供应用软件与数据库接口,有效地对学校进行全方位的管理;数据层是共享数据平台,提供数据交换和共享功能,数据要高度集中,并且安全可靠,为数字化校园的建设提供可共享的数据支持。

2.技术实现

选择技术体系结构时要考虑整个系统的跨平台性、安全性、可靠性、稳定性及可管理性,并且应该有好的可扩展能力。我们的原始数据来自多个不同的数据源,有数据库中的模式固定化数据,也有来自异构源的异构数据,将这些分散异构的数据集成到一个统一标准的数据库中并且统一所有的应用很难实现,所以我们采用数据交换技术,将现有数据资源以原有格式存储于分布式数据服务器上,实现分散异构的数据资源共享管理和流通,在共享数据平台上搭载现有业务应用和开发新的业务应用系统。

3.数据集成

数据集成技术涉及元数据模型管理、数据抽取转换加载技术和数据联邦技术等。对于异构数据的集成,常见的有集成模式和复制模式。集成模式对应的是联邦数据库模式,提供统一的访问视图,实现逻辑上的数据集成来满足应用数据的集成需求;复制模式对应的是数据仓库建设,由ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)完成数据从数据源向目标数据仓库转化的过程,目前大多采用这种模式,把数据从物理上不同的数据源中抽取,进行数据转换和加载,得到统一完备的数据仓库,原来分散的应用仍可以独立运作。ETL规则设计和实施在整个数据集成项目中占有60%-80%的工作量,在数据处理上几个重要流程:

3.1元数据管理

元数据就是描述数据的数据,即对数据库、表、列、列属性(类型、格式、约束等)以及主键/外部键关联等等的描述,在地理空间信息资源共享过程中起着关键作用。在数据仓库系统中,元数据机制定义了数据源的位置及数据源的属性,确定源数据到目标数据的对应规则,确定相关的业务逻辑、记录根据业务事件发生而随之进行的数据抽取工作时间安排,记录检测系统数据一致性的要求和执行情况,衡量数据质量,合理的元数据会有效的描述信息的关联性。所有的ETL过程必须参照元数据,才能快速实现。

3.2数据抽取

数据抽取是从数据源中抽取数据的过程,包括模式数据和实例数据抽取。在实施整个ETL过程的时候,首先要对抽取进行分析,确定什么数据需要被抽取,确定数据源信息、有效性、数据格式等,用相关算法得到实例数据的抽取策略,进行数据抽取。

3.3数据转换和加工

定义数据源和目标库的映射关系,根据定义好的转换模型,对抽取出的数据进行转换和加工。数据的转换和加工可以在ETL引擎中进行,也可以在数据抽取过程中利用关系数据库的特性同时进行。相比在ETL引擎中,直接在SQL语句中进行转换加工更加简单清晰,性能更高。

3.4数据加载

将转换和加工后的数据装载到目标数据库中,这是ETL过程的最后步骤。数据加载的方法有多种,对于数据量较小的数据可以通过SQL插入、更新等基本语句完成,对于海量数据可以采用批量装载的方式。

3.5目的数据存储

提供数据与原数据的存储场所,一般为数据仓库。为了考虑整个系统的功能实现,须配备强大的辅助管理工具,以进行作业调度、日志管理、系统监控、数据维护等辅助系统的操作,同时要为应用软件提供接口,实现更好的交互性和可扩展性。

4.结束语

在现阶段高校数据平台的建设中,对于具体数据标准的确立及数据中心的建立已经有一些成功案例,以此为基础,逐步实现由数据中心向数据仓库的过渡,并在数据量进一步增大后开展数据挖掘。本文阐述的数据平台建设,主要是解决异构平台和异构数据库中进行数据共享和交换的问题,通过对数据集成ETL过程进行了简单探讨,研究提出了一个数据集成的可行性解决方案,在数据集成与整合的技术方法和设计思路上进行了初步的探索。

上一篇:机械设计概论 下一篇:关于防止外力破坏电力设施工作的探讨