基于数据仓库技术设计与实现的科技数据管理系统

时间:2022-09-18 12:14:33

基于数据仓库技术设计与实现的科技数据管理系统

摘要:数据仓库技术的发展为增强科技数据的管理和共享共用能力提供了新思路,该文提出了一个基于数据仓库型中央数据库体系结构的科技数据管理系统方案,并探讨了各模块的实现以及系统的主要功能。

关键词:数据仓库 ; 科技数据 ; 中央数据库 ; 数据集成

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)10-2192-03

Abstract:The development of data warehouse technology supplied a new idea to enhancing the ability to manage and share the science&technology data. This paper proposed a scheme of science&technology data management system based on center database architecture of data warehouse, and discussed the module implementation and main features of the system.

Key words:data warehouse; science & technology data; central database; data integration

1 概述

科技数据近年来呈现出数据量迅速增长、作用日趋重要的特点,科技数据信息的共享为科技创新和科技成果产业化作出重要贡献。科技基础条件平台建设能够有效的改变分散在各行业、各高校及科研院所的科技资源独占模式,加速最新科技成果的产业扩散和应用。科技数据管理系统作为科技基础条件建设的重要组成部分,通过运用先进的网络技术和数据库技术,加快科技基础数据的数字化进程,实现数据采集、加工、保存的标准化、规范化,增强科技数据的管理和共享共用能力。

2 数据仓库简介

数据仓库是决策支持系统机制和联机分析应用数据源的结构化数据环境,是一个面向主题的、集成的、非易失的且随时间变化的数据集合得到,用来支持管理人员的决策[1]。它包含一系列分析所需数据,并且应该包含处理数据所需的程序[2]。

数据仓库的体系结构[3]由三部分组成:综合信息集成服务平台,集成后的数据仓库,数据集成机制。

3 数据仓库型中央数据库

中央数据库所采用的数据仓库技术要点如下:

1) 性能上更偏重数据的联机分析。联机分析和事务处理对系统的要求不同,即使是同一个数据库,它们在理论上都难以做到两全。一般业务型数据库中,密集的数据更新处理性能和系统的可靠性是所有联机事务处理必须强调的,却并不强调数据查询的方便与快捷[4]。科技数据管理系统强调数据的分析利用,因此采用数据仓库型中央数据库。

2) 数据仓库技术及动态数据接口解决从数据库中获取信息的问题。数据仓库异构数据源的谋略是由几个异构数据源的数据副本构成。按照一定的要求,进行预处理、转换,以符合数据仓库的模式,并存储到数据仓库中,让用户感觉像在使用普通的数据库一般。

3) 多种数据资源的集成:数据库、Excel数据、文本文件等。除了访问传统的RDBMS(关系型数据库)外,还可以从其他地方获取数据,比如从用户所持有的Excel 数据和文本文件中。可以在同一个报表上,制成从数据库得到的实时数据和Excel的人工数据等,从而提高数据的利用率。

4) 支持从数据仓库中提取数据,构筑成云平台上的数据中心,进行多维度的数据加工利用。数据仓库是面对整个机构的数据应用,而构筑数据中心是针对各个部门的信息应用。数据中心的数据是按部门的不同需要从数据仓库中抽取,并进行加工处理而成。数据中心构筑工具软件能够提供从数据仓库自动进行数据抽出、变换、加载(ETL,Extract/Transform/Load)功能,可大幅提高数据分析和利用的效率[5]。

数据仓库型中央数据库的设计如图1所示。

4 科技数据管理系统的实现

4.1 中央数据库外部接口的实现

中央数据库是本平台真正用来运作的数据库,用途包括数学模型分析计算、业务运行、统计报表等。各接口数据库的交换数据经过动态数据接口软件的加工整理,以统一的格式进入中央数据库。平台运行过程中得到的数据,又会有选择性地从中央数据库输出到接口数据库中,供外部系统使用。如图2。

为了最大限度地兼容各地区的外部系统,减少接口开发、部署的难度,本方案采用简单、通用的数据库接口,包括3种:MySQL数据库接口、ODBC通用接口、JDBC通用接口。只要定义好接口数据库的表格式,外部系统就可直接访问接口数据库,实现数据交换。

为适应业务数据的多样性,接口数据库提供的数据接口可以根据业务需要进行二次开发,从而使数据接口能够同时支持自动数据导入导出、人工数据导入导出和手工录入。为保障中央数据库的业务数据统一性和安全性,中央数据库不直接对外部开放,所有数据转换问题都统一在数据接口处解决,不带入中央数据库。

4.2 中央数据库内部数据表的实现

中央数据库的内部数据表分层级实现,分为3个层次:初级数据表、次级数据表以及高级数据表,3层不同类型的数据均可用于信息系统的查询、下载、图表展示。其基本体系结构如图3所示。

1) 初级数据表:保存基础数据,主要由数据接口收集各种原始数据而形成。

2) 次级数据表:保存集成数据,是对原始数据进行融合加工而形成。

3) 高级数据表:保存解析数据,是对所有数据作统计分析得到的计算结果。

4.3 业务应用层的实现

在建立云计算平台和中央数据库的基础上,科技数据管理系统的功能主要由业务层的虚拟机信息管理系统来完成。该信息系统既要能够灵活地快速适应日后的各种科技数据格式、形态发展变化,不必重新开发系统,又要保持简单易用,不会因为设计过于复杂繁琐而被淘汰。

根据软件工业化的发展思路,采用一种生产流水线方式的软件自动生成方法,最大限度地由流水线自动生成软件程序编码,无须程序员的人工编程,从而提高开发效率和质量,并且降低对软件开发者的要求。软件自动生成系统包括:

1) 一个通用信息系统安全基础模块。包含信息安全防护、帐号权限管理、信息管理系统框架、数据查删改操作等基本功能。

2) 一个元数据库设计模块。支持用户需求分析、系统设计方面的功能,可以把各种设计信息(例如数据字典等)保存在元数据库中。只要有元数据库的内容,软件自动生成工具就能产生相应的程序代码。

3) 一个软件自动程序生成工具。能够根据开发者的软件设计,直接生成程序代码,省去软件编码这一步。同时也允许程序员对生产线出来的代码进行个性化修改,减少从头开始人工编程的工作量。

5 系统实现的功能

本系统具有数据导入和导出、数据分析、数据分类、关联分析、统计图表动态生成、支持自组织开发等功能,重要功能如下:

1) 即时动态的数据访问。实现跨网络、跨系统、跨数据库、跨应用的科技数据的组织、管理、发现和透明访问。

2) 高效的数据统计分析和图表显示功能。能够支持不同的数据来源、表单结构、文档格式,自动进行数据汇总、统计分析,动态生成图表显示。

3) 支持自组织开发[6]。在业务层的虚拟机信息管理系统中采用自动软件生成技术,支持灵活的数据自定义功能,把信息系统的数据设计权力交给熟悉具体业务的用户自己,为用户提供一种通用的、可以自己定制的信息系统。

参考文献:

[1] 周庆.数据集市设计方法及其在高校办公自动化系统中的应用研究[D].东北大学,2006.

[2] 沈轶.基于数据仓库技术设计与实现的企业设备管理系统[J].华中科技大学学报,2005,12.

[3] 赵景林.数据仓库的体系结构与设计策略[J].计算机工程与设计,2001,22(12).

[4] 王梅,周娇玲.一种列存储数据仓库中的数据复用策略[J].计算机学报,2013,38(8).

[5] 张琦,王梅.列存储数据仓库查询执行中重用缓冲区调度算法[J].计算机研究与发展,2011,48(10).

[6] 赵春泽,高小强.自组织经验进化预测软件的设计与开发[J].计算机工程,2003,18(3).

上一篇:现代文表达技巧类鉴赏题解题意识 下一篇:计算机网络中基于服务质量QoS 的路由算法分析