数据仓库技术在科服网统计监测系统中的应用

时间:2022-08-11 05:49:44

数据仓库技术在科服网统计监测系统中的应用

摘要:随着科技型中小企业的发展壮大,天津市科技型中小企业服务网(下称“科服网”)认定管理系统吸引了3万余家企业,积累了上亿条数据。数据资源的日益增加,难免造成系统响应时间过长、服务效率偏低的现象。如何安全有效地管理数据并快速地统计数据以供政府部门实时监测并作出合理决策,成为科服网统计监测系统面临的一个急待解决的问题。数据仓库技术的应用为此提供了有效的理论指导,通过对统计监测系统各项统计指标和各类统计需求的研究,建立了科技型中小企业认定数据仓库。通过实验数据的对比分析验证了数据仓库技术的优越性。

关键词:统计监测;数据仓库;概念模型;逻辑模型;物理模型

中图分类号:TP393 文献标识码:A 文章编号:16727800(2013)007014104

0 引言

科技型中小企业是引领和支撑高新技术产业发展的主体,加快科技型中小企业发展是我市发展工作的一项重大战略举措。科服网作为科技型中小企业的专业服务平台,可以为企业提供认定、文献、金融等服务。科服网统计监测系统是企业各项指标的直接展示平台,可以为政府部门提供数据实时监测和统计分析,有利于定量描述和准确预测,是政府进行科学决策的宝贵数据资源。然而,企业数量突飞猛涨,数据规模日趋庞大,基于业务数据库的统计监测系统对用户查询需求的响应时间过长,不能提供实时服务。为此,科服网统计监测系统引入了数据仓库技术,数据仓库的建立并不是要取代数据库,而是在一个较全面和完善的信息基础上更好地支持高层分析决策。数据仓库是将分析决策所需要的大量数据从传统的数据库中抽取出来,通过统一转换加载而成的、能够实现海量业务数据的存储、管理和多维分析。研究表明,利用它为统计监测系统开展分析与决策服务切实可行。

1 数据仓库技术概述

1.1 定义

数据仓库(Data Warehouse)最初定义为面向主题的、集成的、相对稳定的、反映历史变化的数据集合。数据仓库是决策支持系统和联机分析应用数据源的结构化数据环境,它主要研究和解决从其它数据库中获取数据信息的问题。

1.1.1 面向主题

业务数据库是面向事务处理的,而数据仓库中的数据一般是按照主题域划分。主题是对业务数据的一种抽象,是从较高层次上对信息系统中的数据进行的归纳和整理。

1.1.2 集成性

业务数据库是异构、相互独立的,无法反映信息的本质。而数据仓库中的数据是经过对数据源的抽取、清洗、转换、加载得到的,在消除冗余数据的同时对数据源进行统一的编码和必要的汇总。

1.1.3 稳定性

业务数据库存储某一时刻的数据,而数据仓库反映的是一段时期的数据内容。数据仓库中对数据的操作主要是查询,并不进行任何更新操作。一旦某个数据进入数据仓库,数据会被长期保留,当超过规定的期限才会被删除。

1.1.4 时变性

随着业务数据库的不断更新变化,数据仓库需要定期从数据源获得更新的数据,以形成分析和预测需要的历史信息。数据仓库的建设需要大量的业务数据作为积累,并将这些宝贵的历史信息经过加工、整理提供给决策分析人员。

1.2 数据获取

数据获取负责完成将数据从数据源向目标数据仓库的转化,是构建数据仓库的核心和灵魂。数据获取是对数据进行抽取、转换、装载处理,主要目标是去除冗余数据以提高数据仓库中数据的质量;将数据按主题组织以提高数据仓库的可用性;定期对业务数据库进行监视以保持仓库数据与业务数据的一致性。

1.2.1 数据抽取

数据抽取是指从数据源中抽取数据的过程。数据抽取技术分为全量抽取和增量抽取两种,全量抽取类似于数据迁移或数据复制,将数据源中的数据表全部从业务数据库中抽取出来。增量抽取是指在全量抽取完成后,抽取自源表中新增或被修改的数据。确定构建数据仓库的相关业务数据库和数据表并选择合适的抽取技术,以完成定期的数据抽取工作。

1.2.2 数据转换

数据转换是将抽取的数据转换成符合数据仓库要求的数据。从数据源中抽取的数据不一定满足数据仓库的要求,有必要对数据进行转换、清洗、拆分、汇总等处理。数据转换应最大化地参照元数据,通过自定义的转换脚本或其它计算方法解决数据格式不一致、数据输入错误、数据不完整等问题。

1.2.3 数据装载

数据装载是将数据从临时表或文件加载到数据仓库的过程。根据数据装载量的大小选择最佳的装载方式完成数据装载任务。

1.3 数据存储

1.3.1 事实表

事实表是数据仓库的中央表,描述业务内特定事件的数据。事实表存储主题的主干内容,由用户关心的度量值和相关维表的主键组成。事实表的设计以能够正确记录历史信息为准则。

1.3.2 维表

维表是用户分析数据的窗口,描述事实表中的数据。维表包含事实表中事实记录的特性,有些特性提供描述性信息,有些特性指定如何汇总事实表数据。维表中的属性提供了获取从高层次的汇总信息到低层次细节信息的能力。维表的设计以能够合理聚合主题内容为准则。

1.4 元数据

元数据是“关于数据的数据”或“关于数据的结构化数据”,即关于数据的内容、质量、状况和其它特性的信息,是数据仓库的灵魂。元数据不仅定义了数据仓库中数据的模式、来源、抽取、转换规则、数据映射和访问权限,而且是整个数据仓库系统运行的基础,元数据把数据仓库系统中各个松散的组件联系起来组成了一个有机的整体。

粒度是指数据仓库中数据单元保存数据的细节或综合程度的级别。粒度是数据仓库设计的重要问题,它直接影响数据仓库中数据量的大小以及数据仓库所能支持的查询类型。非常低的粒度会带来大量数据,系统会因巨大的数据量而导致处理效率低下,非常高的粒度虽然处理起来高效,但却不能进行细节数据的分析。因此,需要在数据量的大小与查询的详细程度之间做出权衡。

2 科服网科技型中小企业认定数据仓库的总体结构

科服网科技型中小企业认定数据仓库的管理用户分为市级用户和区县级用户两类,主要对不同层面的多个统计指标进行统计监测,掌握科技型中小企业的数据信息。

2.1 数据获取层

主要负责从科技型中小企业认定管理数据库获取构建数据仓库的源数据。

2.2 数据仓库层

主要依据各类用户的需求建立多个主题域,从而对数据获取层已获取的数据按照设计好的多维数据模型进行抽取、清理、转换等操作,形成符合系统要求的数据并装载到数据仓库中,以便为各类用户提供决策分析的数据环境。

2.3 决策分析层

系统用户在浏览器端进行查询访问, Web服务器及时响应处理各类用户的查询请求,将请求提交给联机分析处理( OnLine Analytical Processing,OLAP) 服务器,从而完成对数据仓库的查询分析,返回的查询结果以图表的方式展现给用户。

3 科服网科技型中小企业认定数据仓库的数据模型

3.1 概念模型

数据仓库的概念模型需要确定系统的范围和涉及对象,即建设内容和主题域。

3.1.1 系统边界

根据科服网统计监测系统用户的统计需要,确定市级和区县级两类用户。用户的具体功能如下:

市级用户:能够在全市、滨海新区、科技小巨人3个层面对多个主题域的多个统计指标进行数据的实时查询与分析,同时可以通过综合统计查询栏目选择关注指标进行信息的检索。

区县级用户:仅能够在全市范围对多个主题域的多个统计指标进行数据的实时查询与分析,同时可以通过综合统计查询栏目选择关注指标进行信息的检索。

3.1.2 主题域

根据科服网科技型中小企业认定管理数据库中数据的涉及范围和关系模式以及用户的统计关注度,确定了企业数量主题、企业财务主题、科技人员主题、研发经费主题、知识产权主题、帮扶情况主题等主题。

企业数量主题:展示科技型中小企业在时间、区县、领域、产业、阶段等维度的分布和增长情况。突出企业集中分布的区县、领域、产业等,为政府部门在宏观上进行调控与配置提供数据支持,例如预测下一个统计月份企业分布及增长情况、企业是否过于集中、对环境的影响如何等。

企业财务主题:展示企业在时间、区县、产业、阶段等维度工业总产值、净利润、总收入、主营业务收入、总资产的分布情况。预测企业的盈利状况并有针对性地进行指导和支持。

科技人员主题:展示科技人员在时间、区县、产业、阶段等维度从业人数、科技人员数和科技人员占比率的情况。预测科技人员占比状况,有利于企业加大对培训学习的力度,提高员工的整体素质。

研发经费主题:展示科技经费在时间、区县、产业、阶段等维度的分布情况,主要包括科技活动经费支出、科技项目数、科技项目经费、国家财政拨款、市政财政拨款、区县财政拨款、企业资金、金融机构贷款、国外资金、其它资金来源的使用情况。了解企业的研发能力以开展各项研究项目。

知识产权主题:展示知识产权在时间、区县、产业、阶段等维度申请专利数、授权专利数、拥有企业标准数、拥有有效专利数、注册商标数的分布情况。了解企业的创新能力以促进科技成果转化。

帮扶情况主题:展示企业在区县、阶段等维度干部总数、帮扶干部数、帮扶企业数、帮扶干部占比的分布情况。了解政府干部深入企业工作的成果状况,有利于开展帮扶工作。

3.2 逻辑模型

数据仓库的逻辑模型设计采用星型模型。维度是多维数据集的一种结构特性,是描述事实表中数据类别的有组织的层次结构,是创建多维数据集必需的条件。以全市统计监测中企业数量主题所关注的问题为例,需从以下维度进行考查分析:

时间维:是数据仓库中常用的维表,本系统对企业数据的分析与比较需要与时间关联起来,在多个时间级别上进行观察分析。时间维细化到日,存储年、月、日、季度等信息。时间维应用在多个主题域中,称为共享维。

区县维:主要统计天津市的各个区县,包括市内六区、四郊五县及滨海新区的企业数量信息,把握企业在各个区县的分布和增长情况。

产业维:主要统计各个产业的企业数量信息,把握企业在产业的分布和增长情况。产业维细化到一级分类,存储农业、工业、科技服务业等信息。

领域维:主要统计各个领域的企业数量信息,把握企业在领域上的分布和增长情况。领域维细化到一级分类,包括电子信息、生物与医药、新材料、光机一体化等。

阶段维:主要统计各个阶段的企业数量信息,把握企业在企业成长的不同阶段的分布和增长情况。阶段维存储初创期、成长期、壮大期3个阶段的信息。

企业数量事实表:包含用外键进行关联的维度信息和相关统计指标的度量值。时间维、区县维、产业维、领域维、阶段维为共享维,可以在多个主题的数据集中使用以节省空间。数据仓库的逻辑模型如图1所示。

3.3 物理模型

数据仓库的物理模型就是数据仓库逻辑模型在物理系统中的具体实现模式,包括各种事实表的具体化,如表的数据结构类型、索引策略、数据存放位置和数据存储分配等。

根据科技型中小企业认定数据仓库的实际应用情况,为满足管理用户对数据的多维查询和统计监测,需要存储每日全市、滨海新区、科技小巨人三类企业的多个统计指标的累计数据。同时需要存储各个维度相关的维表数据。由于事实表包含的数据量巨大,会影响查询和统计的速度,这时需要通过建立连接索引或物化视图等方式来提高查询的效率。

物化视图将查询视图预先计算并以表的形式存储在数据仓库中,当执行OLAP查询时,可以直接从物化视图中获取查询结果,避免了对底层数据的复杂操作,从而提高查询效率。但是当基表发生变化时,视图可能需要进行刷新,存储空间和维护开销加大。物化视图是一类特殊的视图,在数据仓库中不仅存储了物化视图的定义,还存储了物化视图所对应的实际数据。物化视图选择的目标就是在空间限制下,选出一组恰当的视图物化,使得其对一组查询的总查询代价和其自身的维护代价之和最小。物化视图技术是数据仓库系统中提高性能的关键技术之一,是将视图所对应数据加以实际物理存储的技术,其目的是通过预计算来加快数据仓库对用户查询的响应速度。

聚集表是为提高查询速度,对常用的需求进行求和运算的查询,预先对事实表中相应的某些维在最小级别上进行向上的分组求和运算,形成新的具有更高粒度级别的事实数据表。在进行查询操作时,系统首先查询相应聚集表,若有满足条件的聚集表则可直接返回查询结果;否则,继续查询对应事实表,并作相应运算。

数据仓库采用物化视图和聚集表相结合的方式存储事实表。

4 数据仓库技术在科服网统计监测系统中的应用

4.1 具体应用

天津市科技型中小企业服务网的统计监测系统包括全市统计监测、滨海新区统计监测、科技小巨人统计监测和综合统计查询4个主题,每个主题又包含多个统计指标。以全市统计监测中的企业数量为例,详细讲述数据仓库的应用。

在充分了解科技型中小企业认定数据仓库的内部特征、存储结构、存取方法及逻辑结构的基础上,制订了数据仓库的物理结构,即数据抽取时间,维表为每天的零点,事实表为每天的1点,并建立了自动执行任务。物理结构设计如图2、图3所示。

企业数量按时间、区县、领域、阶段和行业5个维度进行分布,以企业数量、月增长趋势、年增长趋势作为统计指标,并对全市、滨海新区、科技小巨人企业3个层面进行汇总,生成相应的柱形图和统计报表,从宏观上把握企业数量分布。如图4所示。

参考文献:

[1] 于红蕾,华庆一,刘燕玲,等.数据仓库在电信统计分析中的应用[J].计算机技术与发展,2007(8).

[2] 陈学萍,程景云,徐安宁.基于数据仓库的企业财务决策支持系统分析与设计[J].计算机辅助工程,2004(1).

[3] 刘荣生.数据仓库技术在统计信息系统中的应用[J].科技情报开发与经济,2005(8).

[4] 张瑞.ETL数据抽取研究综述[J].软件导刊,2010(10).

[5] 罗先贤.数据仓库在城市公共建筑能耗管理中的应用[J].计算机应用,2011(10).

[6] 翟玉梅,曹亚君.基于数据仓库的电子订货系统设计及仿真[J].计算机仿真,2012(5).

[7] 刘权,肖智博,鲁明羽.面向科学基金管理数据数据仓库概念模型设计[J].计算机工程与应用,2009(36).

上一篇:基于VB.NET与Access的题库管理系统设计与实现 下一篇:播客教学应用的国内研究文献计量分析