数据仓库技术在科技型中小企业信息统计与分析系统中的应用

时间:2022-09-13 11:00:57

数据仓库技术在科技型中小企业信息统计与分析系统中的应用

【摘要】本文阐述了数据仓库技术的特点,并结合天津市科技型中小企业服务网信息统计与分析系统,分别从数据仓库建设的整体流程、逻辑结构设计、物理结构设计等方面详细分析了数据仓库技术在本系统当中的应用,为辅助决策提供了更加深入的多角度的数据展现,提供了更为便捷、灵活的汇总分析图表。

【关键词】数据仓库;数据抽取;科技型中小企业;统计监测;维度表;事实表

一、数据仓库

(一)数据仓库的概念及特点

数据仓库概念创始人W.H.Inmon在《建立数据仓库》一书中对数据仓库的定义是:数据仓库就是面向主题的、集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统数据库面向应用相对应。

数据仓库的主要特点有:

1、面向主题

主题是在较高层次上将信息系统中的数据综合、归类并进行分析和抽象,是针对某一决策问题而设置的。面向主题的数据组织方式就是统一、完整地描述各个分析对象所涉及的各项数据以及数据之间的联系。

2、数据的集成性

数据仓库中存储的数据并不是将数据从各个子系统中简单地复制过来,而是将数据从各个分散的数据库系统中提取出来,并经过一系列处理而整合的。数据被载入数据仓库,就要进行转换,重新格式化,重新排列以及汇总等操作。为了更好的支持对数据的分析,一般还需要对数据结构进行重组以及适当地增加一些数据冗余。

3、数据的非易失性

一般情况下,数据仓库中存储的数据是以批量的方式载入与访问的,但并不在该环境中进行数据更新。数据仓库中的数据在进行装载时是以静态快照的格式进行的。在产生后继变化时,一个新的快照记录就会写入数据仓库。这样,在数据仓库中就保存了数据的历史状况。

4、随时间变化

数据仓库的数据不可更新,但这并不是说数据从进入数据仓库以后就永远不变。因为数据仓库中存储的数据是企业历史的数据,但同时也是企业当前的数据,因而每隔一段固定的时间,需要再将数据源中的新的数据加载到数据仓库中去。这就是说数据仓库中的数据随时间变化而定期地被更新,从而保证前端分析结论的时间有效性。

二、科技型中小企业信息统计与分析系统

(一)概述

科技型中小企业信息统计与分析系统通过“一键式”统计功能,实现了市级、滨海级、科技小巨人级三个层面,年度、区县、产业、技术领域、成长阶段5个维度、11类企业指标的统计分析,并以统计图形、分布列表、增长折线等方式进行展现。此外,还可通过14项查询条件、8类统计范围、17个统计指标进行自定义组合,产生定制的统计图表,为政府部门提供决策依据。

(二)基于系统建立数据仓库的必要性

前期科技型中小企业认定系统的成功运行,产生了大量的不同年份的企业信息数据,对系统在统计监测上的汇总分析和多维展现提出了更高效,更复杂的要求。

为了进一步规范和挖掘数据资源,提高运行效率,为辅助决策提供更加深入的多角度的数据展现,也为下一步的多资源整合提供基础支撑,科技型中小企业认定系统将采用商业智能技术,建立数据仓库,为统计监测提供数据基础。

同时,引入前端报表展现工具,为领导提供更为便捷、灵活的汇总分析图表。

三、数据仓库技术在科技型中小企业信息

统计与分析系统中的应用

(一)总体流程

1、建立数据仓库

以现有中小企业认定系统数据为数据源,按照全市统计监测、滨海新区统计监测和小巨人企业统计监测的功能需求,分析并建立中小企业多维数据模型和数据仓库。

2、ETL数据抽取

完成所需数据从科技型中小企业认定数据库中的定时抽取,经过数据转换、清洗以及冗余和歧义处理,最终按照预先定义好的中小企业数据仓库模型,将转换后的数据加载到数据仓库中去。

3、报表展现

(1)工作进展情况

实现网上实时监测全市各个区县的科技型中小企业认定工作进展情况,通过工作提醒,全市各个阶段的企业认定情况,区县各个阶段的企业认定情况,认定企业各成长阶段情况,各区县认定情况汇总报表等几方面的统计数据来体现当前科技型中小企业认定工作完成的效果和进展。

(2)全市统计监测

开发全市层面的快速指标监测功能,实现对企业认定数量、企业财务、科技人员、科研经费、知识产权、政策优惠六类上报信息的汇总,并按年度、按区县、按行业、按成长阶段以图、表形式体现。

(3)滨海新区统计监测

开发滨海新区及其下属各区(功能区)企业信息的快速指标监测功能,实现对企业认定数量、企业财务、科技人员、科研经费、知识产权、政策优惠六类上报信息的汇总,并按年度、按区县、按行业、按成长阶段以图、表形式体现。

(4)科技小巨人(符合条件)统计监测

开发符合科技小巨人条件的企业信息的快速指标监测功能,实现对企业认定数量、企业财务、科技人员、科研经费、知识产权、政策优惠六类上报信息的汇总,并按年度、按区县、按行业、按成长阶段以图、表形式体现。

(5)综合统计查询

开发综合统计查询功能,实现对企业认定各个状态、财务、人员、研发经费、知识产权、享受优惠等指标的组合查询,并考虑到查询功能的易用性。

(二)结构设计

1、概念结构设计

数据仓库的一个目的就是把企业的信息访问基础,从一种非结构化的或发展中的环境改变成一种结构化或规划良好的环境,是一个面向主题的、集成的、时变的、非易失的数据集合。数据仓库体系结构如下图所示:

在构建数据建模是以直观的方式组织数据,并支持高性能的数据访问。每一个数据模型由多个多维数据关系表示,每一个多维数据关系都是由一个事实表和一组维表组成的。在多维模型的选择中我们选定的是星形模式。

使用星形模式主要有两方面的原因:

一是提高查询的效率。采用星形模式设计的数据仓库的优点是由于数据的组织已经过预处理,主要数据都在庞大的事实表中,所以只要扫描事实表就可以进行查询,而不必把多个庞大的表联接起来,查询访问效率较高。同时由于维表一般都很小,甚至可以放在高速缓存中,与事实表作连接时其速度较快;

二是便于用户理解。对于非计算机专业的用户而言,星形模式比较直观,通过分析星形模式,很容易组合出各种查询。

2、逻辑结构设计

数据仓库是按照天津市中小企业信息管理系统的主题设计的,分为企业数量、财政资助、企业财务、科技人员、研发经费、完成情况、工作质量等。

(1)企业数量

企业数量分别按时间、区县、领域、阶段和行业分布五个维度,以企业数量、月增长趋势、年增长趋势作为指标,并对全市、滨海新区、科技小巨人企业三个层面进行汇总,生成相应的图表,从宏观上把握企业数量分布。

(2)财政资助

企业数量分别按时间、区县、技术领域三个维度,分别从总体财政资助、国家财政资助、市级财政资助、区县财政资助和企业获得财政资助五个层次出发,以财政金额作为指标,并对财政金额资助单位、分布情况作为分类进行汇总,生成相应的图表,以供监测,并提供针对企业的财政资助查询功能。

(3)企业财务

企业财务按时间、区县、行业类别和发展阶段四个维度,以企业的工业总产值、净利润、总收入、上缴税费总额、主营业务收入、总资产、高新技术产品销售收入、总负债作为指标,对全市、滨海新区、科技小巨人企业三个层面进行汇总统计,生成相应的图表,以供监测企业财务分布。

(4)科技人员

科技人员按时间、区县、行业和发展阶段四个维度,以企业从业人数、科技人员数和科技人员占比作为指标,对全市、滨海新区、科技小巨人企业三个层面进行汇总统计,生成相应的图表,以供监测科技人员分布情况。

(5)研发经费

研发经费按时间、区县、行业和发展阶段四个维度,以科技经费筹集额、科技活动经费支出、科技项目数、科技项目经费、科技项目经费、国家财政拨款、市政财政拨款、区县财政拨款、企业资金、金融机构贷款、国外资金、其他资金来源作为指标,对全市、滨海新区、科技小巨人企业三个层面进行汇总统计,生成相应的图表,以供监测研发经费的流向。

(6)完成情况

认定企业完成情况按区县的维度,以认定企业统计数、当前认定企业数、认定企业比率作为指标,对全市、滨海新区层面进行汇总统计,生成相应的图表,以供监测认定企业完成情况。

3、物理结构设计

数据库的数据抽取时间:

维表每天的零点;

事实表为每天的1点。

物理结构设计图如下所示:

参考文献

[1]Tjoa A M, Rauber A, Tomsich P,OLAP of the Future,2007,17-23

[2]Pendse N, Creeth R. The OLAP report[M].Optima Publ.Ltd.,2005,9-13

上一篇:基于PLC的自动喷砂机伺服控制系统研究 下一篇:试析煤矿地质构造与瓦斯防突策略