分布式环境下OLAP处理技术研究

时间:2022-08-08 09:13:23

分布式环境下OLAP处理技术研究

摘 要: 为了让经营范围分布较广的商家能更好地了解自己的经营状况,通过电子商务系统中的OLAP系统进行分析和设计并加以展示,同时使用OLAP多维数据分析技术对销售数据进行分析从而获得相关的信息。结果表明,利用OLAP技术能帮助商家深入全面地分析业务数据,提高经营管理水平。

关键词: 联机分析处理; 数据仓库; 电子商务系统; 分布式

中图分类号:TP319 文献标志码:A 文章编号:1006-8228(2013)11-12-03

0 引言

在电子商务系统中,企业或许并不只关注每一笔的销售情况,还需要知道这样的一些分析结果,如:

企业销售分析:提供各企业的销售情况,实现按销售额、销售数量等的查询分析并展示结果,使企业能基于展示的结果能进行分析和控制决策。

企业客户分析:提供一段时间之内每个客户购买的金额、数量、以及客户的基本信息,基于这些数据企业可以挖掘出优质客户、有潜质的客户、大众客户、喜欢退换货的客户等,对他们提供不同的服务来满足不同类型客户的需求。

销售时间及地区分布分析:对系统中的各类商品以及各个商品在不同时间不同地区的销售情况进行统计分析,并对各个企业在不同时间不同地区的销售情况进行分析,使企业能够了解各类商品的销售旺季、淡季的情况,有利于对各项商业活动进行合理的安排。

行业销售分析:提供整个行业的销售情况,对整个系统中的所有企业的销售情况进行监控并统计分析,实现按省份、服装种类、企业规模、注册资本、企业销售额等查询并展示结果。

本文探讨在多数据仓库环境下利用OLAP系统进行多维分析来获得以上数据。

1 数据仓库

数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制[1-3]。

数据仓库环境有单一中央集成和分布式两种类型。大部分企业建立和支持单一的中央集成数据仓库环境,但是在某些特定场合,建立分布式数据仓库环境可能更能满足需要,能取得更高的经济效益。

分布式数据仓库技术的特点:

⑴ 整体代价低。对于一个数据仓库,当采用分布式技术时,软、硬件代价要比采用大的、中央集成的技术代价低。

⑵ 存放在数据仓库中的数据量理论上无限制。如果数据仓库中的数据量将要超过分布式处理器的限制时,只要在网中加入另一个处理器即可,这也符合企业的发展趋势。

⑶ 研制、见效周期短。在短期内局部数据仓库就能建好、运行并使用局部组织受益。

⑷ 具有实时性。每个局部群体具有独立的控制权,为数据仓库具有实时性提供了保障。

2 OLAP的定义

OLAP(联机分析处理)概念最早是由关系数据库之父E.F.Codd于1993年提出的,是根据用户的特殊需求而进行的联机数据分析,帮助决策者进行及时有效的分析、判断和预测,获得更高的效率[4]。

联机分析处理(OLAP)技术与数据仓库有着非常紧密的联系,它是数据仓库的检验型分析工具。

全局与局部的OLAP系统基于各自的数据仓库,相互独立,基本不发生数据交互。

如图1所示,OLAP系统一般采用三层C/S(客户/服务器)结构。三层C/S结构包括:数据仓库服务器、OLAP服务器和客户端。最上层是客户端,负责用户查询要求的输入和OLAP分析结果的图形化输出。客户端只与中间的应用层发生联系,使客户端与服务器无直接关系,这样简化了用户的操作,也使得维护和迁移比较容易。中间层是OLAP服务器,它是整个系统的核心。这一层集成了数据采集汇总处理、系统业务逻辑处理等功能,完成数据仓库中数据的综合,并对其进行分析,最终将分析结果以多维视图的形式表达出来。系统的底层是数据仓库服务器,完成各种数据的收集、组织和存储。

3 OLAP分析

3.1分布式数据仓库

OLAP应用是目前数据仓库上的重要应用之一,是决策分析的关键。要对电子商务系统中的企业、行业进行OLAP分析,它们的特点如下。

企业特点:①企业本身规模较小,多以直营店、以及联盟的方式参与商业活动;②企业的组织结构复杂,级别划分明确,一般拥有多家门店,客户也以企业为主,关系比较固定;③企业业务模式涉及了采购、仓储、销售、配送、财务以及其他支撑业务。

行业特点:①企业作为一个独立的组织机构,以商品的进销存为业务链条,参与行业商务活动;②行业中的每一个企业具有相同的业务模式,均涉及商品的进、销、存等业务;③企业在整个行业中具有多重身份,企业之间的业务关联构成了整个行业商务网络。

由于电子商务中各企业分布较为广泛,故建立分布式数据仓库更合适。图2为系统设计图。

3.2 概念模型

界定系统边界 经过对系统的分析,明确了多维分析展现系统的边界是企业和行业的数据仓库和多维分析展现系统。

确定主题域 对于服装销售行业来说,系统的主题主要包括销售主题、顾客主题、商品主题。系统核心是对服装销售进行管理,因此多维数据模型设计主要针对销售这一主题建立事实表。经过与决策人员的交流和查阅相关资料,最后确定了顾客来源、商品大类、商品中类、商品小类、时间、地区等相关维度。

3.3 逻辑模型

常见的逻辑模型有星型模型(Star schema)和雪花模型(Snowflake schema)两种。星型模型是多维数据模型的一种典型结构。它把事实表放在中心,维度表分布在事实表的周围,维度表通过主关键字与事实表连接。星型模型通过预连接和适当的数据冗余,为用户访问和分析过程简化了数据。雪花模型进一步层次化星形模型的维度表,使得原来的维度表又被扩展成更小的事实表,形成局部层次化区域,它是星型模型的扩展。根据对上述两种逻辑模型的对比分析,以及结合多维分析展现系统的结构特点,最后将逻辑模型确定为星型模型。顾客主题、销售主题星型模型分别为图3、图4所示。

3.4 物理模型

完成了逻辑模型设计后,便可以开始设计多维数据仓库物理模型。多维数据仓库物理模型设计同关系数据库物理模型设计类似。定义数据标准,在定义物理实体、关系和字段之前需明确命名规则。

3.5 多维数据集设计

系统设计的维表及相应的层次如下。

时间维 时间维可以说是各个数据仓库中必须具备的一个维。在服装销售中,分析不同时间的销售情况的最基础维度就是时间维度。本系统中时间维的层次关系主要包含年、季度、月、星期和日等层次。

地理维 地理维也是多维数据集中常见维,本系统在设计时主要考虑行政区域地理层次,包括全国、省(直辖市、自治区等)、市(地区)这些层次。

顾客维 根据业务分析的需要和原数据库中顾客事实表的存储,本系统设计顾客维包括顾客年龄、顾客来源、顾客级别、消费级别。

商品维 本系统中,商品的分类是决策人员关注的另一个重点。商品分类主要将商品按照业务要求划分为不同类别,本系统共划分了大类、中类、小类三个层次。大类包括男装、女装、配饰、图书、鞋、包等;中类是大类下的细分,比如女装又分为上装、裤子、裙子、套装等;小类是商品的具体明细,如女装裤子又可以分为九分裤、七分裤、五分裤、靴裤等。

根据所选的主题,设计的模型,进行OLAP分析。实现钻取、切片、切块、旋转多维分析操作。

3.6 OLAP展示结果

3.6.1 利润—销售额分析

图5为企业000001的利润—销售额分析图。

3.6.2 客户价值分析

图6为客户价值分析图。

根据客户价值不同,将客户分为钻石客户、黄金客户、白银客户、铜钣客户、铁皮客户。

3.6.3 行业商品分析

如图7所示为行业商品分析图。

4 结束语

现在企业有越来越多的历史数据难以管理和利用,于是基于数据仓库技术的OLAP技术得以广泛应用。多维数据分析(OLAP分析)作为决策支持系统提供的主要分析手段之一,通过对多维形式组织起来的数据采取钻取、切片、切块、旋转等操作来剖析,使决策者能从多个角度、多个侧面观察数据仓库的数据,从而深入地了解包含在数据中的信息内涵。本文阐述了多数据仓库环境下OLAP处理技术的思想,有利于对分布广泛的连锁式企业进行经营分析。

参考文献:

[1] 张懿.数据仓库在电子商城系统中的应用研究[D].苏州大学,2005.

[2] 任力伟,丁伟杰,孙大鹏等.数据仓库技术在服装销售领域的应用研究[J].数字技术与应用,2012.11:64-65

[3] 叶政.面向大型服饰企业销售决策的分布式数据仓库设计[D].浙江大学硕士学位论文,2006.

[4] 陈娟.数据仓库在服装销售系统中的应用[D].湖南硕士学位论文,2010.

上一篇:专题策划提升科技期刊的品牌影响力 下一篇:优化数据库应用课程综合性实验的实践与探索