基于Teradata数据仓库的零售业商务智能模型

时间:2022-08-31 08:34:57

基于Teradata数据仓库的零售业商务智能模型

摘要: 随着信息技术的飞速发展以及在商业领域的广泛应用,处理海量数据的商务智能技术在零售行业得到了广泛的应用。本文介绍了Teradata的数据仓库的体系结构和主要技术模块,论述了基于Teradata数据仓库基础之上的商务智能系统在零售企业的构建和主题分析。为零售行业更好地应用商务智能系统,提高销售利润和增强企业的核心竞争力,做一些有益的分析和建议。

Abstract: With the rapid development of information technology and wide application in business, dealing with massive data of business intelligence technology in the retail industry has been widely used. This paper introduces the Teradata data warehouse architecture and main technical module, discusses the Teradata data warehouse-based business intelligence system based on retail businesses in the construction and thematic analysis. It does some useful analysis and recommendations for retail industry better applies business intelligence system to improve sale margins and enhance their core competitiveness.

关键词: Teradata;数据仓库;零售业;商务智能

Key words: teradata;data warehouse;retail trade;business intelligence

中图分类号:TP392文献标识码:A文章编号:1006-4311(2010)16-0150-03

0引言

自从上世纪90年代伴随着众多外资零售业进驻内地以来,我国超市零售业有了整体提高。特别是随着信息技术的飞速发展以及在商业领域的广泛应用,零售企业在经营管理过程中积累了大量的业务数据(POS数据),如订单、库存、交易账目、销售量统计、服务通话记录、竞争对手及客户资料等,在这些与企业息息相关的数据中蕴藏了丰富的对企业决策者极具价值的信息和潜在的商机,如何从中提取有用的信息,以挖掘潜在的商机、降低企业的运作成本;如何通过历史经营情况归纳出成功的经验和失败的教训,并用数据、信息来预测未来的企业发展趋势,快速准确地把握风云变幻的市场脉搏,已成为企业经营者、决策者越来越关注的问题[1]。为了充分利用大量的历史数据,各零售企业开始建设数据仓库系统,并在商品分析、销售分析、客户分析、数据挖掘等方面进行研究和应用,尽管也存在一些问题[2-4]。本文以超市零售业为例,采用领先的数据仓库和数据挖掘产品Teradata进行数据仓库的建立与应用。

1Teradata介绍

1.1 Teradata概况Teradata是一个关系数据库管理系统(RDBMS)为运行世界上最大的商业数据库而设计,是企业数据仓库的首选解决方案,基于UNIX与NT的开放式系统平台,可以作为一个贯穿整个企业的客户端应用的数据库服务器。具有量处理能力――数亿行的数据、Terabytes字节的数据、高性能的并行处理、多客户端的单一数据库服务器、强大计算引擎与建模工具、多种高级算法供研究人员选择使用等特点。Teradata公司作为全球数据仓库的先驱,已经具有20 年以上建设数据仓库的经验,在全世界已经为各行各业的用户成功地实施了1000 多个数据仓库解决方案,其中数据库容量在1TB 以上的大型数据仓库就有300 多个,Teradata公司也因此成为无可争议的全球数据仓库的领导者[5-6]。这也使得国内诸多大型企业都采用了它的产品与服务。它可以直接利用Teradata Database就可以设计建立数据仓库,无需专门建立物理上和底层数据库分开的数据仓库,这一切都源于它强大的计算引擎和并行能力。它的数据挖掘工具Teradata Warehouse Miner(以下简称TWM)拥有多种算法库,可以针对建立的模型选择不同的算法进行求解。相比其他的数据仓库解决方案[7],选择Teradata数据仓库的是基于以下几方面的考虑:

①Teradata数据仓库的高性能可以保障对海量数据的应用苛刻性能要求。是系统今后升级的保障。

②Teradata的数据挖掘工具是在数据仓库内部进行,整个分析过程直接在数据库内部进行,而无须把数据输出到外部进行分析,从而充分利用数据库主机的性能完成工作,更加适合进行海量数据的分析。相比其他挖掘工具可以提供更好的分析性能和满足更大量数据的挖掘分析能力。

③Teradata是世界上最大的数据仓库及数据挖掘提供商,其企业级商业智能技术涵盖了从数据仓库到数据挖掘的多个方面。Teradata的零售业的逻辑数据模型是Teradata为数百家世界顶级零售业客户实施数据仓库的经验;是其20年来,作为数据仓库市场领导者的经验结晶。

1.2 Teradata数据仓库的商务智能系统逻辑结构

整个逻辑结构体系见图1:

从图1中可以看出,超市零售业的数据仓库系统的体系结构包括四部分内容:数据装载、数据管理、信息访问和系统管理与维护。它描述了数据仓库系统的数据源、相应的数据转换ETL(Extraction、Transformation、Loading)过程(指把数据从数据源转换并加载到中央数据仓库的过程)、中央数据仓库、对数据仓库信息的访问(通过一般的OLAP工具进行访问或者进行数据挖掘等)、以及对整个数据仓库系统的管理与维护(数据库建模与管理、系统管理、操作管理、专业技术服务等)。从这个框架结构图可以清楚地看出,本文所构建的数据仓库系统是一个由许多产品、模块、及服务构成的复杂解决方案,而决非某一个单纯的产品。

1.3 Teradata数据仓库的商务智能系统的物理体系结构Teradata数据仓库的商务智能系统主要包括以下几部分的硬件平台:

1.3.1 数据采集和加载系统数据采集和加载(ETL)系统设置在总部,由高性能服务器主机和相应的磁盘阵列存储系统、以及一组ETL程序组成,其主要功能是从总部业务系统采集数据,再将采集到的各种相关业务数据源,按照中央数据仓库中预先规划和设计好的物理数据模型,高速地加载到中央数据仓库中。ETL服务器主机可以采用各种开放的服务器平台与各种高效ETL工具组建数据仓库系统的数据加载系统。

1.3.2 中央数据仓库系统中央数据仓库系统由Teradata4480或5400海量并行处理(MPP)服务器主机、Teradata企业存储磁盘阵列系统、Teradata关系型数据库管理系统、数据仓库管理工作站(AWS)以及各种相关的软硬件设备组成。主要功能是存储和管理从业务系统整合的详细业务数据,产生各种复杂的业务报表,支持随机查询(ad hoc)、主题多维分析、数据挖掘专题分析应用。

1.3.3 业务应用系统业务应用系统由高性能服务器主机和应用分析软件组成,其主要功能是提供超市商务智能分析应用。 将中央数据仓库中的数据,按照预先设定的分析需求进行组织和整理,通过商务智能分析应用,产生各种统计分析结果,提供给领导作决策支持,业务应用系统的服务器主机可以采用各种适当的服务器。

1.3.4 多维分析(OLAP)系统多维分析(OLAP)系统由高性能服务器主机和多维分析软件组成,其主要功能是将中央数据仓库中的数据,按照预先设定的主题分析需求进行组织和整理,产生多维分析立方体,供业务人员作各种主题分析之用。多维分析(OLAP)系统的服务器主机可以采用各种适当的服务器。

1.3.5 数据挖掘系统数据挖掘系统的主要功能是针对各种需要深入分析的专题,例如商品关联分析等,利用组织存储在中央数据仓库中的各种相关详细交易数据,使用各种适当的分析算法进行统计分析,找出隐藏在数据背后的商业规律和模式,并将分析结果展现给业务人员使用。使用Teradata公司的数据挖掘软件,就不需要额外的服务器,因为Teradata公司的数据挖掘软件可以直接在Teradata数据库内进行数据挖掘,一方面可以节约投资,同时也可以充分利用Teradata数据库强大的并行处理能力。

1.3.6 客户端系统客户端系统可以沿用目前家乐福超市业务人员使用的各种终端设备,例如PC机、电脑笔记本等,上面安装各种所需的客户端应用软件,例如多维分析(OLAP)软件、报表工具软件、即席查询软件等,对多维分析(OLAP)立方体和中央数据仓库中的信息和数据进行访问和查询;或者直接通过Web方式进行访问和查询[8]。

体系结构见图2:

2基于Teradata数据仓库之上的主题分析

针对目前超市零售业的现状和需求,本文给出以下五个方面的主题分析:

①顾客群分类分析:根据票单信息和购物目的将顾客分类,并分析各类顾客在各个时间段,地区,门店,销售额等;②购物篮分析:分析购物篮之间的单品关联度;③价格弹性分析:促销商品的价格弹性系数计算和分析;④消费行为分析:根据票单信息将顾客分类,并统计各类顾客的人数和销售占比;分析某类商品的在客单中出现的频率,各种商品类中的人数占比,及各类商品的购物倾向等;⑤销售数据分析:能过滤掉特定票单(大单,退单等)后按地区,时间,商品种类等纬度进行的销售数据分析。

2.1 顾客群分类分析顾客分类是指将一个大的消费群体划分成为一个一个细分群的动作,同属一个细分群的顾客彼此相似,属于不同细分群的顾客被视为不同的消费群。顾客分类的目的是将有限资源优化利用,提高企业的竞争优势。分类不是目的,通过分类认清客户类型,找到最有价值的客户并有针对性地实施客户保持策略,提高客户特别是最有价值客户满意度和忠诚度才是我们真正的目的。所以顾客分类是很多针对性分析的前提条件。 但是零售业中的顾客分类有相当的难度,因为我们很少可以保留相应的客户详细信息。如果没有特定客户标识或者客户属性作为信息来源来区分客户,那么我们只能从客户的购物单据按照某些设定条件进行动态分析。而聚类分析(Clustering)是常用的分析方法。 聚类分析,简单地说就是把相似的东西分到一组,同 Classification (分类)不同,对于一个classifier,通常需要你告诉它“这个东西被分为某某类”这样一些例子,而在聚类的时候,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东西聚到一起,因此,一个聚类分析过程通常只需要知道如何计算相似度就可以开始工作了。

TWM中聚类分析提供了三种计算相似度的方法:

①Gaussian:系统中默认算法,使用高斯混合模型( Gaussian Mixture Model)。②Poisson:使用泊松混合模型(Poisson Mixture Model)。③K-Means:经典算法(K-Means Model)。

这里,我们在方案中使用高斯算法,因为GMM 是学习出一些概率密度函数来(所以 GMM 除了用在 clustering 上之外,还经常被用于 density estimation ),简单地说,k-means 的结果是每个数据点被分到其中某一个类了,而 GMM 则给出这些数据点分到每个类的概率。得出一个概率有很多好处,因为它的信息量比简单的一个结果要多,比如,我们可以把这个概率转换为一个得分,表示算法对自己得出的这个结果的把握。也许我们可以对同一个任务,用多个方法得到结果,最后选取“把握”最大的那个结果。 这种分析方法适合大数据量分析,且对异常数据点不是很敏感。适合进行顾客分类分析。

2.2 购物篮分析购物篮分析在零售行业常见的分析形式,常用的分析方法是进行关联规则挖掘,主要用于挖掘销售单品之间的关联关系。关联规则挖掘是数据挖掘的重要研究方向,侧重于发现数据库或数据仓库记录之间有趣的关联性或者相互关系,根据这种关联性就可从某一记录的属性信息来推断其他记录的属性信息,关联性是一种统计意义上的关系,并以支持度和置信度作为衡量关联的程度。通常须设定最小支持度和最小的置信度作为阀值,满足最小支持度和最小置信度阀值的规则称为强关联规则或有趣规则。关联规则在商业领域的成功应用,使它成为数据挖掘中最成熟、最重要、最活跃的研究内容。TWM中有Apriori、GRI、Carma等算法,此时的数据是从POS机中将小票数据导入到Teradata database中,利用TWM进行关联规则挖掘,用以提升交叉营销和门店的交叉陈列。

2.3 价格弹性分析所谓价格弹性,即是需求量对价格的弹性,则指某一产品价格变动时,该种产品需求量相应变动的灵敏度。而价格弹性分析,就是应用弹性原理,就产品需求量对价格变动的反应程度进行分析、计算、预测、决策。价格弹性分析(Price Elasticity Analysis)是零售业中重要的一种分析方法,它的计算也是一个复杂的过程。这里我们先用一种基本的回归分析法看看价格和销量的走势关系及其预测。有了价格销量的基本数据,其实我们已经可以概要计算价格的弹性系数。但是这仅仅计算的离散值,并不十分精确。 为了了解价格走势,我们还可以进一步进行回归分析。通过回归分析,可以得到一条拟合的价格销量走势图,见图3。

通过这个图形,我们可以大致了解,价格和销量之间的关系,在哪个点做出价格调整会达到更好的响应率,并作出一定的预测。同时TWM也可以提供更详细的分析数据,并可以Export到Excel做进一步分析和报告。

2.4 消费行为分析顾客消费行为分析是各个企业最感兴趣也是很值得研究的一个主题,针对超市零售业本文的目标是从企业海量的顾客购物小票中辨别出一些共同特征的客户,并从中找出特定顾客消费行为的规律。其基本方法是联合4.1顾客分类分析和4.2购物篮分析共同进行顾客消费行为分析。 首先,根据分类分析,找到特定需要分析的顾客消费类型,并将各种客户归类。然后再进行购物篮分析是否存在特定的消费行为。Teradata提供了一个称作Teradata’s Retail Decisions’ suite,通过这个套件可以全方位对客户的喜好和消费习惯进行深层挖掘,从而指导营销组合和促销计划。

2.5 销售数据分析利用Teradata强大的并行处理能力可以对大数量级的数据进行建模计算,其中销售数据的分析主要是通过建立起来的数据仓库和数据立方体进行联机分析(OLAP),从地区、时间、商品类别等维度分析各个维度下主题的表现。通过建立仪表盘可以让公司的中高层管理人员随时查看企业各个方面的表现状况。

3结束语

本文采用领先的数据仓库技术产品Teradata构建了超市零售业的的商务智能模型,可为企业内部经营管理人员和决策人员使用,尤其符合对适时商务智能有特殊要求的大型企业的要求。同时商务智能系统将与企业信息门户、企业管理系统进一步集成化,形成整合性的商务智能系统,为企业的决策和管理提供更便利的信息服务。

参考文献:

[1]Inmon W H, Building the Data Warehouse[M].北京:机械工业出版社,2003.

[2]孙海侠.商务智能系统的框架及技术支持[J].情报杂志,2005,(2):41-42.

[3]王建平.数据仓库概念与关键技术分析[J].情报杂志,2007,(9):111-113.

[4]杨峰,邵培基.面向零售业的商务智能系统的应用[J].西安邮电学院学报,2009,14(2):107-110.

[5]Teradata数据仓库事业部.数据仓库市场的领导者[J].电信科学,2005,(1):88-89.

[6]周靖.Teradata数据仓库技术在电子商务中的应用[J].工矿自动化,2005,(6):97-99.

[7]郑悦林,郑霞忠,邓康林.基于SQL SERVER 2005的超市商业智能模型[J].中国管理信息化,2008,11(4):72-74.

[8]刘浪,王丽亚,黄海量.基于Web的数据仓库解决方案[J].计算机工程,2005,31(1):92-94.

上一篇:基于Spring框架的应用设计 下一篇:基于B/S模式的高校毕业设计管理系统开发