基于Mondrian平台的邮政金融数据挖掘应用

时间:2022-09-01 10:11:28

基于Mondrian平台的邮政金融数据挖掘应用

随着企业业务发展,信息系统积累的业务数据不断增长,如何充分利用企业庞大的业务数据库为企业经营管理与决策提供有效支撑成为信息技术领域的挑战。本文阐述了广东邮政选用Mondrian 作为OLAP引擎构建企业数据挖掘应用及其特点。

【关键词】Mondrian 数据挖掘 多维分析 金融数据

1 Mondrian平台介绍

Mondrian是基于Java技术的多维分析OLAP服务器。 Mondrian运行在关系数据库上,它提供了基于数据库的JAVA API for OLAP。API可以在应用程序中调用,比如GUI,以便浏览OLAP服务器。Mondrian 的典型应用是四层结构。它由展现层(JSP 或者 Swing 开发的应用程序),计算层(验证和执行 MDX 查询),聚合层(控制缓存中的数据和请求的没有缓存的数据)和存储层(关系数据库)。展现层是由 JPivot 来负责的。Mondrian负责计算层和聚合层。存储层是通过 JDBC 接口来调用的。Mondrian 使用 MDX 作为查询语言,从数据库中查找数据。

2 Mondrian平台在邮政金融数据挖掘中的应用

随着广东邮政企业业务飞速发展、对经营分析的要求越来越高,各职能部门希望对日常经营数据进行多维度分析,为科学管理提供强有力的信息支持。数据挖掘是在海量数据中寻找隐含在数据中的信息特征及相关性的过程。为此,广东邮政选用Mondrian平台构建了生产实时数据分析系统,利用Mondrian的OLAP引擎与JPivot展现技术对邮政金融、邮务等业务积累的海量数据进行数据挖掘与展现。其特点包括:系统采用多层B/S结构,基于经营管理平台架构,同时整合了FLASH图表组件、OLAP引擎及展现组件,支持在线钻取、切片和切块、以及旋转操作;采用了多种数据抽取手段从邮政金融数据中心采集数据;严格的权限管理,一般用户无法访自己职权范围外的功能和数据;实现了邮务类与金融类数据的集成整合;结合短信平台,快捷通报企业的经营状况。系统涉及的关键技术包括:

(1)ETL:数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

(2)OLAP(联机分析处理):是一种数据动态分析模型,它允许以一种称为多维数据集的多维结构访问来自商业数据源的经过聚合和组织整理的数据

(3)数据仓库(Data Warehouse,简称DW):是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。

(4)数据集市(Data Mart):是完整的数据仓库的一个逻辑子集,一般在某一个业务部门建立,满足其分析决策的需要,可将其理解为“部门级的数据仓库”。通常业务数据经过聚合、摘要和清洗,形成信息数据。

下面以机构储蓄时点余额数据为例,介绍OLAP多维数据分析的过程。

2.1 数据的预处理

由于金融系统中机构储蓄数据关联较多,清除不需要的字段可以提高处理效率。所以需要对初始数据表中没有用到的属性信息进行清理,从时间、区域、机构、储种四个维度表和一个业务事实表来分解原始数据:时间维的属性:[年,月,日];区域维的属性:[城市,县域,农村];机构维的属性:[省,市,区县,网点];储种维的属性:[活期,定期]。

2.2 Mondrian的多维数据构建

原始数据经过数据清洗变成了4个维表和1个事实表后,Mondrian通过构建Schema的XML文件来实现二维关系表转化成多维数据立方体:

通过Schema 文件,Mondrian的多维数据立方体逻辑模型就建立起来了。通过类似以下的MDX语句进行数据查询:

select {[Measures].[时点余额], [Measures].[账户数]} ON COLUMNS, NON EMPTY Crossjoin({[区域].Children, [机构].Children}, {[储种].Children}) ON ROWS from [CubeFinance] where {[时间].[2014].[201410].[20141013]}

通过上述过程,我们就可以在系统上进行查询分析,可以利用Mondrian对机构储蓄时点余额数据的各个维度进行钻取,切片以及生成OLAP报表。

参考文献

[1]William D. Back.Mondrian in Action:Manning Publications,2013.

[2]陈安,陈宁等编著.数据挖掘技术及应用[M].北京:科学出版社,2006.

作者单位

广东省邮政信息技术局 广东省广州市 510898

上一篇:分层式学生信息数据管理的探讨 下一篇:基于XML数字签名的学生学籍管理系统的实现