面向商务智能的人力资源数据仓库设计与实现

时间:2022-07-12 11:24:47

面向商务智能的人力资源数据仓库设计与实现

摘 要: 针对现代企业海量数据管理的目标和任务,从日益增长的用户需求出发划分人力资源数据仓库主题,搭建数据获取、数据管理和数据使用三个递进层次的商务智能平台架构。结合某大型国有物流企业SAP-BI实施项目案例,全面阐述了数据仓库建设中基于扩展星形结构信息立方体的数据抽取、清洗、转换和加载的完整过程,指出了系统建设中增量数据传输和性能优化手段等关键技术点。实践表明,该商务智能平台能够协助企业人力资源战略决策,有效提升管理水平。

关键词: 人力资源; 商务智能; 数据仓库; 扩展星形结构; 信息立方体

中图分类号:TP392 文献标志码:A 文章编号:1006-8228(2014)04-18-03

Abstract: To deal with the object and assignment for massive data management of modern enterprise, HR data warehouse themes have been partitioned according to increasing demand of customers. BI platform architecture is constructed from three progressive stages including data acquisition, data management and data usage. Combing with a SAP-BI case of one large state-owned logistics company, the procedure of extracting, washing, transferring and loading in data warehouse based on InfoCube is illustrated completely. The key technology including increment transmission and performance optimization etc in system implementation is pointed out. The practice results show that the BI platform can assist HR strategic decisions and enhance the management level effectively.

Key words: human resource; BI; data warehouse; extended star schema; InfoCube

0 引言

人力资源管理信息化(e-HR)[1]推动了从行政事务管理向战略性人力资源管理的转变,同时大幅度提高了企业人力资源管理的工作效率和技术含量。然而,e-HR系统面向一线工作人员,所生成的日常事务型明细数据无法帮助决策者全面和实时地掌握企业级的多维统计信息,数据仓库很好地解决了这个问题。数据仓库是一个面向主题的、集成的、非易失的、随时间变化的支持管理人员决策的数据集合[2],包含粒度可变的企业数据。以决策者需求和未来发展为导向设计和构建数据仓库是企业商务智能解决方案的坚实基础。本文以笔者参与实施的某大型国有物流集团人力资源商务智能项目为例加以阐述,该项目基于SAP-BI[3]套件开发完成。其中的SAP-BW是一整套覆盖数据仓库建设周期的产品包,包括数据仓库的建模、数据集成和转换、数据存储和管理、元数据管理和数据可视化分析等产品。

1 建设目标

现阶段该集团公司已经实现基于SAP 产品的ERP业务和财务系统,全面覆盖下属各行业子公司,集团整体信息化建设已然跨越集中建设阶段,正处于成熟应用向创新应用转变的关键时期。随着SAP ERP系统的上线运行,产生了海量的事务型数据,这对数据的管理和利用提出新的挑战,建设为决策支持系统和联机分析应用服务的数据仓库成为当前的紧迫任务。因此,面向集团管理层的人事管理需求,基于维度划分数据粒度,完成人事管理日常数据的抽取、转换和加载,构建多维星形数据模型,是人力资源数据仓库建设实施的首要目标和任务。

2 建设主题

该集团公司人力资源管理相关的需求共涉及人力资源领域四个主题,分别为:人事管理、组织管理、时间管理和薪酬管理。人事管理是对企业人才结构的总体评价。作为集团职能部门,人力资源部需统计、查询员工数据,如人员结构、员工合同、在岗职工分布、新增人员总量及录用、人员减少情况和人员退休预测等,以便为公司的各项人力资源决策提供可靠的基础依据。组织管理可实现下属公司的定员编制数、机构数量的统计,可以根据机构类别、机构规格、经营类型、机构经济类型、专业板块、专业子板块、机构专业队伍类别等维度进行组合分析。时间管理可实现员工和部门的汇总上班天数、休假天数、加班天数和出勤/缺勤天数等数据统计,为薪酬核算和绩效考核提供相关支持。薪酬管理帮助人力资源部及时掌握下属公司各类员工的工资数据和福利数据,在公司层面掌控成本,为与市场和行业的工资福利进行比较提供有力的数据依据。

3 蓝图设计

3.1 BI架构

SAP商务智能系统架构如图1所示。它以数据仓库、在线分析处理(OLAP)、数据挖掘三种技术的整合为基础,建立企业数据中心和业务分析模型,以提高企业获取经营分析信息的能力。

系统架构由四部分组成。

⑴ 数据源:系统的数据来源。通常包括企业内部信息和外部信息,既存放于关系数据库中的各种业务处理数据和各类文档数据。

⑵ 数据存储与管理:数据仓库的关键点。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。

⑶ OLAP服务:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。

⑷ 前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。

3.2 物理模型

与用户视觉交互的前端数据常常以报表的形式展现,这些报表是高度汇总的数据集合,源头是SAP-HR业务系统的明细数据。不失一般性,下面以组织管理主题中的“职务层级分布表”为实现目标,具体探讨数据仓库物理模型的建立过程。内容如表1所示。必须指出的是本文为便于讨论,需要从案例报表出发建模,而在实际项目中应从多个报表归纳出主题,不能为了实现单个报表进行大量的建模工作。

3.2.1 数据源

数据仓库本身不产生数据,所有存储的数据都来源于SAP-HR业务系统。数据源是一个指向SAP-HR业务系统数据存放地址的指针,通过该指针可以将业务明细数据抽取到数据仓库永久存储区域(PSA)。结合职务层级分布表内容,对应的数据源如表2所示。业务数据源0HR_PA_0中只包含必要的关键字段,说明在某个月份某个员工在岗,至于该员工的具体信息可以到对应的主数据源中查找。这种二维数据表间的关联关系正是关系数据库的典型特征,说明数据源指向的SAP-HR业务系统后台结构是基于关系数据库构成。

3.2.2 信息对象

信息对象主要用于存放主数据信息,有特征和关键值两类。特征是用来描述事物主要特点的字段,具有惟一性。在InfoCube中被分配到每一个维度,一个维度可以有多个特征,也称为维度特征。关键值存放在InfoCube的事实表中,用来对量化数据进行描述。职务层级表用到的信息对象如表3所示,数据抽取转换加载来源于表中对应的数据源。

3.2.3 数据存储对象

从数据源抽取的存放在数据仓库PSA中的原始业务数据只是简单的拷贝,不能直接使用,数据存储对象(DSO)提供了前期的数据清洗和转换。DSO仍然是二维表结构,存储明细数据,支持关键值的覆盖和合计。为了将业务数据的一条记录从最初的“日历年/月”和“人员编号”两个特征扩展到包含“公司代码”、“组织单位”、“员工组”、“员工子组”等特征,转换规则先后使用了两层DSO结构,如图2和图3所示。图2的转换规则从数据源0HR_PA_0至第一层DSO,其中关键值“员工人数”直接设置为常数1,因为一条员工记录就对应一名员工。图3中增加的特征来源于读取的员工主数据,读取的依据是人员编号和日历年/月的联合主键,这种特征属性的时间相关性是人力资源业务的鲜明特点。比如某个员工在某个时间段属于某个组织单位,在另一个时间段完全可能属于不同的组织单位,其他特征的情况类似。因此必须是人员编号和日历年/月的联合主键才能惟一确定具体特征值。

再者可以看出第二层DSO通过读取主数据使得二维表冗余度大大增加,数据仓库的这种设计方法和关系数据库设计模式大相径庭,却为将平面二维数据加载到多维信息立方体奠定了良好的基础。

3.2.4 信息立方体

InfoCube是根据最终用户请求塑造的多维扩展星形结构,是最主要的用于报表的模型。它通过关联多张二维平面表实现多维结构,支持快速而高效的直接数据存取。InfoCube中心是事实表,如图4所示,由时间维、公司组织维、岗位维和员工维的id和关键值“员工人数”构成。在事实表周围是维表,每个维表结构由事先指定的若干特征维度sid组成,维表记录数等于特征维度记录数的笛卡尔积。主数据表不在InfoCube中,它们通过sid表和维度表关联。

4 关键技术

4.1 增量传输

从数据源抽数到PSA的方式根据数据量的多少分为两种。一种是全量抽数,既每次都将可用的数据全部抽取,已抽的数据会重复抽取,这种方式适用于数据量较小的情况;另一种方式是增量抽取,只抽取上次抽完后增删改过的数据,已抽的数据不会再次抽取,这种方式适用于大数据量的情况。人事数据仓库的数据源如人事管理和培训活动管理使用全量抽数,时间管理和工资核算使用增量抽数。这里需注意,因为人事涉及的增量数据源使用附加镜像(ADD),第一层DSO关键值转换规则不能是覆盖只能是合计。此外,尽管采用全量抽数的人事数据源的数据量相比后勤和财务等模块的数据量为小,但是实际项目中仍然有可能很庞大,用户不愿意接受每次低效的重复抽数,可以采用“假增量”的抽取模式,既只抽取距今一个时间段的数据,规定用户超过该时间段的数据不能增删和修改。该时间段内的数据其实还是全量抽取,但是也仅抽取这个时间段的数据量,如此大大降低了从业务系统抽数的负载。

4.2 性能优化

数据仓库中信息立方体蕴含的多维度海量数据使得实时查询成为奢望,一般情况是滞后若干时间获取统计数据。可以主要从以下两个方面考虑加快查询速度。

⑴ 建立聚集。聚集是数据仓库经常使用的性能优化方法,是以空间换时间的方法。对信息立方体的数据按照指定的子集进行数据汇总,汇总数据存放在不同的独立事实表中,根据常用的查询种类,一个基本事实表可以设置多个聚集事实表。在报表运行中,系统自动根据报表的查询维度找到最合适也就是数据量最少的聚集事实表读取数据。由于数据量的减少,降低了报表的运行时间。

⑵ 使用虚拟信息提供者。可以利用BI中的各种虚拟的信息提供者来把不同的数据对象,如DSO或信息立方体的数据融合在一个虚拟的信息提供者中。在信息立方体中存放基于关键指标的聚集数据,在数据存储对象中存放详细的业务数据。通过追溯的功能,可以浏览不同阶层的聚集或明细数据。这样的设计保证了汇总数据与详细数据的一致性,提高了数据访问的效率,降低了数据的冗余。

5 结束语

目前数据仓库技术已趋成熟,许多产品供应商推出了商品化软件,包括ORACLE、IBM、MICROSOFT、SAS、TERADATA、SAP等。由于国外企业率先使用ERP系统且更早注重基于数据的分析和企业管理决策的支持,因此数据仓库产品被广泛应用于国外企业的数据管理领域。比较而言,国内企业对于数据仓库的需求和建设仍处于起步时期,且侧重点在于应用,既如何选择合适的国际化产品并结合自身业务环境特点二次开发构造合适的数据仓库,为数据挖掘和商务智能提供便利条件。此外,能够极大提升查询性能的内存计算技术[4]开始崭露头角,这将是下阶段商务智能领域发展的方向。

参考文献:

[1] 邬锦雯.人力资源管理信息化[M].清华大学出版社,2006.

[2] William H.Inmon.Building the Data Warehouse[M]. USA:Wiley,2007.

[3] 陈永杰.SAP商务智能完全解决方案[M].机械工业出版社, 2008.

[4] HANA中国社区[EB/OL].http:///.

上一篇:基于工作流导向的“网络信息安全”实训教材建... 下一篇:SPSS Clementine决策树建模在图书馆中的应用