如何提升数据质量,看主数据管理怎么说

时间:2022-04-29 10:59:24

如何提升数据质量,看主数据管理怎么说

当前有很多企业,迫于优化IT环境成本及企业效率的需要,急需更有效的方式用以管理和维护跨多个数据源的数据。同时,日益增加的公司治理费用,运营风险和法规制度,也迫使企业更加重视核心数据的管理。特别是近年来,随着社交媒体的发展,为应对来自社交数据、大数据及云数据管理提出的挑战,企业开始将主数据管理(MDM,Master data Management)应用于企业中。

Gartner在近期做过一次调查,2012年全球主数据管理软件的销量将达到19亿美元,较2011年增长21%。在未来5年里,主数据管理软件的销量将继续强劲增长,在2015年达到32亿美元。

不过,Gartner同时也指出,当前主数据管理的需求仍然是北美和欧洲地区最大,这两个区域的MDM软件销量将稳步增长,并分别于2013年和2015年达到10亿美元大关。在2013年,MDM软件收入将在亚洲/太平洋地区实现较快增长,收入将较2012年增长30%,至2.09亿美元。

主数据管理市场需求以超过20%的速度在逐年增大,在这一领域竞争的厂商也在逐渐增多。通常认为,MDM市场的三大领军者分别为IBM、甲骨文和SAP。但是2011年,在Gartner公布的“2011客户数据解决方案主数据管理(MDM)魔力象限报告”中,则把Informatica列入位居领导者象限。自此,主数据管理市场又多了一个实力派的竞争者。

不辨不明:主数据的定义

从Gartner的调查数据,我们发现国内对于主数据管理的价值还有待进一步提高认识。在这里,编者先大致地介绍一下主数据的定义。对于主数据有很多不同的定义,综合起来可以定义为:企业内能够跨业务重复使用并且需要共享的高价值数据。

那么,具体哪些数据才是主数据呢?例如:客户、供应商、账户、组织单位、员工、合作伙伴、位置信息等都是主数据,大部分的交易数据、账单数据等都不是主数据;而Informatica中国区首席产品顾问但彬则一针见血地指出,主数据是企业的核心数据,是企业最权威、一致的一系列标识、扩展属性和层次关系,它在企业运营中担当着关键角色的数据实体。

同时,有些人会将元数据和主数据混为一谈。对此,但彬指出,主数据和元数据是两个完全不同的概念。元数据是指表示数据的相关信息,比如数据定义等,而主数据是指实例数据,比如产品目录信息等。

主数据面临的难题

但彬认为主数据面临的问题主要有四个方面,其中包括主数据的定义、流程、质量和共享等难题。

1.在定义方面,没有统一的标准,没有明确的定义和范围。

2.在流程方面,数据创建、维护等管理流程不一致。

3.在质量方面,数据缺乏完整性、一致性、准确性,重复数据多,也导致主数据管理难。

4.在共享方面,不知以谁为“主”、共享途径不畅及访问控制困难等问题也让主数据共享产生困难。

这些问题的本质往往是因为多点维护以及缺乏信任规则造成的。

精明的IT决策者们正在想方设法寻找技术来解决上述问题,而MDM就是恰当之选。MDM是一系列的工具和处理过程,确保企业主数据的高质量、统一定义和流通便利性,这就正好把主数据所面临的定义、流程、质量和共享等四大难题给一一解决了。

主数据管理的三大要素

既然我们已经非常清楚主数据管理的难题是什么,那么具体该如何化解难题呢?但彬支持主数据管理的三个关键点需要确认,包括主数据模型、主数据整合手段和主数据服务等,以帮助解决主数据面临的四大难题。

首先,确定主数据模型。企业需要确定机构主数据的范围,然后才是确定机构数据模型和标准,但几乎没有拿来就能用的模型,往往需要根据不同机构的业务需求来定义模型。所以主数据管理的定制能力很重要,需要支持模型的灵活定义,特别是对未来更多类型主数据的支持。

其次,确认主数据整合手段。在主数据的整合过程中,企业要选择的是采用哪种模式进行整合。

一般情况下,整合手段有四种模式:第一种是注册模式,适用于标示单一的客户、病人、产品等;第二种是合并模式,用于支持DI/DW报表和分析要求,以及法规遵从等;第三种是共存模式,面向销售、市场、客户服务支持操作型要求等;第四种是集中模式或交易模式,它同时支持分析型、操作型的需求等。不过,这四种模式并不是独立存在的,往往是多种模式的一个组合,最后,通过SOA服务方式,将主数据管理信息服务化,供不同应用使用。

第三是配置主数据服务。配置主数据服务是主数据管理的关键环节。其中,重复数据识别是主数据管理中的重要能力,根据配置的规则,标示在多个系统中存在的潜在的匹配对象,根据阈值定义,确定是否匹配,将有疑似的匹配结果,通过业务流程提交人工确认。另外,需要特别说明的是数据间的层次关系,它可以帮助企业全方位了解信息,其关键要素包括:跨系统、跨应用能力;为不同的商业目的,创建、管理多种不同的层次关系;关联不同的实体,构建360度视图,并且可以保持所有实体关系。

主数据的管理常常被误解为是个单纯的数据标准问题,而实际上在企业内部贯彻实施统一的标准需要愿景、制度、IT等全方位的配合,也就是说,主数据管理实质上是个管理问题。为MDM建立的独立信息平台,最好由业务方面的高层来负责,而不是IT部门负责人,因为,很多时候并不是技术的问题,而是业务部门之间的协调。

主数据管理与数据仓库的区别

有企业用户发出疑问:企业刚刚部署了数据仓库,是否可以在此基础上进行主数据管理?这两者有什么区别呢?

事实上,数据仓库系统的分析结果可以作为衍生数据输入到MDM系统。我们可以从目的、处理方式和数据量等三个方面来区分主数据和数据仓库。

主数据是经常需要维护的,需要确保其时效性和准确性。

首先,两者的目的不同。主数据管理的目的是导出绝对真实的核心数据,即关键业务数据,同时还得提供主数据之间的关联性,而这在数据仓库里是难以找到的。

其次,两者的处理方式上不同。主数据管理是一种偏交易型的系统,系统的服务对象是呼叫中心、B2C、CRM等业务系统;而数据仓库是属于分析型的系统,面向的是分析型的应用,在大量历史交易数据的基础上进行多维分析。

最后,两者的数据量上不同。主数据管理存储的仅仅是客户和产品等核心数据的信息;而数据仓库存储的是来自历史数据和各个维度的汇总数据,可能是海量数据。

详解Informatica MDM

但彬详细介绍了Informatica公司解决企业面临的主数据管理难题的灵丹妙药――Informatica MDM。Informatica MDM在架构上分为两层,底层称为主数据的集成平台,即Informatica 9,它可以实现数据集成、数据质量的清洗、识别,同时还提供数据孵化的一些功能以实现服务。在它基础上是MDM的核心功能,包括模型落地、匹配、识别、信任框架等等都在这上面去实现。

Informatica MDM是单一平台上的成熟、灵活的多领域主数据管理解决方案,它可以帮助企业迅速部署和轻松扩展,解决多个部门和地区的业务问题。Informatica MDM产品的功能主要分成三大部分,七个步骤。这三大部分包括:首先,必不可少的是要有数据的获取和数据的,这是指主数据的入口和出口;中间核心部分是任何主数据管理产品所需的五项核心功能(发现、建模、识别、解决和治理)。

发现(Discover)――了解主数据的来源、现状;

建模(Model)――用灵活的数据模型定义任意类型的主数据;

清洗(Cleanse)――快速匹配和准确识别重复项目;

解决(Resolve)――合并以创建可靠、唯一的真实来源;

治理(Govern)――创建、使用、管理和监控主数据。

但彬强调,以上是一个循环往复的过程,当有新的主数据出现或经过几大步骤治理后的主数据还未达到质量要求,则都会进入下一轮的循环。

尽管主数据管理牵涉到多个业务系统的数据平台,可以与CRM以及ERP系统进行集成在一起协同工作。不过,但彬指出,主数据管理最好是一个独立的企业级信息平台,可以统一管理企业主数据。一个主数据管理解决方案不仅仅是一个软件平台,往往还包括一系列的最佳实践和方法,一些相关的业务团队以及特定的数据处理功能。

上一篇:数据集成是商业智能发展重中之重 下一篇:IT消费产品还可以更加“云”化