基于增强ETL过程的大数据策略研究

时间:2022-08-24 10:01:40

基于增强ETL过程的大数据策略研究

摘要:大数据不仅意味着大机遇,同样带来了大噪声。因此,任何具有价值的大数据策略都必须给出滤除噪音,同时对真正相关的数据进行有效且高效的处理和解决办法。该文分析了大数据背景下企业的数据策略和现有IT解决方案中存在的问题,提出通过优化ETL过程来增强早期数据整合的解决方案,以提高企业大数据策略的成本收益。

关键词:大数据;策略;ETL

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)34-8081-02

大数据时代来临之初,许多企业、机构还在思考如何加大软硬件资源的投入以充分地利用移动网络、智能手机和云服务等扩大自己的业务收益和影响力;而短短几年过去,更多的是坐拥云服务商提供的技术和设施,却陷入了数据谜团。随着智能手机、社交网络等进一步深入生活,科研数据、商业智能的全面应用,数据海洋以人们完全无法控制的速度迎面而来。IDC(国际数据公司)预测,未来全球数据量将于2020年达到40ZB。获取、分析和运用指数级增长的庞大数据,将催生创新,为各行各业提供新的发展机遇、实现价值,给人们日常生活带来方方面面的改变。

1 大数据资源化过程中的成本收益

1.1 大数据资源转化效率的决定因素

大数据有四个显著特征:1) 数据种类繁多(variety):数据类型包括结构化、半结构化和非结构化数据;2) 数据体量巨大(volume):PB级别是常态[1];3) 数据处理速度快(velocity):海量数据需要在有效时间内处理完成;4) 价值密度低(value):需要从低价值的原始海量数据中进行深度挖掘和计算,总结出具备高价值的数据[2]。然而大数据目前还有一个经常被忽视的方面就是随之而来的高代价。每每提到大数据,更多的想到的是利用它增长利润,指导决策。然而我们不得不面对的问题就是如何平衡为充分开发大数据资源而增长的成本规模与显然希望提高的成本收率(cost-efficiency)[3]。随着对大数据相关问题研究的深入以及相关技术的成熟,我们开始渐渐意识到大数据的价值不尽在它的“大”――数据的获取、存储、处理都不再是最令人棘手的,但如何真正掌控、透视,理解数据,不为同样体量巨大的噪音所耗,应在大数据的研究和应用中引起重视。首先识别出与业务最相关、有效的数据集才能真正决定大数据资源的转化效率;并且这个转化效率如果仅从其带来的收益来看还不够全面,必须将为了获得大数据处理能力而增加的本地成本规模的投入考虑进来。因此,对企业与机构来说,大数据的转化效率除了与增加的成本规模有关,更与成本收益息息相关。

1.2 提高成本收益应解决的问题

目前,云服务商提供的软硬件产品非常成熟多样,但客户仍需配置相应规模的本地软硬件环境。那么,如果不能先对数据进行有效的整合,而直接将获取、存储和处理直接全交由云服务来解决,那么巨大的吞吐量无疑将带来高额的成本规模投入;同时,云服务处理数据的时效性和有效程度必将不够理想。当前云计算更偏重海量存储和计算,以及提供的云服务、运行云应用,缺乏盘活数据资产的能力。挖掘价值性信息和预测性分析,为国家、企业、个人提供决策方案和服务,才应是大数据核心议题,也应是云计算的最终方向。因此,对数据的前期整合应成为机构、企业自身可控也应该重点研究的数据策略组成部分,甚至是其数据策略是否成功的决定性步骤。这步工作要求将数据交由云服务商处理之前,应由机构和企业根据自身的专业性质、行业背景、阶段需求、人为经验等进行必要的数据整合,以迎合企业和机构的信息需求,为其数据策略的导向、商业决策的制定提供方向标,提高成本收益,实现大数据的高效资源化,将大数据的魅力发挥至极。

2 ETL的概念及作用

2.1 ETL的概念及流程简介

ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。它是随着数据仓库的产生而产生的。构建数据仓库最关键的工作就是将各业务系统中的数据按主题进行重新集成,而大数据来源广泛,都存在平台不同、数据源异构等问题,这使数据集成非常复杂。ETL就是为了解决这类问题的形成的一种独立的数据集成模式。随着数据仓库、联机分析处理和数据挖掘等技术的发展,并且业务系统对数据集成的要求越来越高,数据ETL成为了当前信息技术中活跃的研究领域之一。包含了3方面的内容:1) “抽取”指的是将数据从各种原始的业务系统中读取出来,这是所有工作的前提;2) “转换”是指按照预先设计好的规则将抽取得数据进行转换,使本来异构的数据格式能统一起来;3) “装载”是将转换完的数据按计划导入到数据仓库中。ETL 主要应用在数据集成、数据仓库和数据集市和多维数据分析中[3]。ETL过程是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。针对自身的核心业务,利用数据仓库系统可以对多年累积的大量业务数据进行加工和分析将有利于找出其中有用的信息,对决策形成强大有效的支撑。

2.2 ETL在大数据资源化过程中提高成本收益的作用

在ETL过程中,抽取属于数据的输入过程,解决的主要是异构数据的统一问题;而数据的装载可视为数据的输出过程,主要完成从统一的数据存储装载到目标数据仓库中。而中间的转换(包括清洗)主要是对数据质量进行优化。该阶段不仅可以对数据的冗余、缺失、错误等问题进行检查和修正,更重要的是可以使用默认的或用户自定义的规则对数据中的某些字段进行合并、转换等操作,大大提高数据的正确性、一致性、完整性和可用性[4]。为了能更好地实现ETL,在实施ETL过程中应注意以下几点:1) 如果条件允许,可利用数据中转区对运营数据进行预处理,保证集成与加载的高效性;2) 如果ETL的过程是主动“拉取”,而不是从内部“推送”,其可控性将大为增强;3) ETL之前应制定流程化的配置管理和标准协议;4) 关键数据标准至关重要。只有在ETL过程中对数据进行了有效的处理,才能保证数据质量,从而更好地支持OLAP及数据挖掘。但在实际的项目中,正是由于常常在这个环节上没有正确的估计ETL过程的重要,没有认真的考虑其与工具支撑有很大的关系。导致在后期的维护上,往往对人力和成本投入造成巨大损失。实时要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。对数据处理的有效性和实时性等要求在企业中任何一种数据的处理都是一种由业务定义和拥有的过程,因为它们拥有企业数据的生命周期。当谈到非结构化数据的处理,任何企业中只有可以拥有和定义这种非结构化数据的规则的人才是业务用户,这就是需要ETL的意义所在。根据调查,前些年在企业数据仓库的建设过程中,只有60%的精力花费在数据ETL的设计和实施上[5]。因此,做到真正提高成本收益,应重视并深入研究ETL规则的设计和流程。

3 结束语

大数据在带来商业契机的同时,也为企业IT带来新的挑战。企业用户需要从IT基础架构、智能分析软件等方面全方位进行考量,从效益上来看,过去随业务增长而一味增加服务器的做法已经成为用户应用中的一个痛点。确保企业大数据应用成功的重要开端就是打造一个适合大数据整合的基础架构。增强及改进现有的ETL过程可以实现当前数据策略实践过程中的困境。制定合身的数据转化策略,通过增强数据集成的前期处理更快速有效地将数据转化成资源,使大数据更快更好为政策导向、企业决策和科学研究服务。

参考文献:

[1] International Data Corporation and EMC.The 2011 Digital Universe Study: Extracting Value from Chaos[EB].[2012-11-10].

[2] Big Data[J].Nature,2008,455(7209):1-136.

[3] 白果,贾玉文.数据仓库中ETL技术的研究与改进[J].甘肃科技,2012,28(19):18-20.

[4] 徐俊刚,裴莹.数据ETL研究综述[J].计算机科学,2011,38(4):15-20.

[5]Inmon W H.The data warehouse budget[J/OL].DM Review Magazine,2010.

上一篇:校园网中QoS的设计与实现 下一篇:张爱玲的时尚