罗克佳华的数据智慧

时间:2022-10-30 09:17:24

罗克佳华的数据智慧

陶波,清华大学电子工程学士,美国普林斯顿大学电子工程系博士,中国电子学会云计算专家委员会委员。在美国硅谷工作十多年,曾多次自主创业。在硅谷时曾任职谷歌,担任高级研发经理,负责Google Video、Youtube、picasaweb等产品。在中国谷歌任职时,负责中国区社交产品部,并担任谷歌中国研究院副院长,开发大型互联网应用和云计算技术和平台。还曾任EMC中国首席技术官,兼任EMC中国研究院院长,同时负责EMC和VMware云数据库和大数据的产品。现任职罗克佳华高级副总裁、北京罗克佳华总经理。

和腾讯、阿里巴巴等公众熟悉的企业不同,罗克佳华一直致力于煤矿安全、环保、节能、物流等方面的物联网和云计算应用,对大数据的商用价值同样有深刻理解。采访罗克佳华高级副总裁、北京罗克佳华总经理陶波博士是在2013年1月一天下午1点多钟,此时正是许多公司午休的时间,陶波博士却是话锋正健,条理清晰地道出了国内外大数据业务的发展脉络,将让人眼花的大数据较为形象地展现出来。

大数据的难题:融合与质量

所谓大数据,是指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。那么,多大才算大数据呢?一般认为,其数量级应该是“太字节”(1TB=240B)的,但是随着数据的与时俱增,这个数量级也会变大。

说到大数据与云计算、智慧城市的关系,北京罗克佳华总经理陶波博士指出,大数据和云计算是两种技术,在智慧城市里面都有应用,

“如果画两个圆圈的话,大数据和云计算有一部分是重叠的”。在技术层面,云计算包含计算资源和数据资源,新的云计算技术包括计算资源虚拟化以及自动管理和新的数据存储、管理。而大数据包括数据的管理、存储和分析,这个重叠的地方就是数据的存储与管理。

智慧城市的很多应用产生着大量的数据,而新的大数据技术在智慧城市中也有很多体现。现在很多城市提出“数据融合”,原因是政府部门建立了各自不同的业务系统,很多小区和街道办也有自己的系统,里面有各种各样的数据,例如庞大的户籍数据、纳税数据等。从而产生了数据的不一致性问题,这种不一致性主要又源于人们的收入、居住地,尤其是出租屋,甚至是婚姻状况等数据的快速改变。除了数据融合的难题之外,大数据还要涉及到另一个棘手问题――怎么提高数据质量。

大数据的另外一种应用场景是统一的数据平台,目前有各种各样的数据类型,如监控视频、图片,还有更多文档型的数据。需要一个统一的数据存储和管理平台,以满足各种不同类型数据的存储和管理需求,这些也是现代一些新大数据的基础。

国外大数据行业已出现并购

数据量的增长在某种意义上讲也符合摩尔定律。2011年麦肯锡公司出版了研究报告《大数据:下一个创新、竞争和生产率的前沿》,报告对美国政府、制造业、新闻业、银行业、零售业等17个行业的数据量进行了估算,排第一的离散式制造业数据量有966PB(1PB=250B),第二位的美国政府有848PB,第三位的新闻传媒业有715PB,这些数据量的大小已经超出一般人的认知。如何让大数据有用并产生价值,已经引起了业界的重视。

到目前,大数据业务已经形成了一条从数据整合、分析、挖掘到展示的完整产业链。其中的展示环节也被称为“数据可视化”,可以形象简洁地将复杂的数据信息表现出来。有业内人士基于与大数据相关的投资标的,将大数据产业链上的企业分成了四类:第一类是与海量数据的存储和处理相关的公司;第二类是与数据中心建设与运营维护相关的公司;第三类是与视频化应用相关的公司;第四类是与智能化和人机交互概念相关的公司。

而在国外,IT企业早已瞄准大数据的相关业务,并形成了两种趋势,一是大的厂商在发力,另外一个是新型的公司,不管是做数据分析的,还是做线上应用的,有很多公司都得到了风投的青睐或是被收购。

IT巨头如大数据厂商乃至一些做基础架构的软硬件厂商都部署迅速。据陶波博士介绍,EMC整条产品线都沿着大数据的方向,在云基础架构和虚拟化软件领域著名的VMware,也很重视将大数据与操作系统捆绑,关注他们的虚拟化软件在处理大数据时,遇到Hadoop高磁盘吞吐的情况下能否满足需求。芯片巨头英特尔也关注他们的芯片能否更好地适用于以数据为中心的新计算模式和应用模式,并设有专门的大数据团队,在这方面进行发力。

从事大数据业务的新型公司也引起了VC和大公司的兴趣,过去两年,这方面的投资和收购常有发生。这些新型公司大体可分为两种,一种是做数据分析型公司,如2011年EMC收购Greenplumn,2010年HP收购了Vertiica。另一种是把数据分析当作云服务的公司,如VMware收购的Cetas,他们的服务理念很简单,用户只要把数据上传就能够使用Cetas所提供的数据分析服务。刚上市不久的Splunk也类似,它专注于Linux系统的日志分析业务。

传统行业大数据业务需求凸显

虽然大数据业务的模式已经基本成型,但是大数据业务的开展还远非想象中的那样,上下游企业通力合作,将各行各业的数据进行联机分析和挖掘,而是遵循了先易后难的规律。已经进入大数据市场的企业将关注点主要集中在内部数据上,如腾讯各大产品线中都拥有自己的数据挖掘团队,阿里巴巴在2012年7月设立了首席数据官岗位(CDO),负责推进其“数据分享平台”战略。

关于公司内部数据的来源和种类,陶波博士说:“我觉得数据有两大类,一个是业务数据,对任何公司来讲的业务数据,另外一个是管理数据。”他进一步解释,业务数据是跟业务发生关系的数据,如互联网网站的Web日志,电商后台所存的用户消费记录。管理数据包括人力资源、公司财务系统数据,其它包括ERP和CRM等。对于大数据的应用场景来讲,对这两种都有需求。

这些数据当中,既有人的数据也有物的数据。根据不同公司的业务类型侧重点会不同,如电商两者都有,因为从数据里面可以分析出商品销售情况和客户的消费习惯。据陶波博士透露,在罗克佳华的环保项目监测中,在电厂主机的生产系统和辅机的脱硫脱硝系统,记录了大量的物体信息,如烟、粉、尘、SO2的含量,磨煤机的工作状况。这些是电厂的业务数据、生产数据,同时这数据是由设备产生的,也是物的数据。类似的很多传统行业的企业,电厂、化工企业、)台金企业也开始注意到数据分析的重要性,认识到数据管理需要一套可拓展系统。

国内开放数据缺乏法律依据

在涂子沛博士写的一本叫《大数据》的书中,主要介绍了美国政府开放数据的历程及其前景。美国政府的CTO把白宫、商务部行政预算管理局等多个部门的数据做了融合,并于2009年5月把相应的数据在Data.Gov网上进行了。尽管该做法在国际上得到了许多好评,英国也随后跟进。对于开放数据所产生的具体经济价值,陶波博士谨慎表示:“虽然没有看到具体的资料表明实际效果,但是我觉得这个数据(开放)是有好处的。”如果能看到近几年来人的年龄比例构成,就可以知道社会年龄结构的变化,或者是知道整体收入统计结果,将会有利于企业的产品规划。

在美国,对数据的管理和使用已经有较为完备的法律规范,例如常见的fact,即事实数据是没有版权的,任何人在任何地方都可以。但是在国内,开放数据这一方面走得比较慢,国务院只是在2008年推出了《政府信息公开条例》,并未上升为法律,效果一般。具体如遥感方面的数据,从国家层面来说,这些数据是否公开,怎么公开,仍不明确。“可能正是因为没有法律界定,使得政府部门无法开放这些数据。”陶波博士补充道。

罗克佳华大数据服务:从数据里面产生智慧

说到罗克佳华的大数据业务,陶波博士的语气变得有点激动,他说:“这会是将来我们非常重视的一个方向,因为在物联网应用里面,从数据里面产生智慧,我们认为会是一个非常重要的方向。”罗克佳华这几年在大数据方面发展比较快,已经推出了自己的物联网数据堆栈1.0(10T Data Stack1.0),它是一个软件。该数据堆栈大致分成五层,第一层是数据接入,适配于不同的物联网设备所产生的数据,下面两层分别是数据的存储和数据的管理,最上面两层是数据分析系统,针对不同行业的具体数据分析的应用。

这个数据堆栈1.0已经在一些实际的工作中得到了应用。数据堆栈1.0已成为解决方案的一部分,客户在实施罗克佳华提供的方案之后,同时可获得佳华云提供的公共线上服务。其中包含了从物联网设备把数据上传,最后形成数据分析和展示结果。

在罗克佳华的大数据分析、挖掘项目中一个实施周期并不长。在他们擅长的能耗监测里,通过在客户现场部署标准的端设备,一旦数据上线之后,客户的设备不用做大的改动就可以直接获得服务能力。由于采取了标准解决方案,所以项目实施非常快,小的案例一般一到两个月就能完成。

罗克佳华的大数据业务主要有两种服务模式,一种服务模式是客户在自己的机房里面运维数据堆栈系统。第二种是采用罗克佳华的云服务,客户不用建设整套系统,工作环境在罗克佳华的机房里面运营,并采用按月交费的模式。据陶波博士透露,中国的客户大部分还是宁愿自己掏钱买了软件,然后部署在自己的机房里。已经有几十家企业部署了罗克佳华的数据堆栈软件,主要为环保和煤矿企业,并且绝大多数是直接购买了软件自己运维。

上一篇:该轮到LBS上场了 下一篇:智慧城市建设目标与顶层设计概念辨析