淘宝汪海:挖掘数据之美

时间:2022-06-16 08:21:36

淘宝汪海:挖掘数据之美

汪海是淘宝网数据的掌门人,公司内部人称“七公”,每天与网站新增加的7TB数据打交道。

谁能想到,汪海学的专业与数据分析丝毫不沾边,他也没想到会在淘宝网呆了6年。这是典型的IT工作狂,30出头,时常加班,并以此为乐,他放松的方式就是玩游戏。

可以说,淘宝网使汪海功成名就。而汪海不负众望,挖掘出网站的“数据之美”,将开放淘宝网的所有数据。

谁不想得到淘宝网的数据?但这些数据会给行业带来哪些变化?汪海又是如何进入淘宝网工作的,他如何看待这些数据?

泡论坛成才

汪海进入淘宝网的时候,该网站刚成立。汪海经朋友介绍,抱着“先呆着”的态度,在网站做DBA(Database Administrator,数据库管理员)。那是2003年,淘宝网处于创业阶段,工作多,累人。淘宝网没有什么硬性规定,可每个人工作都在12个小时之上,一周要工作6天。汪海回忆说: “入职当天就工作到晚上10点多才回家,不过感觉还挺好的,非常辛苦,也非常快乐。”

汪海印象最深的是,他有一次在机房连续呆了5天,终于在星期六下午做完工作,然后回家一觉睡到第二天中午才醒来。“那段时间真的非常非常辛苦,但是我又觉得没有任何不爽。”

汪海毕业于一所非著名学校,学的也是非计算机类专业。他的第一份工作是程序员,不过,干了两天,被辞退了。原因很简单,汪海拿着同学的程序面试通过,但在实践中被识破,老板直接让他走人。

当然,汪海的IT水平绝不至于那么差,他从小喜欢编程。在那一段没工作的日子里,汪海和计算机技术较上劲了,他游荡在各大专业论坛,“文字与代码齐飞”,与各版块技术“牛人”探讨数据库,还当了版主。“学术气氛非常浓,大家提的都是那种最难的问题,然后自己去思考,而不只是解决问题这么简单。”汪海说,“在论坛,我的水平提高非常快,现在阿里系里面的技术牛人也在里面。由于受到他们的影响,在我犹豫是否要出国留学的时候来到了淘宝。”

进入淘宝网之后,汪海不仅做DBA,也做基础架构、运维、开发等工作,只要是涉及数据平台的产品,他基本都碰过。“新的挑战可能更多的是技术以外的东西。”汪海喜欢挑战,不服输,就像泡论坛时的心态: “只有我教别人的份,没有别人教我的份。”他回头看自己成长过程时说,其实是不是专科毕业都无所谓,关键是要喜欢这个,肯花时间钻研,能够坚持下去,自然就能学好。

由于这种坚持和学习,汪海才拥有了Oracle全球ACE、2008年Oracle MAGAZINE全球年度IT Manager等荣誉。

云计算很必要

今年3月31日,淘宝首度面向全球开放淘宝数据,而汪海正是淘宝数据平台的掌门人。

汪海说,淘宝开放的数据有两种类型: 其一,通过“数据魔方”平台,商家可以直接获取行业宏观情况、自己品牌的市场状况、消费者行为等情况,但是不能获得竞争对手的数据; 其二,通过与第三方研究机构合作的方式,商家可以直接从研究机构获取服务。

淘宝网已经成为亚洲最大的B2B交易平台,每天产生的数据量高达7000GB。这些数据具有价值,大部分是由消费者、商家产生的,另外还包括物流公司和内部的一些信息等。采用什么手段解读这些数据?汪海打了个比方: “通常,面对小数据量,我们会用表格以及图表去解读。但一旦信息量很大的时候,这些手段远远不够。淘宝数据云组成的超级计算机可以在最短的时间内,产生可直接使用的商业数据,并且利用更直观的、可视化的图像为企业解读,帮助企业做出商业决策。”

以后,将会有很多电子商务企业通过淘宝网的数据受益。汪海强调,淘宝数据开放的“数据魔方”只是一个小水花,将来会有越来越多的开放政策,直至变成大海。

未来十年要“变成大海”,淘宝的数据开发还有很多事情要做。“从技术角度说,解读淘宝海量的数据规模,它需要一个极大的云计算平台做支撑,”汪海认为,“这是未来十年整个技术领域最具挑战性的。”

“说得直白一点,为什么要云计算?现在淘宝数据计算的挑战,就像20年前用一台60M硬盘、8M内存的286机器处理100G的数据那样,用户根本没有办法在单机或者小规模的集群条件下,实现这样的计算。云计算并不是一个虚无缥渺的概念,当用户真正要处理这么多数据时,才会理解云计算的意义。”

汪海说: “用一万台服务器来做并发计算和极其复杂的应用时,如何保证这些机器能够一起发挥作用?怎么能让其中的百台服务器断电了也不会影响整体运算?怎么让程序员不需要写复杂的并行算法就可以实现分布式并行计算?这些都是云计算平台需要解决的问题。怎样均衡分布数据,怎样协调各个服务器之间的网络,怎么协调各个机器的进程和资源,都很复杂。并且,用户在一个跨机器、跨机房的分布式环境去实现这样一个目标,这更具有挑战性。”

但汪海喜欢挑战,沉溺于技术的感觉,不断追逐新技术的变化,都让他欣喜。

拥抱变化

马云喜欢用武侠小说人物的ID给同事命名。汪海挑了“七公”这个ID。他说,现在有人叫他本名,已经不习惯了。在公司内部,大家都叫他“七公”。汪海也喜欢武侠小说,也觉得自己的性格就如洪七公那样,随性。

如果从帮派的对比来说,在小说里,洪七公统领的丐帮是天下第一大帮派; 在现实中,汪海领衔的淘宝数据平台,也是中国最庞大的数据资源。这两个团体,不管是虚拟的丐帮帮众还是现实中的淘宝数据,作为个体他们并不起眼,但众多个体被领头人汇集在一起之后,其力量真正是“随便跺下脚,整个武林都会晃荡。”

掌握这样的巨大资源,可汪海就像洪七公那样,现实中是一个既不热衷规划、对已经达成的目标也没什么感觉,同时又相当懒散的游戏宅男。他的关注点不在过去而在于未来,不在成绩而在于挑战: “数据会成为淘宝未来非常核心的部分,这也就是我的下一个目标。”

汪海说: “我这个人比较容易接受变化,觉得任何变化都是一种财富。一旦适应了这种变化,就具备了可以处理这种事情的能力。”这就是汪海一直呆在淘宝的原因。

同时,“拥抱变化”是淘宝网的六大价值观之一,这家公司永远都不缺乏变化。“淘宝有很多的工种可以换,所以还是有很大的提升空间在里面。”汪海拿自己举例说,“每一次换工种都会遇到一个新领域,自己会觉得,随着每一次的技术改造,自己的眼界越来越宽,到最后会发现眼界是与全球同步的。”这一点,可以说是汪海在淘宝网最大的收获。

链接

汪海寄语技术新人

1.作为新人一定要谦虚。很多事情关键是要有行动,少空谈,多干实事。新人要放低姿态,用空杯心态去学习。

2.学会忍耐,耐得住寂寞。技术人员做的都是些幕后工作,只有能耐得住寂寞和枯燥,才能独立思考,成为行业内有影响力的人。

3.培养开放和分享的心态。如果抱着保守和封闭的心态,成长肯定受阻。

4.要学会利用公司资源。新人可以和各个方面的优秀人才合作,可提升的空间是无穷的。

上一篇:存储进入“动车时代” 下一篇:AOC 显示器越看越精彩