阿里巴巴:数据派猛兽

时间:2022-07-29 05:12:20

阿里巴巴:数据派猛兽

硅谷创业教父保罗·格拉厄姆曾有句名言:“活在未来,再把缺失的做出来。(Live in the future, then build what's missing.)”它成为诸多企业竞相追逐的目标。但必须明白的是,要“活在未来”,首先得“看见未来”。

“要看见未来,大数据恰是最好的望远镜。”阿里巴巴集团商业智能部副总裁、数据委员会会长车品觉说道,正是因为有了大数据,才有了对过去和曾经的理解,有了对当下的判断和实时处理,最后才导出对以后和将来的认知。

近两年,阿里因为大数据而风光无限——淘宝、天猫等无限客户端快速优化,紧随移动互联大潮的脉动,而成立不足2年的阿里小贷更是异常耀眼,用0.78%不良贷款率和超快的贷款循环震撼着传统银行圈……

这些年,阿里拿着数据望远镜,不断窥见未来,将“缺失”的部分做出来,逐渐“吹尽狂沙见真金”,按照雅虎最新财报显示,阿里单季收入超17.37亿美元,较去年同比增长61%,净利润增至7.17亿美元,较去年同期上升145%。

显然,手握上百PB数据的阿里,经过大数据洗礼,正逐渐蜕变为一头“数据派猛兽”,也影响着整个电商生态的大数据体系。但在车品觉的眼中,阿里在大数据上八年铸剑,这不过才是开始。

从童蒙到精深

如歌德《浮士德》里土地之神吟唱道:“生潮中,业浪里……我架起时辰的机杼,替神织造生动的衣裳。”阿里编制大数据“生动的衣裳”始于2005年。当时,其下淘宝刚刚完成对易趣的逆袭,业务和品类快速扩张,数据量也随之跃升,淘宝开始意识到不能再拍脑袋做经营决策。于是,设立商业智能部,开始引入“数据分析师”职位。

“这个职位的设立,意味着一家企业开始正视数据了。”车品觉解释道,而阿里也终于拥有了自己第一款真正的数据产品“淘数据”,它是一份经营数据的报表,为各业务部门提供经营报表的检索、生成工具,从此,阿里有了各种界定公司运营的指标。

在车品觉眼中,这正是数据的本质,虽然“报表”的模式看起来十分基础。从基础的财务、运营数据开始,用什么样的数据体现什么样的价值,让什么样的人更明白什么样的决策,始终是大数据必须坚守的准则。

时至2009年,“淘数据”从一个内部报表系统跃升为内部数据统称。此时,商业智能部团队又开发出可以预警的“KPI系统”和提供给业务部门使用的“数据门户”。同时,阿里的对外数据产品也开始浮出水面。脱胎于“雅虎统计”的工具“量子恒道”为外部的商户提供了统计、分析自有店铺中的流量、点击、购买等数据变化的工具。

而到了2010年,淘宝推出了一款划时代的产品“数据魔方”。之前,阿里数据团队接到了宝洁公司的建议,对方希望对行业数据有所了解,其中一位员工提出,与其逐一为这样的大佬解决问题,不如直接产品化,以帮助商家经营决策。

就这样,阿里数据的价值开始从内而外,向整个生态体系延伸,阿里第一次向市场开放了全局市场数据。“数据魔方”后来成了众多大中型商户追捧的数据利器,甚至引来了诸多第三方机构参与阿里系数据的解读与分享,构建出电商最早的数据分析体系。

“分水岭出现在2011年。”车品觉解释道,那一年,马云提出了从“数据化运营”到“运营数据”。在此之前,阿里产生的数据都是“量”上的变化,但缺乏“质”上的提升,从未有人主动地想过,如果要指导阿里的运作,需要刻意收集哪些数据,收集到这些数据后,可能对企业产生怎样的影响,能否诞生出新的商业模式……也是在这一年,车品觉来到了阿里旗下的支付宝,着力于提升阿里在大数据分析上的“质”。

当时,支付宝高层手持报表,可以看到太多数据,可惜关联性不足,难以快速全局诊断;而另一边,则是一线运营总喊数据不够,获取数据的间隔严重,同样无法获得关联性。

于是,车品觉对症下药,做了两款产品,一款名为“观星台”,它表现为一个高度可视化的仪表盘,选择最关键的数据,让高管在几秒内能明了全局运营状况;另一款叫“地动仪”,可以让一线运营者看到当下用户投诉最多的功能是什么,甚至可以调动最原始的客服电话录音,及时发现和补救问题。

没过多久,车品觉转身进入淘宝,也开发了两款产品。一款“黄金策”,能够综合700多项变量进行叠加,数秒内可以就特定人群和特定应用场景行为的推导查询;而另一款产品“无量神针”则提供对淘宝数百万卖家的实时洞察,可以可视化图表直接提示可能存在的风险,每当数据“异动”发生,比如遭遇“恶拍”(网络“打手”买下产品,等产品上门后,以各种理由拒收,以此要挟“保护费”或打击竞争对手),就会及时向对应的运营者发出预警。

有基于此,阿里从大数据的童蒙摸索,到有方向的纵深挖掘,逐渐“玩”出了感觉。

玩转大数据“宝刀”

毫无疑问,远不止是阿里,当下,任何企业遇到难题时,都希望能通过大数据找到解决之法。这种“欲与关公借宝刀”的想法是很自然的,但要明白的是,要玩好大数据这把“宝刀”,还须有关公的臂力和技艺,而这些则需要在实践中不断磨练,阿里也不例外。

“你必须面对大数据的各种困境,寻求解决之道。”车品觉告诉记者。

首先,便是应对企业内部各方的需求。

一来,管理层对大数据有极高的期望,他们认为它应该对公司产生很大的价值;二来,中层管理者对大数据没有太多感觉,让他们突然去想数据这个事情,并不了解其中原委,他们只会说:“我根本不知道有什么数据可用”;如此,做数据的人会感觉到无力,因为他们所做的数据距离具体的商业场景“万水千山”。最终,三者都达不到自己期望的境界。

为此,阿里就必须琢磨着如何跨越后两者的“鸿沟”,从而达到管理层的期望。

按照车品觉的说法,这就需要专门的中间层人才,要么让业务中层去学数据的技法,要么懂得数据分析的工程师去学习业务,以此造就出中间层人才,让他们可以看到业务,马上在脑海中形成数据分析的构架,也能在看到数据后,感知到它对业务层面的意义,如此,他们在业务层、数据工作层之间充当“翻译”,进而弥合双方的信息不对称。现在看来,数据分析师学习业务,是更易行的方法,毕竟数据分析技术要求太高,学起来很吃力。

其次,要保持数据的“干净”,数据必须要经过“清洗”。

几年前,曾有一个用数据的分析师,找到数据收集部门,责怪他们更改了一个数据,却没有通知他,结果因为这个数据出错,造成一系列分析上的差池,而事实上,负责数据收集的人并没有想到自己对一个数据的处理会产生这样的“蝴蝶效应”。

不难想象,数据一旦被摆放出来,就可能为人所用,它可以来自于八个系统,二十多个开发组,其中任何一个数据“人为”或“非人为”的污染(采集错误或口径不同),都可能改变整组数据的“性质”,故而,所有数据必须被“清洗干净”。

为此,阿里集团内的数据大多都经过这般旅程——譬如消费者在淘宝上的一个收藏动作,产生一条数据,先在淘宝网的前端服务器上产生一条日志,这条日志随后被传送存储到专用的服务器上,其间经过淘宝团队的清洗。然后,在数据平台事业部的服务器上,这条数据将再被检查其日志格式是否正确,是否有过变动,为何变动……如此清洗后,它被编入数据库,接着与其他若干数据一同被分入分主题的数据集市。当分析师们进行数据挖掘时,它再度接受挑选,看其是否受用。

再次,则必须保持数据的快速更新,实时可用。

懂得数据仓库的人都明白,数据仓库里面的最大的瓶颈,一般都是IBM、Oracle、EMC(IOE)的商用系统构架。随着数据量的快速增加,阿里已发现这种传统数据库越发力不从心,越来越多业务部门的分析师发现他们早晨9点上班看数据时难以获得结果,而实际上,数据库的工程师们每晚忙到11、12点才能下班——越来越多的数据让传统商用机器难以按时计算完成。

由此,与大数据的裂变同步,原微软亚洲研究院常务副院长王坚出任阿里首席构架师,开始主导阿里从原来的IOE商用系统向Hadoop的分布式平台迁移,后者较前者不仅成本低廉,而且可扩展性极强,Google等互联网巨头都是采用此大规模计算体系。也是在此体系下,阿里才能实现全集团实时数据的打通、整合管理和共享。

基于此,阿里小贷才能玩得如此出彩,因为它能够对借贷者做实时的信用评分,五分钟之前的数据判断可能和五分钟之后大相径庭,由此,及时发现风险,将违约降到最低。与之类似,曾有客户的余额宝账号被盗,其中10万元被盗转,好在,基于实时数据分析的支付宝风控系统发现其中异常,硬是在数秒内拦下了其中的6万元。

总而言之,问题越多,磨练越多,横逆穷困恰是锻炼企业大数据能力的炉锤,能受其锻炼,则得益匪浅,不受其锻炼,则损失匪轻。这在大数据早入化境的金融业已被证明了太多次。

商业化的成本、收益

其实,无论用大数据提升效率,还是用它降低成本,总归是为了实现商业的增值,既如此,它也不得不按照商业的法则运营。

曾有人说,数据越多越全,分析就能越准确,但现实绝非如此。之前,车品觉与一些大数据玩家讨论,发现对方很少有人做过数据备份,因为本来只需要50台存储的,现在却要100台,成本倍增,根本不符合商业法则。虽然车品觉并不认同无备份的做法,但如何在数据存储和商业成本上平衡,却是不得不考虑的问题

更进一步说,半年前的消费者购买行为数据还有价值么?要知道这半年间,网页设计优化了N次,产品更替了N次,可点击的链接也变化了N次,原本的数据已经与当下的行为不存在联系,这样的数据已经失去挖掘的意义,经过检验后,就应当被放弃。而此时大数据的负责人也必须向老板解释清楚,它们不再是企业的资产,而是增加成本的负累。

而真正不能舍弃的,是那些“今日不收集,明日会后悔”的数据,或者是“下一小时,机房爆炸,一小时内必须备份”的数据,因此各种入库的数据必须被标明优先级,“高价资产”则必须被牢牢守住,为之投入存储成本,必定是物有所值。

另一方面,在此基础上,马云明确表态,“平台、数据、金融”是阿里的未来所在,2011年收购数据属性公司CNZZ,近期又接连收购友盟,入股新浪微博和高德,数据源头开始不断展开。甚至在物流体系中,阿里先是由天猫主导建设了与各大物流公司对接的“天网体系”,如今又出面牵头成立了全国智能骨干物流网络“菜鸟科技”,并提供物流信息数据平台。

显然,阿里在构建自己的“全息”数据商业平台,谋划大数据收益。

要知道,不同系统的数据产生不同的价值,但是总归是为了更好地了解用户。每个人在不同的平台反映出不同的侧面,而只有掌握了一个人在各方面的数据“碎片”,才能显示出一个人完整特征,激化出数据最大的商业价值,因此,阿里渴望以体系外的数据弥补自身的局限。

比如,在即将到来的“1111天猫购物节”,阿里就在投入3亿元红包,并通过社交网络分享。分享者仍将保留原红包,甚至有可能在共享之后,自己红包价值获得翻倍。由此,引入社交元素,对阿里而言,相当于投资3亿元的“石块”入“消费者”大湖中,观察其“涟漪”,明晰消费者“朋友圈”的关系,并能看出社交因素对网购的刺激效应。

就这样,阿里手中掌握的数据碎片越来越多,涉及互联网用户的方方面面,包括实体类商品消费数据、社交关联数据、金融相关数据等,其数据平台的商业化价值不断提升,或许在不远的将来,阿里会以自己的数据平台为中心建立数据交易中心。也就是说,谁想获得数据,上这个平台来,要么用货币来换,要么用数据来换。

眼下,如何成为一家彻底的数据公司,如何在内外提供数据价值,正成为阿里新的攻坚战。

从最初的用数据,到后来的“玩转”数据,再到现在的甄选、整合、激发数据,阿里不断在大数据中蜕变。值得强调的是,大数据对于任何企业而言,都不是“毕其功于一役”的魔法,而是不断学习、优化的过程,其前途不可限量,即便是阿里,现在也只是走到了“大数据的海边”,窥见的,也只是未来的一角。

上一篇:计算无处不在之下的骤变 下一篇:新影数讯 为电影“看病”