小数据企业的大数据时代

时间:2022-05-04 03:21:28

小数据企业的大数据时代

大数据业已成为管理界的时尚元素。然而,在大数据的盛宴中,谷歌、脸书的成功案例却如同鱼翅、鲍鱼一般难以进入寻常企业,大部分国内企业对大数据还是丈二和尚摸不着头脑。如何在技术、预算、人才的多重制约下,揭开大数据的神秘面纱,应用现有资源做好大数据管理是真正需要关注的问题。

大数据时代并非“忽如一夜春风来”,其理念在信息时代以前就有成功应用,只不过随着技术手段的不断成熟,现在实现起来更加容易。事实上,美国职业篮球联赛(以下简称NBA)从1980年代起使用的数据管理技术就是大数据的雏形,经过近30年的积累和完善,为我们提供了成熟的大数据管理经验,非常值得借鉴。也许有人会质疑,NBA一共只有30支球队,每支球队每年才打82场常规赛,其蕴含的数据甚至比不上谷歌一分钟的搜索量,NBA真的有大数据吗?归本溯源,还是要从大数据的概念入手。按照畅销书《大数据时代》对大数据的诠释,这个“大”并非必须是太字节(240字节)的数据,“大”取的是相对意义而不是绝对意义。

笔者尝试将此书中对大数据的概念总结为一个前提、三大特点和一个目标:

前提:一切都是数据。

特点一:向抽样说不。

特点二:向完美主义说不。

特点三:向因果关系说不。

目标:替人脑做不擅长的工作。

下面将以NBA的数据管理经验为例,对其进行诠释。

相信没有人会否认,将事件转化为数据是大数据管理的前提。NBA比赛是球员和球的运动,如果不转换成为数据就只是录像资料,靠人工反复回看提取资料效率很低,必须对比赛进行拆解、定义、记录,将其转换为数据才能进行处理分析。

拆解:将运动员的动作进行层层分解,变成尽可能小的单元,如将运动员场上行为先分为进攻、防守,再将进攻分为有球进攻和无球跑动,再将有球进攻分为运球、投篮,再将投篮分为上篮、中投、远投。拆解类似于巴巴拉 ・ 明托在“金字塔原理”中提出的MECE(即Mutually Exclusive Collectively Exhaustive),中文意思是“互斥,完全穷尽”,“相互独立”意味着问题的细分是在同一维度上并有明确区分、不可重叠,“完全穷尽” 则意味着全面、周密。

定义:每一项拆解后的动作均有相对准确的定义,明确内涵和外延。如篮板球就是投篮不中后抢到并且控制住球的行为,碰到球但是未能控制住或者直接碰出界的球不算有效篮板。定义准确可以确保拆解出来的元素具有明确的含义。

记录:将拆解后且有准确定义的行为编码为数据储存起来。NBA记录了球员在比赛中的上场时间、得分、篮板、抢断、盖帽、失误等一系列基础数据,并且放在公开的数据库里,可供任何人随时查询,这也是NBA进行决策的依据。现在的存储成本几乎已经低到了可以忽略的程度,随便一块硬盘都是以TB为计量单位,更不要说日趋成熟的云技术。编码过程相对复杂,以往NBA使用人工进行记录,每场比赛都会有若干工作人员全神贯注地记录每一个细节,而现在使用了SportVU系统,这个系统将最先进的导弹追踪技术引入NBA,通过在球场架设的多台摄像机全面收集数据,用电脑自动将比赛过程的每个细节转化为数据存储,节约了大量的人力成本。

有了拆解、定义、记录的方法,可以将绝大多数企业中的绝大多数事件和行为转化成为数据,也就有了实施大数据管理的基础。其中,拆解和定义环节只需要熟悉本行业的流程就很容易实现,科学管理的先驱泰罗在20世纪初就将工人搬运等动作成功转化为数据。最大的难题还是出在记录环节,靠人工记录一组搬运的数据不难,但是仅凭人工记录所有搬运数据显然是天方夜谭。我们必须承认,即使是现在的科技也不可能记录编码所有行为,但在技术的帮助下可以做得更好。例如可以完善现有的IT系统,使系统可以记录更多信息。以餐饮行业为例,基本每个餐厅都有点菜系统,通常只具备简单的计算功能,可以进行技术升级以记录更多信息,例如可以增加数据存储字段记录顾客点菜时间和结账时间;可以通过与会员卡绑定记录顾客消费行为和消费习惯;可以分解记录每位服务员的服务业绩;可以记录菜品投诉和退菜情况事实上只要多花些功夫,仅仅投入不大的成本就可以在现有技术条件下收集到更多的数据,对于无法完整转化的事件和动作,可以选择暂时搁置或者等待技术完备时再进行记录(可以预计,动作识别和语音识别的低成本化指日可待)。

特点一:向抽样说不

――但求广度的非抽样整体数据采集技术

所谓抽样就是全体中抽取一部分样本,其基本要求是要保证所抽取的样本对全体具有充分的代表性,即要确保样本有和全体一样的特性。在计量成本很大,技术达不到的情况下,抽样是无奈之举,但如果能够低成本高效率的统计全体数据,抽样就是画蛇添足。而且由于抽样技术本身的制约及随机性因素,抽样很容易出现以偏概全的问题。在迈克尔 ・ 刘易斯的《点球成金》(Money Ball)中,传统的棒球球探通过观察球员在部分场次比赛是否有诸如本垒打之类精彩发挥来评估球员,以往的NBA选秀(从大学、高中或海外选拔新球员)也依靠球探的主观印象,这就是典型的通过抽样来评估球员的手段。体育运动的特点决定了,个人状态很大程度影响一场或者几场的发挥,如果球探看到的比赛正好是某位球员手感爆发或者手感冰凉,那么就难免会出现偏见。

企业中的管理者评估人员、事件都会不知不觉地用到抽样的方法,其中也存在了大量的偏见。比如近因效应使员工年末表现影响其年度考核,比如某个很小的突发事件影响到全局的决策,这些不自觉的抽样导致了偏见的产生,甚至形成管理上的“迷信行为”。

因此,这就需要在收集数据的层面尽可能完备,追求数据广度,在技术上能实现、成本可控制的前提下,将尽可能多的数据记录下来,至于这些庞杂的数据是否真的“有用”不要由人脑来判断,而要交给计算机来分析,很可能最不起眼的信息反而与结果的相关性最大。

例如消费科学教授迈克尔 ・ 韦德尔研究发现,之前有些人总认为产品上的图片越大越好(一些抽样问卷调查容易形成这样的偏见),但通过眼球跟踪技术,则发现由于人脑对图像处理的能力很强,因此图片尺寸的作用并不大。

大到跨国公司,小到街旁小铺都可以在不抽样的前提下记录整体数据。大企业的例子比比皆是,就不再赘述。以小便利店为例,原来只能通过抽样调查统计客流量,而安装一个摄像头就可以通过软件统计所有客流;原本需要做客户调查才能了解会员偏好,现在只要通过会员卡号中记录的消费记录就能掌握客户信息。管理者应该清查一下自己手中的数据,哪些是抽样获得的不靠谱数据,是时候将这些数据替换为整体数据了。

特点二:向完美主义说不

――兼收并蓄、不求精确的模糊数据管理技术国内一直流行将一些概念无条件的放大,比如所谓“细节决定成败”就荼毒了相当多的管理者,一味追求每个细节都无比精确。殊不知,细节是个双刃剑,盲目追求精确势必造成成本(财务、时间、管理)飙升。

大数据管理要求数据尽可能多,而不太在乎是不是每个数据都精确,甚至乐于从错误的信息中获取价值。

NBA的数据管理从未也不可能做到精确,在高速运动下即使是计算机也很难确保不出错。比如,两个本方球员同时伸手将球碰出界,记录这个失误数据到底算到哪个球员身上,势必存在误差。如果一定要闹个明白,必然耗费大量时间和精力,得不偿失。而且NBA很多数据都依赖于裁判,比如犯规数,裁判依靠眼睛判断如此高强度高对抗的比赛,犯错误的概率非常高,数据必然不准。但在大数据的概念下,这些误差放在某个运动员一年甚至整个职业生涯中反而不会对数据分析结果有任何影响。

企业应用大数据管理,一定要在可以容忍的范围内允许瑕疵的存在,避免因噎废食。举个虚拟的案例,一家银行要记录客户办理业务平均等候时间,通过计算客户拿号时间和办理业务时间得到。这个银行的管理者开始思考,如果有个别客户拿错了号怎么处理;如果有个别客户拿了很多号会不会虚增了办理业务时间;如果叫号机和系统时间不同步怎么办。相信如果这位管理者一直纠结于这些细节问题,总在完善统计过程,那么永远也不会得到数据。只要不是系统问题,个别小的误差,在大数据量的前提下,对于决策的影响是微乎其微的。战胜完美主义的心魔,容忍不那么完美的数据才能够用好大数据。

特点三:向因果关系说不

――忽视因果、重视关联的数据分析技术

从认知的角度讲,人类非常喜欢因果关系,为了解释错综复杂的外界环境,必须建立高效简洁的知识体系。因为看见乌云密布狂风大作,出门就一定要带好雨具,否则就会被雨淋;如果触碰电源就会被电击。人们通过传承掌握因果知识体系,省去尝试而造成的风险和成本。因此,总结因果规律是人类得以传承繁衍的本能。但是,随着科学的发展和社会复杂程度升高,这种因果关系受到了越来越多的挑战,量子物理的“测不准原理”等研究使我们不得不重新认识这个世界;经济领域突然出现的股市崩盘和经济危机几乎很难被预测,只有事后诸葛亮式的说法层出不穷;人们的行为更是难以预测,所谓经济学的“理性人”假设只会出现在学术论文中;企业管理更是如此,只要实施诸如六西格玛之类的管理项目就必然导致绩效提升的因果关系根本不可能实现,只是一些CEO忽悠投资者的法宝和咨询公司欺骗企业的灵丹妙药。

在哲学界和科学界,卡尔波普尔打破了对以往绝对真理(其实就是有因必有果的决定论)的普遍至信,承认随机的重要性,主张试错和证伪。但是,大范围的试错成本太高,无法替代低成本的因果关系带来的便捷,所以在信息科技成熟以前,因果关系始终在决策中起到主导作用。飞速发展的大容量存储和云计算技术终于可以从因果关系的垄断中分得一杯羹了。

在因果关系时代,NBA评估球员的标准是跑得快、跳得高、投得准等等,一般的因果关系假设,这方面出众的球员就能在比赛中表现出色。而通过数据分析,NBA有了很多新的评估手段,打破了这种因果关系。比如有一项数据反映球员在场上时双方得分对比、球员不在场上时双方得分对比。某球员个人能力超强,在场上得分如探囊取物,但上述数据却显示他在场上时对方得分更多;反之,有的球员跑得不快、跳得不高、投得不准,但只要他在场上,全队得分比对方高,这显然不符合因果关系的逻辑,甚至要想分析原因进行倒推都几乎是不可能的,因为原因也许非常复杂:有可能是他和队友私下关系不好,导致士气受损;有可能是他防守能力差,使对位的对方球员得分变得容易;有可能是他和某个队友位置重叠,无法充分发挥甚至可能是不同因素叠加而成。教练在决定球员上场时间时,根本没有时间考虑这么多的因果关系,只需要根据数据分析的结果,让能够使球队得分更高的球员多上场就可以了。

取代一部分因果关系的工具就是不同数据之间的相关关系,数据告诉我们个别球员上场时间和球队得分之间存在关联,也许数据还会告诉我们,球员身高体重比和球员三分命中率相关,球员英俊程度和抢篮板的能力成反比(后面仅是假设)。

通过大数据找到意想不到的关联有三个必要条件。

首先,不要在分析或者收集数据过程中有任何偏见或者假设,避免在收据收集过程中就带有偏见,只收集部分感兴趣的数据。

其次,使用计算机对各组数据进行交互相关性分析,这里涉及统计学和计算机知识,不过可能只要招聘一个计算机专业的研究生就能胜任。也许有人会问,这么多组数据,相互做相关性分析,排列组合的数量也很大,是不是会花很多时间。其实并非如此,现在计算机的处理速度足以完成这些运算,即使数据量大,也可以使用云计算提高效率。

相关性有一个特例就是加入时间轴,分析数据变化趋势。NBA将球员和球队每场比赛的数据记录以后自然形成了一系列数据,通过对一段时期中比赛的数据分析,就很容易看出球员各种表现的发展趋势。分析变化趋势的目的是预测和辅助决策。某个球员如果近期表现大幅提升,球队就会考虑增加其上场时间,让他发挥更大的作用。如果某个球员三分球命中率持续上升,球队就可能专门为这个球员布置三分球战术。而球员单场的灵光一现,往往不会促使球队做出类似的决策。

将时间加入到相关性分析中也很容易应用,毕竟时间这个信息是最容易记录的。还以餐饮行业为例,将每天不同菜品的数据进行记录,就形成月度、季度、年度数据,可以判断每个菜品在不同季节的销量;菜品是否存在明显的淡旺季;某些菜品是否已经不再流行等等。从而在原材料、营销策略等方面做出调整。

再次,找到相关性后不刻意解释为什么会出现这样的相关,避免再度陷入因果关系的魔咒中。

目标:替人脑做不擅长的工作

――自然而然地使用相关性预测未来

有了相关性分析的结果,做决策并不是一件太难的事,因为计算机已经做了90%的工作。

以NBA为例,无论是球员转会、教练布置战术、临场指挥甚至商业决策全都依靠这些数据,投资者、球队、教练、球员、媒体、球迷都可以从数据中取得自己需要的内容。假如一个球队主力控球后卫受伤需要一名新的控球后卫,那么用什么指标来选择呢?控球后卫是场上的灵魂,主要负责运球和组织全队进攻,可以理解为给全队输送炮弹的人,评价控球后卫是否能够带动整个球队就非常重要,通过数据分析控球后卫得分、篮板球等指标与成功带动全队进攻相关性不强。而助攻(球传出后队友可以直接得分)/失误比才是真正关键的数据,也就是为队友制造机会的成功率。使用这一指标作为选择控球后卫的KPI就避免了某些后卫盲目传有风险的球,一味提高助攻数量刷数据。2012年美国体坛风云人物林书豪在爆发期间一直被专家诟病的一点就是失误太多,所谓成也萧何,败也萧何。2012-2013赛季截至2月3日,林书豪的助攻失误比仅为2.0,也就是说每送出两个助攻就要伴随一次失误,而顶级后卫保罗的数据,助攻失误比为4.6,超出林书豪一倍,显然更为出色。

在《点球成金》一书中,使用数据作为选人基础的奥克兰运动家队,用最小的投入换取最大的收益,打败了依靠经验选人的很多财大气粗的传统强队。如今,包括NBA的美国职业体育界已经将数据作为决策最重要的依据,球员打完比赛第一件事是看比赛的技术统计,教练依靠数据决定战术和球员上场时间,球队依靠数据交易球员,联盟依靠数据安排比赛日程,比如重大节日往往会上演收视率高的强队对决。

数据是决策的辅助工具,但是绝不可能完全替代人类智慧。纵使NBA的数据管理如此完善,做出最终决策的还是一个个活生生的人而不是冷冰冰的计算机,因为数据不会设计出有创造力的战术配合,不能进行临场指挥,更不会提升球队士气。企业管理也是如此,数据作用再大也只能是管理者的助手。

数据能预测大多数表现,但是人类不能成为数据的奴隶,从哲学角度讲,再大、再完美的数据也只是更加完善的归纳法而已,对于随机出现的黑天鹅事件无能为力。有了大数据,并不代表解放了人类的大脑,大数据是人类走向完美决策路上的一个工具,合理分配人脑和数据在决策中的比例尤为重要,既不能完全依靠所谓以经验和认知为基础的人脑,也不能盲从于循规蹈矩的电脑,让人类的创造力与电脑的存储和计算能力相结合才能做出更加完美的决策。

上一篇:华尔街的应聘往事 下一篇:上市公司会计舞弊识别与对策研究