概率的五个常识

时间:2022-09-28 01:58:01

很久以前,美国一家媒体提出了一个有趣的问题,主持人指着三扇关着的房门对观众说:“每一扇房门后面都有一件东西,其中一扇门后面是汽车,另外两扇门后面各有一只山羊。你可以随意打开一扇,后面的东西就归你了(当然你最想得到的是汽车)。”当你选定一扇门,如1号门(但未打开),这时主持人让人打开了有山羊的另一扇门,假定是3号门,然后再给你一次机会,允许你改变原来的选择。这时,你为了得到汽车是坚持1号门还是改选2号门?

当问题及答案公诸于众后引发了出乎意料的轰动,大家给出了不尽相同的答案(当然正确的答案是唯一的)。此时,无论是1号门还是2号门,后面都有可能是汽车,看上去好像每一个都是一半的几率,但从主持人的角度看,他不会让你轻易就得到汽车,于是打开3号门来迷惑你,让你放弃1号门。由此看出,1号门后是汽车的几率会大一点。

如果能从主持人的话语中判断出他没有这种想法,则我们可以这样思考。将1号门看成一部分,里面有汽车的概率为0.33,将2号门和3号门看成另一部分,里面有汽车的概率为0.67。当发现3号门里没有汽车时,则1号门和2号门有汽车的概率分别为0.33和0.67。因此,选择2号门比较理智。

稍加留意你就会发现,如果利用概率统计提供的科学思维方法就可能大大提高获胜的几率。然而对日常生活来说,即使我们掌握了概率计算方法,也并不等于能真正理解概率。

随机:偶然错误不值得深究

概率论最基础的思想是,有些事情无缘无故就发生了。这个思想对我们的世界观具有颠覆性的意义。古人没有这个思想,认为发生的一切事情都是有原因的,甚至都是有目的的,但实际上真实世界充满了不可控的偶然。

如果一个人考上了好大学,人们会说这是他努力学习的结果;如果一个人事业成功,人们会说这是他努力工作的结果。可是如果一个人中了大奖,这又是为什么呢?答案就是没有任何原因,这完全是一个随机事件。

如果一个人总买,他中奖的概率可能会比别人大。但是当他跟数千万人一起面对这特定的一次开奖的时候,他不具有任何优势。中奖,既不是他自己有什么努力,也不是“上天”对他有所“垂青”。这是“随机”发生的,你没有任何办法左右结果。

大多数事情并不是完全的随机事件,却都有一定的随机因素。偶然和必然如果结合在一起,就没那么容易理解了。

体育比赛是最典型的例子。球队赢了球,人人有功;球队输了球,人人有责,里里外外都要进行反思。但比赛其实是充满偶然的事件,你所能做的只是尽可能地争取胜利。哪怕你准备得再好,总有一些因素是不确定的,也就是我们通常说的运气。

理解随机性,我们就知道有些事情发生就发生了,没有什么可供解读的意义。比如现代民航客机已经做得非常安全了,但再完美的交通工具也不可能百分百安全。那你会因为这极小的事故概率而不坐飞机吗?我们只要确定事故概率比其他旅行方式更低就可以了。

一般管理者有个常见的思维模式,一旦出了事就必须全体反思,制定相关政策以避免类似事故再次发生。但极小概率的事故其实是不值得过度反应的,哪怕是因为员工犯了错而引起的也没必要如此。37signals公司的两位创始人强调,不要一看到有人犯错就大张旗鼓地制定政策来纠正错误。那样只会把错误变成永久的伤疤,而且让公司越来越。正确的办法是告诉犯错的员工这是一个错误,然后就完了。

误差:测量结果并不是真实答案

既然绝大多数事情都同时包含偶然因素和必然因素,我们自然就想排除偶然去发现背后的必然。偶然的失败和成就不值得大惊小怪,我根据必然因素去做判断,这总可以吧?

可以,但是你必须理解误差。历史上最早的科学家曾经不承认实验可以有误差,认为所有测量都必须是精确的,把任何误差都归结于错误。后来人们才慢慢意识到偶然因素永远存在,实验条件再精确也无法完全避免随机干扰的影响。所以做科学实验往往要测量多次,用取平均值之类的统计手段来得出结果。

国际足联的世界排名就是根据各国球队多次比赛的成绩,然后采用加权平均的办法统计出来的。所以这个排名就比一两次比赛的胜负,甚至世界杯赛事的名次更能说明球队的实力。但即便如此,我们也不能说国际足联排名就是各个球队的“真实实力”。因为各队毕竟只进行了有限的多次比赛,再好的统计手段,也不可能把所有的偶然因素全部排除。

科学实验亦是如此。科学家哪怕是测量一个定义明确的物理参数,也不可能给出最后的“真实答案”――他们总是会在测量结果上加一个误差范围。真实的答案当然只有一个,它可以是这个误差范围内的任何一个数字,甚至可以是误差范围外的一个数字。

所以“真实值”非常不易得,而且科学实验是非常理想化的事件。世界上大多数事情根本没机会进行多次测量。如果只能测一次,那我们该怎么解读这一次测量的结果呢?根据以往的经验,我们可以估计一个大致的误差范围。

有了误差的概念,我就要学会忽略误差范围内的任何波动。2014年1月,国家统计局公布了2013年全国居民收入基尼系数为0.473,新闻报道说,该数据虽较2012年0.474的水平略有回落,但仍显示居民收入差距较大。这个“回落”有多大?0.001。从统计角度来说,这其实没什么意义。可能你的测量误差就大大超过0.001。

考试成绩也是如此,假设一个同学一门学科考了两次才过,第一次57分,第二次63分。他说这是略有进步,事实上这不叫进步,叫在测量误差范围之内 。

赌徒谬误:多次出现的号码不会再出现

假设你一个人在赌钱,比如玩。你一上来运气就不太好,一连输了很多把。这时候你是否会有一种强烈的感觉,你很快就该赢了呢?

其实这是一种错觉。开奖是完全独立的随机事件,这意味着下一把的结果跟以前所有的结果没有任何联系,已经发生了的事情不会影响未来。举一个简单的例子,假设瓶子里装着六个球,我们把它们分别编为1~6号,每次抽取一个作为中奖号码。每次抽奖的时候,这六个球被你抽到的机会是相等的,都是1/6。现在假设前面几期抽中6号的次数比2号多,那么这一次抽奖的时候,你是否就认为2号被抽到的机会更大呢?不会。这些球根本不记得谁曾经被抽到过,2号球也不会主动跑过来让你抽。它们被抽到的概率仍然都是1/6。

概率论中有一个“大数定律”说,如果进行足够多次的抽奖,那么各种不同结果出现的频率就会等于它们的概率――对上面这个例子来说就是,如果你抽取足够多次,你得到2号的结果数应该和得到6号的结果数大致相等。

但人们常常错误理解随机性和大数定律,以为随机就是均匀。如果过去一段时间内发生的事情不那么均匀,人们就错误地以为未来的事情会尽量往“抹平”的方向走。但大数定律的工作机制不是跟过去平衡,而是说如果未来你再进行多次抽奖,你会得到非常多的“2”和“6”,以至于它们此前的一点点差异变得微不足道。

曾经有自以为懂概率的人指出,“如果2号已经连续出现了3期,而6号也已经连续出现了5期,则下一次中2号的概率明显大于6号”。这其实是完全错误的,这就是著名的“赌徒谬误”,全世界的里每天都有人在不停地犯这个错误。

在没有规律的地方发现规律

理解了随机性和独立随机事件,我们自然就可以得到一个结论,那就是独立随机事件的发生是没有规律和不可预测的。

“分析学”是深受彩民喜爱的一门显学。这门学问完全合法地出现在各种报刊媒体上,认为的中奖号码跟股票一样,存在“走势”。它使用“双色历史号码”、“余数走势”、“五行码”等五花八门的数字曲线,以及“奇偶分析”、“跨度分析”、“大中小分析”等方法,帮助彩民预测下一期中奖号码。

这些分析跟赌徒谬误不同。赌徒谬误是认为前面多次出现的号码不会继续出现,而分析学是认为中奖号码存在“走势”,也就是多次出现的组合可能会继续出现,或者按照这个趋势可以预测出下一个号码。

但是我们知道中奖号码是纯粹的随机现象,根本没有规律。然而明明没规律,这些分析师到底是怎么看出规律的呢?

我上小学的时候,有一次数学课上讲到“素数”这个概念。老师列举素数时,班上一个同学突然非常兴奋地举手说:“我发现一个规律。”他说,“你看素数3、5、7、13、17、19……它们的结尾都是这几个数字。”他发现的这个“规律”其实是“除了2以外的素数都是奇数”。这的确是一个“性质”,但并不是真正的“规律”,因为你无法用它去预测下一个素数,比如9和15都是奇数,又符合这个“规律”,却都不是素数。

人脑很擅长理解规律,但是很不擅长理解随机性。发现规律任何时候都可以帮助我们更好地生存下去,而理解随机性却是只在现代社会才有意义的一个技能。

如果数据足够多,我们可以找到任何想要的规律,比如说圣经密码。有人拿圣经做字符串游戏,在特定的位置中寻找能对应世界大事的字母组合,并声称这是圣经对后世的预言。问题是,这些“预言”可以完美地解释已经发生的事情,等到预测尚未发生的事情时就没有那么好的成绩了。

无规律,圣经密码是无稽之谈,那么地震发生的年份有规律吗?

地震不是,并不是完全的随机事件。有些地区地震会比较频繁,我们大概可以知道平均每隔多少年就会发生一次。但是这样的“规律”是非常模糊的,就算是地震高发区也有可能连续好几年都不地震,不常地震的地区也可能一年发生好几次地震。

可是有一门学问却认为地震和各种自然灾害会严格按照某种数学规律发生,甚至还用研究数学――确切地说是用做数字游戏的办法去预测地震。这个方法叫做“可公度性理论”。其实这个理论跟地震没有任何关系,只是简单地把一些年份数字进行加减组合。

事实上,就算我们相信冥冥之中有一种神秘机制在左右地震,这个机制可以纯粹由数学决定而跟地质学无关,“可公度性理论”也是站不住脚的。这个理论根本就没有一个自洽的操作规则,对一次具体的预测到底应该采用什么数字组合,非常随意。

小数定律:小样本中的结果

我们知道,在数据足够多的情况下人们可以找到任何想要的规律,只要你不在乎这些规律的严格性和自洽性。那么在数据足够少的情况下又会如何呢?

人们抱着游戏或者认真的态度总结了关于世界杯足球赛的各种“定律”。比如“巴西队的礼物”――只要巴西夺冠,下一届的冠军就将是主办大赛的东道主,除非巴西队自己将礼物收回,这一定律在2006年被破解。另一个著名定律“1982轴心定律”――世界杯夺冠球队以1982年世界杯为中心呈对称分布,这个定律也在2006年被破解。“王治郅定律”――只要王治郅参加季后赛,八一队就必然获得总冠军,这也已被破解。还有一些没有被破解的定律,比如“凡是获得了联合会杯或者美洲杯,就别想在下一届世界杯夺冠”,以及“0∶2落后无人翻盘定律”。

如果你仔细研究这些定律,你就会发现不容易破解的定律其实都有一定的道理,王治郅和八一队都很强,0∶2落后的确很难翻盘,而获得世界杯冠军是件非常不容易的事情,更别说同时获得联合会杯、美洲杯和世界杯。但不容易发生不等于不会发生,它们终究将被破解。那些看似没有道理的神奇定律,则大多已经被破解了,之所以“神奇”,是因为纯属巧合。世界杯总共才进行了二十多届。只要数据足够少,我们总能发现一些没有被破解的“规律”。

如果数据少,随机现象可以看上去“很不随机”,甚至非常整齐,感觉就好像真的有规律一样。

1940年伦敦大轰炸,当时伦敦在德军V2导弹的攻击下损失惨重,报纸公布出标记了所有受到轰炸地点的伦敦地图之后,人们发现轰炸点的分布很不均匀。有些地区反复受到轰炸,而有些地区却毫发无损。

难道德军在轰炸伦敦时故意放过了某些地区吗?

对英国军方来说,这是一件非常恐怖的事情,因为这意味着V2导弹的精度比预想的要高得多,以至于德军可以精确选择轰炸目标。然而事后证明V2是一个精确度相当差的实验性武器,德军只能大概把它打向伦敦,而根本无法精确控制落点。也就是说伦敦各地区受到的轰炸完全是随机的。一直到1946年,有人从数学角度分析了轰炸数据,把整个可能受到轰炸的地区分为576个小块,发现其中229块没有受到任何轰炸,而有8个小块受到了4 次以上的轰炸。这些数据虽然不均匀,但完全符合随机分布。实际上科学家可以用计算机模拟的办法得到更多“看上去很不随机”的随机结果。

然而问题的关键是,随机分布不等于均匀分布。人们往往认为如果是随机的,那就应该是均匀的,殊不知这一点仅在样本总数非常大的时候才有效。如果统计数字很少,其中就很容易出现特别不均匀的情况。这个现象被诺贝尔经济学奖得主丹尼尔・卡尼曼戏称为“小数定律”。

大数定律是我们从统计数字中推测真相的理论基础,是说如果统计样本足够大,那么事物出现的频率就能无限接近它的理论概率,也就是它的“本性”。所以如果抽样调查发现一个地区某种疾病的发病率较高,我们就可以大致认为这个地区的这种疾病发病率真的很高。

而小数定律说如果样本不够大,那么它就会表现为各种极端情况,而这些情况可能与本性一点关系都没有。

上一篇:如何实现高级愿望 下一篇:马骞的检举信与七千人大会