蜈蚣博弈悖论的探析

时间:2022-07-09 06:27:50

摘要:逆推归纳法是博弈论中的一种重要的推理方法。但是,它的运用有时会背离了人们的直觉,造成了博弈理论推理与实际中人们的真实行动的不一致。这就是所谓的逆向归纳悖论,蜈蚣博弈悖论则是它的一个典型。本文揭示了逆推归纳悖论产生的根源是只重视眼前(短期)利益,而忽略了长远利益。即在眼前利益和长远利益的分析下,逆推归纳论是不存在的。

关键词:逆推归纳法 蜈蚣博弈 逆向归纳悖论

一、蜈蚣博弈悖论

博弈(game playing)的词语解释是游戏、围棋、赌博。博弈是指在多决策主体之间的行为具有相互作用时,各主体根据所掌握信息及对自身能力的认知,做出有利于自己的决策的一种行为。虽然,博弈的思想自古以来就存在,比如我国古代有名的田忌赛马的故事就是一个典型的博弈问题。但是,早期对博弈思想的认识仅仅停留在经验方面,并没有形成专门的理论体系。一直到20世纪以后,博弈才形成了自己的理论体系,正式发展成为一门学科,即博弈论(game theory)。博弈论是根据信息分析及能力判断,研究多决策主体之间的行为相互作用及其相互平衡,以使收益或效用最大化的一种对策理论。博弈论的研究方法是从复杂的现象中抽象出基本的元素(或概念),并对这些由基本元素构成的模型进行详尽分析,随后逐步引入对其形式产生影响的其他因素,从而分析出可能的结果。也可以说博弈论作为一种分析工具,为研究人类理提供了一种可行、通用的方法。目前,博弈论在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他一些学科中都有着广泛的应用。

悖论(paradox),也称逆论、反论,是指在逻辑上可以推导出互相矛盾的结论,但表面上却能自圆其说的命题或理论体系。悖论形成的原因极其复杂和深刻, 因此,对悖论的深入研究能够为数学、逻辑学、语义学等相关理论学科的进步和发展做出贡献。所以,悖论有十分重要的研究必要和研究价值。其中经典的悖论有罗素悖论、说谎者悖论、康托悖论等等。

逆向归纳法(backward induction),又称之为逆推归纳法,顾名思义,就是在序列中从最后往前端进行一种递归推理,是博弈论中的一种重要的推理方法。这种方法主要作用于对完全信息动态博弈的求解。它的运用虽然可以在众多的纳什均衡中确定唯一的均衡解,但是,有些时候通过逆向归纳推理所得到的关于博弈局中人的理论预测却出乎意料地背离了人们的直觉,造成了博弈理论推理和实际中人们的真实行动的不一致,这也就是所谓的逆向归纳悖论(backward induction paradox)。

蜈蚣博弈悖论(centipede game),简称蜈蚣博弈,就是逆推归纳法悖论中的一个典型。它是在博弈论及博弈逻辑的研究中发现的悖论,是由罗森塞尔(Rosenthal)在1981年提出的一个完全信息动态博弈问题,一种合理行为选择的悖论。由于这个博弈的扩展形态很像一条蜈蚣,因而被称为“蜈蚣博弈”。它是指这样的一个博弈:有两个局中人A和B,他们轮流进行决策的选择:可供选择的策略有‘合作’和‘不合作’两种。假定A先进行策略的选择,然后是B选择策略,这样交替的进行策略的选择。假定A、B之间的博弈次数是有限的,比如198次。假定这个博弈的各自支付给定如下图:

如图所示,只要A、B双方有一方选择‘不合作’策略,该博弈就结束。A、B双方在结束博弈后的得益为得益数组中的数字。所有得益数组里的第一个数字是局中人A的得益,第二个数字则是局中人B的得益。当A、B选择了198次‘合作’策略后的得益各为100。

但是,根据逆推归纳法分析这个博弈,在最后一步即第198步时,B在‘合作’和‘不合作’的策略中做出选择,根据理性人的假定,B会选择带来收益101的‘不合作’策略,以此往前一一递推。最后得出的结论却是:在第一步时A就会选择‘不合作’的策略来结束这个博弈。此时,A、B各自的收益都仅为1,这与正向推理时A、B各自的收益为100的结果完全相反,出现悖论。从逻辑推理来看,逆推归纳法是严密的,但结论却违反了人们的直觉。而且,在针对蜈蚣博弈进行的实验结果也表明,在绝大多数的博弈中,一般都不会出现由逆推归纳法所预测的局内人A在一开始就选择‘不合作’的策略结束博弈的情况。因而,人们在博弈中的真实行动偏离了运用逆推归纳法得出的预测,造成两者之间的矛盾和不一致,这也就是蜈蚣博弈产生的悖论。

二、对蜈蚣悖论的追问

究其原因,就引出了一系列的问题:为什么会出现蜈蚣悖论?产生蜈蚣悖论的原因是什么?是逆推归纳法出错了?是这个博弈本身有问题?是人们的直觉错误了?究竟哪个环节出错了?这些问题都成为人们不得不思考的问题。

当然,有很多的学者对此进行了分析和研究,试图来回答着一系列的问题。但是,由于每个学者研究的角度、方法不同,他们也得出了不同的结论:有的学者认为是逆推归纳法导致了这个悖论的产生,而且深入的分析了逆推归纳法的缺陷和适用范围;有的学者则认为是最初的“理性人”和“公共知识理性”的假定造成了这样的结果,并探讨了局内人的“理性”和“非理性”对决策过程和决策结果的影响;还有的学者认为是“信息”的不对称从而产生了这样的偏差,并阐述了信息的完整性对于局内人做出决策的重要作用;有的学者认为这个博弈反映的就不是悖论,所谓的蜈蚣悖论是不存在的。这些结论为我们进一步研究蜈蚣悖论提供了依据。

但是,如果从短期利益和长期利益的角度来分析蜈蚣悖论,就会发现所谓的悖论是不存在的,只是对短期利益和长期利益的不同考虑造成的结果不同而已。

三、眼前利益、长期利益的不同

根据逆推归纳法进行反向推理时,B选择‘不合作’的主要理由就是在第198步时,B选择‘合作’的收益低于选择‘不合作’的收益,即B只看到了眼前利益而忽视了长期利益。按照局内人对眼前利益的选择,并且假定局内人A、B都是‘理性人’,而且也知道对方是‘理性人’的情况下,我们从正向来推理这个博弈。

当A在做出第一步选择的时候就要考虑到自己的收益。那么,如果A选择‘不合作’得到收益为1,选择‘合作’后的收益就得由B下一步的选择决定。如果B选择‘不合作’,A的收益就为3,明显高于B选择‘合作’后的收益,那么作为‘理性人’的B肯定会选择‘不合作’,经过分析后,A不得不选择‘不合作’来保证自己的收益为1而不是0,博弈就会在第一步结束。那么,这个推理结果就会与逆推归纳法得到的结果一致,也就是局内人A、B只考虑眼前利益而且把眼前利益最大化的结果。

而且,整个博弈的过程来看,每次A选择‘不合作’时,A、B的收益是一样的,但是B选择‘不合作’时,收益就会比A多3,那么基于‘理性人’的考虑,B选择‘不合作’的概率就远远大于A选择‘不合作’的概率。但是B要得到选择‘不合作’的权利,却必须通过A选择‘合作’后才行,换句话说要得到多于A的收益必须建立在A选择‘合作’的基础上。可是,如果A仔细观察就会发现如果第一次选择‘不合作’时收益为1,如果选择‘合作’就等于把自己收益是1还是0的选择权交给了B。但是,B选择‘不合作’概率远远大于‘合作’,那么,最后A都会不得不选择‘不合作’来结束博弈,从而确保自己的收益与B的相同。即使在第一步就结束,各自的利益为1,也不给予B得到远远高于自己利益的选择机会。

再者,从上面的分析也可以进一步看到,局内人A看起来是拥有优先的选择权,但是从收益来看B的优势明显大于A。那么,作为‘理性人’的A为何要选择‘合作’来发起一个收益不如局内人B的行为呢?

但是,如果从长远利益的角度来分析的话,局内人A、B会尽可能的多选择‘合作’来增加各自的收益,因为他们看到当进行到第198步时,各自的收益均为100,这肯定是A、B都满意的结果。所以,在进行博弈的时候,A和B都会为了100的收益选择‘合作’,因为一旦选择‘不合作’博弈就终止了。每多选择一次‘合作’,他们各自的收益就会增加1,因此A和B都愿意‘合作’,而且是长期的‘合作’,直到各自得到最大的收益。这也正是这个博弈得以进行下去的主要原因,即A和B都基于对长期利益的考虑而展开‘合作’从而得到收益。但是,根据逆推归纳法分析这个博弈时,却只看到眼前利益的多少,没有考虑到这个博弈得以展开的深层次原因,所以得到的结果与现实情况和人们的直觉不同。

四、结论

因而,根本不是逆推归纳法出了问题,而是在进行反向推理时考虑的条件出了问题。也就是说这个博弈之所以能进行到最后一步A和B都是基于长期利益最大化进行的。如果局内人A、B都用每一步选择‘合作’或‘不合作’的收益多少作为考虑的话,这个博弈就注定只能是A在第一步时选择‘不合作’来得到各自相同且为1的收益来终止。

所以,这个悖论根本不能称之为悖论,仅仅是由于在反向逆推时以进行了错误的考虑,忽视了整个博弈得以进行的原因,从而得到与事实不符的结果。所谓悖论只是注重眼前利益还是注重长期利益的不同选择造成的不同结果而已,所以这个悖论是不存在的。

参考文献:

[1]张峰.逆推归纳法悖论探析[J].福建论坛(人文社会科学版),2004,12:78—81.

[2]张峰.蜈蚣博弈悖论引发的思考[J].湖南科技大学学报(社会科学版),2005,8(1):30—33.

[3].潘天群.博弈论中理性人假设的困境[J].经济学家,2003,(4)

[4]蒋正峰 逆向归纳悖论研究[D].华南师范大学 2003

上一篇:班主任如何建设一个优秀班集体 下一篇:浅谈社会主义核心价值体系在当今形势下的高校...