博弈最优策略范文

时间：2023-10-15 21:05:21

博弈最优策略篇1

【关键词】博弈论；非合作博弈；纳什均衡；应用

文章编号：ISSN1006―656X（2013）12-0043-01

一、博弈论的概述

博弈论（game theory），又称对策论，是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题，也就是一些个人或组织，面对特定的环境条件，在一定的规则约束下，同时或先后，一次或多次，从各自的行为或策略中进行选择并加以实施，各自取得相应结果的过程。

一个完整的博弈一般包含几个要素：参与者，行动，策略，结果，均衡等。参与者、行动和结果统称为博弈规则，博弈分析的目的是使用博弈规则来决定均衡。但是，博弈的行动不等同于博弈的策略，博弈的结果不等同于博弈的均衡。根据参与人的数量，可分为二人博弈和多人博弈；根据参与人是否合作，可分为合作博弈和非合作博弈；根据博弈结果的不同，可分为零和博弈、常和博弈和变和博弈。

博弈论对我们的经济生活有重要意义，人们之间决策行为相互影响的例子有很多：从国家角度出发，在国际贸易中合理运用博弈论可使本国和其他国家都受益，取得双赢效果；从个人角度出发，在生活中合理运用博弈论可使自己选择最优策略，减少不必要的成本开支。

二、非合作博弈――纳什均衡

非合作博弈是指不允许存在有约束力协议的博弈。完全信息静态博弈属于非合作博弈，该博弈中，每个博弈方的策略都是针对其他博弈方策略或策略组合的最佳对策，具有这种性质的策略组合，正是非合作博弈理论中最重要的一个概念“纳什均衡”。

用表示一个博弈，如果有个博弈方，每个博弈方的全部可选策略的集合称为“策略空间”，用表示；表示博弈方的第个策略，其中可取有限个值（有限策略博弈），也可取无限个值（无限策略博弈）；博弈方的得益用表示，是各博弈方策略的多元函数。个博弈方的博弈常写成。在博弈中，如果由各个博弈方的每一个策略组成的某个策略组合中，任一博弈方的策略，都是对其余博弈方策略组合的最佳对策，即

，对任意都成立，则称为的一个“纳什均衡”。

纳什均衡的求解，常采用得益矩阵法。在囚徒困境中，每个参与者都能猜出对方策略，称该纳什均衡为纯策略纳什均衡。囚徒困境问题反映了非合作博弈的根本特征，体现了个人理性与集体理性的矛盾。两寡头企业选择产量的博弈就是囚徒困境问题在经济学上的应用。若两企业联合形成卡特尔，选择垄断利润最大化的产量，每个企业都能得到更多利润。但卡特尔协定不是纳什均衡，给定对方遵守协议，每个企业都有增加产量的冲动，最后每个企业只能得到纳什均衡产量的利润，它严格小于卡特尔产量下的利润。

在某类博弈中，每个理性人都不能猜出对方的策略，参与人是以一定的概率选择某种策略的，这样的策略称为混合策略，相应的均衡称为混合策略纳什均衡。纯策略是混合策略的特例。相关的例子有日常生活中的打扑克、划拳等。

三、治理河流污水排放的制度设计

环境保护，人人有责，限制企业的污水排放符合社会各界的呼声。检查和制止排污是政府的职责，对于以利润最大化为目标的企业，其一直采取各种措施尽可能降低生产成本。政府和企业间的关系可用经济学中的监督博弈来解释。

该博弈的参与者是政府和企业，政府的策略选择是检查或不检查，企业的策略选择是排污或不排污。假设是企业治理污水（不排污）增加的生产成本，若排污，为自己多得的收益。是政府检查所需成本。是政府对企业排污的罚款金额。是企业排污对社会利益的损害。假设且，即政府对排污企业采取重罚措施。对应不同策略组合的得益矩阵可见下表。

政府和企业的得益矩阵

在以上假设条件下，政府和企业都猜不出对方会采取何种策略，因而不存在纯策略纳什均衡，只能求解混合策略纳什均衡。如果假定条件不成立，通过劣策略剔除可得到占优策略，即（检查，不排污）或（不检查，排污）为占优均衡。

在得益矩阵中，用表示政府检查的概率，表示企业排污的概率。给定，政府检查和不检查的期望收益分别为：

由，得。即如果企业排污概率小于，政府的最优选择是不检查；如果大于，政府的最优选择是检查；如果等于，政府随机地选择检查或不检查。

政府的最终目标是降低企业排污概率并保护环境。据的结果，有两种措施：一是增大分母，即采取重罚措施，使企业平日不敢排污；二是减小分子，即降低检查成本。现阶段可行做法是设立举报电话，避免政府盲目检查，提高办事效率。

再者，给定，企业选择排污和不排污的期望收益分别为：

由得，即如果政府的检查概率小于，企业的最优选择是排污。现实中，政府对排污的惩罚越重，企业因排污获得的收益越低，企业的排污概率就越小。反之，企业的排污概率就越大。

企业因排污获得收益的大小，政府难以准确把握。前面谈到的企业都是以利润最大化为目标的企业，适于民营企业。现实中大多排污者是国有企业，这就涉及企业经营的控制权收益问题。企业因排污获得的生产成本降低部分可以很容易转化为企业经营者的控制权收益，这些收益包括奖金、福利或者因企业效益上升而带来的升迁机会。反过来，如果企业因为排污而受罚，经营者并没有控制权损失，因为罚款由企业出，经营者只是没有控制权收益而已。

四、小结

本文以纳什均衡为理论基础，分析了纯策略纳什均衡和混合策略纳什均衡在经济生活中的应用。但本文探讨的只是博弈论中一个很小的方面，对均衡问题中的子博弈精炼纳什均衡等没有涉及到，但它们的应用也很广泛。在日常经济生活中，小到购物时的讨价还价，大到企业间的竞争与合作、国家间的倾销与反倾销等，都可归结为博弈问题。

参考文献：

[1]彭祥，胡和平.黄河水资源配置博弈均衡模型[J].水利学报，2006，（10）.

博弈最优策略篇2

[关键词]博弈论经典博弈模型博弈行为博弈决策

“博弈论”原本是数学的一个分支，但由于它较好地解决了对竞争等问题的可操作性分析，成为经济学中激荡人心的一个研究领域。可以说，“博弈论”已经改变了经济学的传统轮廓线。从对“博弈论”简要、通俗的介绍中可以发现，我们身边充满了博弈，或者说，我们身边的许多行为、现象都可用博弈来概括。“博弈论”不仅属于经济学，也理应属于社会学、政治学、心理学、历史学等，这些学科也有理由分享“博弈论”那旖旎的学术风光和精细的分析技巧。“博弈论”的英语原文是Game Theory，直译过来就是游戏论、运动论或竞赛论。譬如在足球比赛中，双方都想在努力巩固防守的同时，积极进攻以置对方于“死地”。这种行为就是一种博弈。“弈”在汉语中是下棋的意思，下棋中的双方行为特征也如同足球比赛中双方的行为。当然，扩展开来讲，企业之间的竞争、国家之间的角力等等，都是“游戏”，只是游戏的内容不同而已。

一、博弈简介

“博弈论”就是分析博弈行为和博弈决策的一门科学。

今年的诺贝尔经济学奖，已于前不久为“博弈论”研究专家罗伯特・奥曼和托马斯・谢林所获得，1994年度和1996年度的诺贝尔经济学奖，也分别由纳什、泽尔滕、海萨尼、莫里斯和维克瑞等“博弈论”专家分享。如此众多的“博弈论”研究专家的频频获奖，凸现了“博弈论”在主流经济学中日益重要的地位。

“博弈论”原本是数学的一个分支，但由于它较好地解决了对竞争等问题的可操作性分析，成为经济学中激荡人心的一个研究领域。可以说，“博弈论”已经改变了经济学的传统轮廓线。

我国古代有个“田忌赛马”的故事，说的是齐威王与大将田忌各出三匹马，一对一比赛三场，由于齐威王的最优、次优和较差的三匹马分别跑得比田忌的三匹马快，所以田忌总是以0∶3告负。后来田忌的谋士孙膑给田忌出主意，让最差的马去与齐威王最快的马比，而让最优的马去赢齐威王次优的马，让次优的马去赢齐威王最差的马，这样便以2∶1取胜。但我们还可进一步设想，如果齐威王知道了田忌的花招后，便会在以后的比赛中也更改出马的次序，当然田忌的出马次序也应改动。双方的出马次序怎样才是最合理的呢?这便是“博弈论”更深一层次研究的问题了。

二、一个非技术性的定义

博弈即一些个人、队组或其他组织，面对一定的环境条件，在一定的规则下，同时或先后，一次或多次，从各自允许选择的行为或策略中进行选择并加以实施，各自取得相应结果的过程。从定义我们可以看出，规定或定义一个博弈需要设定下面四个条件。

1.博弈的参加者。即在所定义的博弈中究竟有哪几个独立决策、独立承担结果的个人或组织。

2.各博弈方各自可选择的全部策略或行为的集合。即规定每个博弈方在进行决策时，可以选择的方法、做法或经济活动的水平、量值等。

3.进行博弈的次序。在现实的各种策略活动中，当存在多个独立决策方进行决策时，有时候需要这些博弈方同时作出选择，以为这样能保证公平合理，而很多时候各博弈方的决策又有先后之分，并且有时一个博弈方还要作不止一次的决策选择。

4.博弈方的得益。对应于各博弈方的每一组可能的决策选择，都应有一个结果表示该策略组合下各博弈方的所得或所失。

以上四个方面是定义一个博弈时必须首先设定的，确定了上述四个方面就确定了一个博弈。博弈论就是系统研究可以用上述方法定义的各种博弈问题，寻求在各博弈方具有充分或者有限理性、能力的条件下，合理的策略的选择和合理选择策略时博弈结果，并分析这些结果的经济意义、效率意义的理论和方法。

三、博弈的结构和博弈的分类

由于博弈研究的问题多种多样，因此博弈模型相互之间的差别可能会很大。这些差别可以理解为都是博弈问题的结果差别。当博弈结构有差别时，博弈的结果和分析方法往往也有不同，因此对博弈的结构特点有所了解是很有价值的，在此我们提出博弈论问题的分类和博弈理论的结构。

1.博弈中的博弈方：博弈中独立决策、独立承担博弈结果的个人或组织为博弈方。因此我们把博弈方分为“单人博弈”、“两人博弈”和“多人博弈”。这里的“单人博弈”和“两人博弈”，并不一定是自然人，而是指前面所说的博弈方，既可以是个人，也可以是经济社会组织。

2.博弈中的策略：博弈中各博弈方的策略内容称为“策略”。

3.博弈中的得益：得益即参加博弈的各个博弈方从博弈中所获得的利益，它是各博弈方追求的根本目标，也就是他们行为和判断的主要依据。

(1)零和博弈：它是常见的博弈类型，同时也是被研究得最早、最多的博弈问题。

(2)常和博弈：它也是很普遍的博弈类型。常和博弈可以看作零和博弈的扩展，零和博弈则可以看作常和博弈的特例。

(3)变和博弈：零和博弈和常和博弈以外的所有博弈都称为“变和博弈”。

(4)博弈的过程：博弈的过程也是博弈结构的重要方面。根据博弈过程方面的这些差异，博弈问题通常分为“静态博弈”、“动态博弈”和“重复博弈”几个大类。

①静态博弈：所有博弈方同时或可看作同时选择策略，采取行动的博弈是静态博弈。

②动态博弈：指博弈方的选择和行动有先后之分，后行者可以根据先行者的策略选择来决定自己的策略。

③重复博弈：所谓重复博弈实际上就是同一个博弈反复进行所构成的博弈过程。构成重复博弈的一次性博弈也成为“原博弈”或“阶段博弈”。

我们研究的大部分是重复博弈的原博弈都是静态博弈，或者说是由静态博弈构成的。这种由同样一些博弈方，在完全同样的环境和规则下重复进行的博弈，在现实中有很多实际的例子。如：体育竞技中的多局制比赛、商业中的回头客问题、企业之间的长期合作或竞争等等，如果不考虑环境条件方面的细小变化，都可以看作是重复博弈问题。

5.博弈的分类和博弈理论的结构

博弈结构这些方面的差异对博弈结果和博弈分析都有重要的影响，而且博弈分类相互之间都是交叉的，并不存在严格的层次关系，但我们还可以根据各种分类对博弈分析方法影响程度的大小排除大致的次序。

(1)是分为合作博弈与非合作博弈。如果各博弈方能达成某种有约束力的契约或默契，以选择共同的策略，此种博弈就是合作博弈。反之，就属于非合作博弈。

(2)是分为零和博弈、常和博弈与变和博弈。

(3)是分为静态博弈与动态博弈。

(4)是分为完全信息博弈与不完全信息博弈。在前一种博弈中，每一个参与者都拥有全部的相关信息，只拥有部分相关信息的便属于后一种博弈。

四、“博弈论”中的经典博弈模型

根据博弈定义，小到企业之间的竞争和合作，国家之间的倾销反倾销、制裁和报复等，都有可以归结为博弈问题。“博弈论”中有一些由点及面、发人深思的经典案例，这些案例不仅使专业研究人士如醉如痴，也使一些普通民众兴致盎然；不仅成为“博弈论”中的一道亮丽风景，也是整个经济学领域中的学术奇葩。

1.囚徒困境

假设警察局抓住了两个合伙犯罪的嫌疑犯，但获得的证据并不十分确切，对于两者的量刑就可能取决于两者对于犯罪事实的供认。警察局将这两名嫌疑犯分别关押以防他们串供。两名囚徒明白，如果他们都交代犯罪事实，则可能将各被判刑5年；如果他们都不交代，则有可能只会被以较轻的妨碍公务罪各判1年；如果一人交代，另一人不交代，交代者有可能会被立即释放，不交代者则将可能被重判8年。

对于两个囚徒总体而言，他们设想的最好的策略可能是都不交代。但任何一个囚徒在选择不交代的策略时，都要冒很大的风险，一旦自己不交代而另一囚徒交代了，自己就将可能处于非常不利的境地。对于囚徒A而言，不管囚徒B采取何种策略，他的最佳策略都是交代。对于囚徒B而言也是如此。最后两人都会选择交代。因此，囚徒困境反映了个体理与集体理之间的矛盾、冲突。

囚徒的困境博弈的重要意义，在于类似的情况在社会经济活动中具有很大的普遍性，在市场竞争的各个领域和方面，在资源利用和环境保护，以及政治、军事和法律等各个领域问题中，都有类似囚徒困境的现象。

2.智猪博弈

假设猪圈里有一大一小两只猪，猪圈的一头有一个猪食槽，另一头有一个控制猪食供应的按钮，揿一下按钮会有10个单位的猪食进槽。若小猪去揿，大猪先吃，大猪可吃到9个单位，小猪揿好后奔过来，则只能吃到1个单位；若大猪去揿，小猪先吃，小猪可吃到6个单位，大猪吃到4个单位；若同时去揿，奔过来再同时吃，大猪可吃到7个单位，小猪吃到3个单位。在这种情况下，不论大猪采取何种策略，小猪的最佳策略是等待，即在食槽边等待大猪去揿按钮，然后坐享其成。而由于小猪总是会选择等待，大猪无奈之下只好去揿按钮。这种策略组合就是名闻遐迩的“纳什均衡”。它指的是，在给定一方采取某种策略的条件下，另一方所采取的最佳策略(此处为大猪揿按钮)。

智猪博弈现象在日常生活中也是司空见惯的。如大股东行使监督上市公司的职责，而小股东则坐享这种监督带来的利益，即所谓“搭便车”；爱清洁的人经常打扫公共楼道，其他人搭便车；等等。

3.斗鸡博弈

两只公鸡面对面争斗，继续斗下去，两败俱伤，一方退却便意味着认输。在这样的博弈中，要想取胜，就要在气势上压倒对方，至少要显示出破釜沉舟、背水一战的决心来，以迫使对方退却。但到最后的关键时刻，必有一方要退下来，除非真正抱定鱼死网破的决心。

这类博弈也不胜枚举。如两人反向过同一独木桥，一般来说，必有一人选择后退。在这种博弈中，非理性、非理智的形象塑造往往是一种可选择的策略运用。如那种看上去不把自己的生命当回事的人，或者看上去有点醉醺醺、傻乎乎的人，往往能逼退独木桥上的另一人。还有夫妻争吵也常常是一个“斗鸡博弈”，吵到最后，一般地，总有一方对于对方的唠叨、责骂装聋作哑，或者干脆妻子回娘家去冷却怒火。在企业经营方面，在市场容量有限的条件下，一家企业投资了某一项目，另一家企业便会放弃对该项目的觊觎。

从以上对“博弈论”简要、通俗的介绍中可以发现，我们身边充满了博弈，或者说，我们身边的许多行为、现象都可用博弈来概括，充满了很多有趣的探索与研究。

博弈最优策略篇3

纳什博弈论：指假设有n个局中人参与博弈，如果某情况下无一参与者可以独自行动而增加收益，即为了自身利益的最大化，没有任何单独的一方愿意改变其策略的，则此策略组合被称为纳什均衡；所有局中人策略构成一个策略组合，纳什博弈论，从实质上是一种非合作博弈状态；

纳什均衡达成时，并不意味着博弈双方都处于不动的状态，在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的；纳什均衡也不意味着博弈双方达到了一个整体的最优状态，最优策略不一定达成纳什均衡，严格劣势策略不可能成为最佳对策，而弱优势和弱劣势策略是有可能达成纳什均衡的。

（来源：文章屋网）

博弈最优策略篇4

一、国际会计准则的产生与发展

（一）国际会计准则的产生国际会计准则委员会（International Accounting Standards Committee， IASC）成立于1973年6月，最初由澳大利亚、加拿大、法国、德国、日本、墨西哥、荷兰、英国和美国的13个会计职业团体发起成立。IASC在其章程中提出两大目标：一是制定国际会计准则（IASs），现更名为国际财务报告准则（IFRs），推动其在世界范围内被接受和遵守；二是改进和协调会计准则（特别是各国国内准则）和程序，努力提高可比性。面对这两大目标，IASC进行了长期的努力，但是，在很长一段时间里，一些发达国家，特别是美国对国际会计准则的质量都存在疑虑，其认为，IASC制定的国际会计准则为了争取更多国家和地区的遵守，在会计处理方法上往往进行了妥协和让步，从而保留的较多的备选方案，这就影响了可比性和透明度。20世纪80年代末，一项关于国际会计准则全球执行情况的调查表明，经济发达国家，包括国际会计准则委员会发起成员所在国对国际会计准则的执行程度，普遍较低。经济实力最强的美国，其准则完全独立于国际会计准则。（Purivis and Diamond，1991）（转引自刘峰，2000）

（二）国际会计准则的发展国际会计准则委员会（IASC）改组之前，是一个完全由执业会计师组成的松散的、无稳定资金支持的民间组织，在此期间，其发展经历了两个截然不同的阶段。1973到1987年间，IASC颁布了一批实质性准则、解释公告、概念框架及其他指南，并有很多公司直接采用其准则体系以编制财务报表，同时有许多国家的会计准则制定者在制定本国会计准则时予以参照，特别地，IASC制定的准则因适应发展中国家的国情而被其广泛采用，但这很大程度上是因为发展中国家大多没有本国的会计准则。然而，由于制定国际会计准则本身会影响各国现有会计准则制定者的既得利益，因此，那时候的国际会计准则要做到真正的“全球化”还为时过早。刘峰从制度变迁的角度对这一现象进行了解释。其认为，如果国际会计准则委员会通过努力，将国际会计准则转变成一种具有管制力的规则，必然的趋势是经过一段时期的发展，各国会计准则将会逐渐被国际会计准则取代，各国会计准则制定机构的存在也将显得没有必要。因此，在由国际会计准则委员会发起的、推广国际会计准则的制度变迁中，国际会计准则委员会具有正的、较高的利益预期，而各国会计准则制定机构、特别是那些已经存在较长时期并形成相当规模的会计准则制定机构，将成为这一制度变迁的直接受害者：其必须要放弃已取得的各种资源优势，包括每年金额不菲的办公经费这一直接资源和因掌握了具有管制权威的准则制定权而带来的间接资源优势。很显然，没有任何一个机构愿意自动退出。这样，各国的会计准则机构也必然要进行各种努力，以求自身的生存。（刘峰，2000）从1988年起，IASC从一个国家间的证券协调联合组织――证券委员会国际组织（International Organization of Securities Commissions，简称IOSCO）获得了强有力的支持。为了应对外界对国际会计准则的质疑，也同样为了实现IASC成立之初的目标，国际会计准则委员会开始致力于提高其准则的质量。1989年1月，国际会计准则委员会成立了一个可比性促进委员会，提出一份题为“财务报表可比性”的征求意见稿（E32），其内容主要是删除大部分可自由选择的备选方案。此后，美国FASB开始逐步参与IASC制定国际会计准则的工作，特别是IASC改组之后，FASB与IASC的合作更加密切，主要表现在：2001年4月，IASC正式改组为IASB。改组后，美国在IASB及其他机构中处于“主发言人”的地位。2002年9月18日，FASB与IASB在美国诺沃克（Norwalk）举行联合会议，商讨共同致力于建立高质量、相互兼容的会计准则，以向国内和国际财务信息的使用者提供高质量的财务报告。2002年10月29日，FASB与IASB正式达成协议，共同了一份谅解备忘录，将美国财务会计准则FAS和国际财务报告准则IFRS的趋同作为双方的义务。2004年10月，在FASB与IASB召开的联合会议上，双方决定将改进并建立共同的财务会计概念框架列合项目的工作日程。2005年，SEC“路线图”，以增进IFRS与美国GAAP的趋同。2006年，IASB与FASB更新了双方关于趋同的协议。

实际上，IASC改组之后，国际会计准则的制定权是由以美国为首的少数发达市场经济国家掌握。这其实也是使其接受国际会计准则的一个必不可少的条件。由表1可知，目前IASB的领导层是以美国为核心的，其人数比例高达43%，掌握了绝对的领导权。而且，从国家组成上来说，是以发达国家为主导的，发展中国家和欠发达地区尚难在IASB中占据席位。（特别从州际组成来说，美洲、欧洲、大洋洲、亚洲均有代表，唯独经济发展水平相对落后的非洲没有代表。）就目前国际会计准则在全球的发展状况来看，据2008年德勤（Deloitte & Touche LLP.）进行的一项调查显示，目前全球已经有100多个国家采用国际会计准则（IFRs）进行资本市场的信息披露，此外，还有许多国家在未来几年内将采用国际会计准则，包括智利（2009）、韩国（2009）、巴西（2010）、印度（2011）和加拿大（2011）。中国和日本目前虽然还没有完全接受国际会计准则，但是，两国已经同意与IASB合作。（Deloitte 2008 IFRS Survey: Where are we today， Deloitte & Touche LLP.2008.5）

二、国际会计准则的全球化路径――博弈分析框架

（一）“最优反应动态”模型国际会计准则（IFRS）的全球推广经历了一个漫长的过程，世界各国从最初的“抵制”到目前的“普遍接受”，其间经历了一个不断调整的过程。下文拟采用博弈论中的“最优反应动态（Best Response Dynamics）”模型对这一过程进行分析。（该模型参考谢识予，2006）

假设博弈方的博弈内容是图1所示的得益矩阵表示的两人对称静态博弈，称其为“协调博弈”（Coordination Games）。博弈双方分别代表两个不同的国家，博弈的内容是决定是否采纳国际会计准则。通过纳什均衡分析，该博弈具有两个纯策略纳什均衡（采纳，采纳）和（不采纳，不采纳）。这两个纳什均衡中，后者明显帕累托优于前者。

显然，如果博弈双方都是理性的，那么，通常的结果应该是（不采纳，不采纳），这个协调博弈背后的经济意义是，在采用国际会计准则问题上，各国都存在明显的变迁成本，因此，在一次博弈中，博弈双方都乐于维持现有的准则体系，无论哪一方都不愿意负担变迁成本，从而表现出一种所谓 “理智的冷漠”。但是，当考虑博弈方对对方理性的信任问题，或者对风险的敏感性等其他因素，（采纳，采纳）也许就是更好的预测。也就是说，由于该博弈本身是一个有多重纳什均衡的博弈，因此在一次性博弈中，即使博弈方都是高度理性的，博弈结果也有不确定性，很难做出完全保险的预测。具体来说，博弈方在初次博弈时可能只关心由会计准则变迁产生的变迁成本问题，而忽视了由不采纳国际会计准则产生的巨大交易成本，从机会成本的角度考虑，这实际上是采用国际会计准则，与其他国家实现趋同带来的一项收益，根据成本效益原则，如果该项交易成本大于变迁成本，就应该采纳国际会计准则。这就是博弈方所谓的“有限理性”的实质。

接着，从有限理性的角度分析上述博弈问题。假设博弈方虽然缺乏分析交互动态关系和预见能力，但是能够马上对上一阶段的博弈结果进行总结，并立即做出策略调整。当然，考虑到对手的策略也在调整，因此博弈方的策略调整针对上一期的对手肯定是正确的，但对当前的对手策略不一定正确，而这正体现了博弈方的有限理性。同时，假定共有5个博弈方分别处于图2圆周上的5个位置上，每个人都与各自的左邻右舍反复博弈。

既然博弈方都是有限理性的，因此在初次博弈时，每个位置的博弈方都既可能选择“不采纳”策略，也可能选择“采纳”策略。所以，初次的博弈总共有25=32种可能的结果。这32种情况包括一种全部选择“不采纳”策略和一种全部选择“采纳”策略，其他都是两种策略都有人采用。将这32种情况中对称的部分剔除出去，可以得到8种具有实质性差异的情况。对这些博弈方依据最优反应动态进行策略调整的规则进行分析，以观察通过重复博弈，是否会出现策略的收敛。假设xi（t）为在t时期博弈方i的邻居中选择“采纳”策略的邻居的数量，该数量有0，1，2三个可能值。选择“不采纳”策略的邻居数量相应的为2-xi（t），也有0，1，2三个可能值。针对第t期的相关情况xi（t），博弈方i选择“采纳”的得益为xi（t）×50+［2-xi（t）］×49，选择“不采纳”则得益为xi（t）×0+［2-xi（t）］×60。因此根据最优反应动态机制，当xi（t）×50+［2-xi（t）］×49>xi（t）×0+［2-xi（t）］×60，即 xi（t）>22/61时，博弈方i在t+1期会选择“采纳”策略，而当xi（t）×50+［2- xi（t）］×49

由于5个博弈方是完全相似的，因此上述法则对其来说都适用。不难证明，除了初次博弈时所有博弈方都选择“不采纳”策略这一种情况之外，从其他所有的情况出发，经过一定时期的调整，最终都会收敛到所有博弈方都选择“采纳”的稳定状态。上面列举的8种情况中，除了所有博弈方都选择“采纳”和都选择“不采纳”这两种情况之外，还有6种情况选择“采纳”的博弈方的数量和位置有差异。下面讨论这6种情况是如何收敛到稳定状态的。首先，讨论初次博弈只有1个博弈方选择“采纳”的情况，根据上述的策略调整法则，给出最优反应动态的全过程。如图3所示，5个博弈方经过4个时期的反复策略调整，最终收敛到了所有博弈方都选择“采纳”的稳定状态，此时的最优反应动态就不再要求任何博弈方改变策略，这意味着选择“采纳”不仅是单个博弈方的稳定策略，而且是群体意义上的稳定策略。

此外，图3也同时包含了两个不相邻博弈方选择“采纳”，三个不相邻博弈方选择“采纳”和四个博弈方选择“采纳”这三种情况。下文仅需分析两个相邻博弈方选择“采纳”和三个相邻博弈方选择“采纳”这两种情况。这两种情况的调整，在图4和图5中给出。上述分析证明，在总共32种可能的初次博弈情况中，只有一种是稳定于所有博弈方都选择“不采纳”的状态，其余31种情况都会收敛于选择“采纳”的状态。虽然都选择“采纳”和都选择“不采纳”均是有限理性博弈方进行上述协调博弈的稳定状态，但是，前一种稳定状态显然更重要一些，因为博弈方的策略调整收敛到这种情况的概率要大大高于后一种情况。进一步推论，在该博弈中，当所有博弈方都选择“采纳”的稳定状态出现以后，如果有部分博弈方偏离了该状态，最优反应动态会使博弈方的策略很快返回到都选择“采纳”的状态中来，而与此相对应，所有博弈方都选择“不采纳”策略就是一种不稳定状态，某一个博弈方的偏离，最优反应动态都会使博弈方的策略离该状态越来越远。综上所述，证明了“采纳”策略是这个博弈的“进化稳定策略”（Evolutionary Stable Strategy ，ESS）。

上述博弈分析告诉人们，在国际会计准则产生初期，参考甚至直接采用该准则体系的国家并不多，而且大多数是尚未建立一套完整准则体系的发展中国家，但事实上，正是这些国家推动了国际会计准则全球化。其中的原因是，当两个在地缘上接壤或者商业往来频繁的国家发生贸易往来，进而形成稳定的资本流时，透明的会计信息对双方来讲都是必不可少的。此时，如果两国之间的会计准则存在明显的差异，那么，由此产生的交易成本将是巨大的。因此，接受一个被普遍认可的准则体系以实现趋同，将是可行的解决方案。

（二）智猪博弈模型哪些国家会主动采纳国际会计准则，并致力于取得国际会计准则的制定权将采用博弈论中的智猪博弈（boxed pigs game）来进行解释。（该博弈模型参考张维迎，2004）

该博弈的基本框架是，假设猪圈里有两头猪，一头大猪，一头小猪。猪圈的一头有一个猪食槽，另一头安装一个按钮，控制着猪食的供应。按一下按钮会有a单位的猪食进槽，但是谁按按钮谁就需要支付c单位的成本。（这里，a>c>0）若大猪先到，大猪吃到a-b单位，小猪吃到b单位（a>c>b）；若同时到，大猪吃到a-d单位，小猪吃到d单位（a>d>c）；若小猪先到，大猪吃a-e单位，小猪吃到e单位（a>e>d>c）。图6中各符号的大小顺序为：a>e>d>c>b>0。这样，在重复剔除严格劣战略过程中，最终的均衡解取决于（a-e-c）的正负。若a-e-c>0，则最终的均衡解为（按，等待）；若a-e-c

将上述分析应用到国际会计准则的制定问题中，就不难理解国际会计准则的制定一直以来都是由少数几个发达国家主导这一事实了。发达国家在国际经济活动中处于主导地位，当其从一套全球统一的会计准则得到的收益大于接受该准则付出的变迁成本的时候，就有接受国际会计准则的强烈愿望。而对于其他国家来说，在这一问题上采取“搭便车”策略同样也是理性的选择。特别地，就美国而言，其在IASB中的地位可以说十分稳固，并且FASB一直致力于提高国际会计准则的质量，以实现IFRS与美国GAAP的趋同，而事实上，这种“趋同”是为了最大程度地降低美国采用国际会计准则的变迁成本。其清楚地认识到，哪个国家掌握了国际会计准则的制定权，哪个国家就会在国际会计准则趋同的过程中占有绝对优势。

早在1998年12月，国际会计准则委员会（IASC）就了题为“重塑国际会计准则委员会”的专题报告，其第二章“国际会计准则委员会面临的挑战”将这些具体因素归结为：国际资本市场、世界贸易、商业规则的国际化、国别会计准则、商业交易的创新、各类新式信息的需求、信息的电子传输、过渡与发展中及新近工业化国家。（刘峰，2000）在该专题报告十年后，这些因素依然影响着国际会计准则的发展，既是国际会计准则全球化的面临的挑战，同时也是推动国际会计准则不断发展的动力。任何事物的发展都是由客观规律决定的，国际会计准则的全球化的进程也不例外。纵观国际会计准则的发展历程，其路径最终是由全球经济环境的变迁决定的，是经济全球化的一个缩影。但可以肯定，会计准则全球化将是大势所趋。我国目前努力实现的会计准则国际趋同也是完全顺应时展的，是正确的选择。

参考文献：

［1］甘泉、何力军：《国际会计准则制定的利益博弈与经济后果》，《湖北经济学院学报》（人文社科版）2008年第8期。

［2］刘峰：《会计准则变迁》，中国财政经济出版社2000年版。

［3］汪祥耀：《与国际财务报告准则趋同――路径选择与政策建议》，立信会计出版社2006年版。

［4］谢识予：《经济博弈论》，复旦大学出版社2006年版。

［5］张维迎：《博弈论与信息经济学》，上海人民出版社2004年版。

［6］泽夫：《会计准则制定：理论与实践――斯蒂芬・泽夫教授论文集》，中国财政经济出版社2005年版。

［7］Zeff.1978.The Rise of “Economic Consequence”［J］. The Journal of Accountancy.December:56-63.

［8］Deloitte & Touche LLP.2008. 2008 IFRS Survey: Where are we today［EB/OL］.see 省略. 20090212.

［9］IASCF&IASB.2009.IASB AND THE ISAC FOUNDATION:Who we are and what we do［EB/OL］.see 省略. 20090210.

博弈最优策略篇5

[关键词]公地悲剧；博弈论；内生规则

[DOI]1013939/jcnkizgsc201529111

1968年英国哈丁教授（Garrett Hardin）在《The tragedy of the commons》一文中首先提出“公地悲剧”这一概念，它意味着“环境的退化会发生在任何时候，只要许多人共同使用一种稀缺资源”。本文把博弈论的概念和思想引入到“公地悲剧”这一现象中，致力于找出化解“公地悲剧”的方法。

1“公地悲剧”的博弈论模型

假设在由n个牧民共同拥有的草原上，每个牧民都养羊，根据世代多年放牧的传统，他们都知道这片草原上羊的最优的饲养数量，我们把这一数量设为Q1，那么每个牧民的最优饲养量为Q1/n。由于草原是公共的，只要有利可图，牧民养羊的饲养数量越多越好。假定每个牧民能获得收益的饲养量不低于Q1/n，这样，每个牧民羊的饲养数量有两个可能，一是超额饲养，二是根据统一的指标限额饲养。

为了使我们的分析更具有一般的普遍性，把草原上的n个牧民简化为两个典型性的代表A和B，A和B共同在这片草原上放牧，把羊的饲养量的确定过程看作是A和B相互之间的博弈，那么A和B就有两个可选择的策略，即超额或限额。在A、B选择不同的策略的情况下，A、B会出现收益变化：①A超额、B限额，在市场均衡的情况下，A的饲养里比B的饲养量多，收益也多，A的收益为a，B的收益为b，则a>b；②B超额、A限额，A的收益为b，B的收益为a，同理，有a>b；③A、B都限额，总收益为T，达到社会最优，A、B共享收益π，每人π/2，由公地放牧会导致非帕累托最优，有π>a+b，④A、B都超额，那么A、B的收益均为τ/2，有τ

2博弈模型分析

首先，假定以上“公地悲剧”博弈模型是在完全信息的情况下进行的，即A、B都知道对方的策略和收益；之后，将A和B的博弈分为同时博弈和序贯博弈两种情形。下面将对以上两种情形进行叙述分析。

当A和B同时博弈，对A来说，当B采取限制饲养数量的策略时，A的收益a>π/2，A的最优选择是超额；当B采取超额饲养策略时，A的收益b>τ/2；由以上分析可知对A不存在占优策略，A所采取的策略需要根据B的策略进行选择。对B来说，当A采取限额策略时，B的收益为a>π/2；当A采取超额策略时，B的收益b>τ/2，B的最优选择是限额；同样，B也不存在占优策略，B所采取的策略需要根据A的策略进行选择。

由以上分析可知，在同时博弈的情形下，A、B之间有着两个纳什均衡，即（限额；超额）与（超额；限额）。因为同时博弈存在的阶段性，纳什均衡不具有唯一解，这说明在实际情况下A和B会面临策略选择上的困境，在这样的情形下，为了实现自身利益的最大化，A和B均有可能以一定的概率选择超额策略或限额策略。那么，我们假定A选择限额策略的概率是r1，选择超额策略的概率是1-r1；B选择限额策略的概率是r2，选择超额策略的概率是1-r2，那么，A的最优化模型为：

VA=r1[[SX（]π[]2[SX）]r2+（1-r2）b]+（1-r1）[ar2+（1-r2）[SX（]τ[]2[SX）]]

求A在概率r1下的收益最大值Max[DD（X]r1[DD）]VA，有：[SX（]π[]2[SX）]r2+b（1-r2）-ar2-[SX（]τ[]2[SX）]（1-r2）=0，则，r2=[SX（]b-[SX（]τ[]2[SX）][]（a+b）-（[SX（]π[]2[SX）]+[SX（]τ[]2[SX）]）[SX）]>0

根据支付矩阵的对称性，可推出：r1=r2=[SX（]b-[SX（]τ[]2[SX）][]（a+b）-（[SX（]π[]2[SX）]+[SX（]τ[]2[SX）]）[SX）]

综上可知：r*1=r*2=[SX（]b-[SX（]τ[]2[SX）][]（1+b）-（[SX（]π[]2[SX）]+[SX（]τ[]2[SX）]）[SX）]为混合策略的纳什均衡，这一均衡说明了当A以概率r*1选择限额策略时，A进行策略选择时没有必要参考B的策略选择来进行，同样的，B以概率r*2选择限额策略时的策略选择也不需要考虑A的策略选择。

根据以上描述可得到以下结果：A、B选择限额策略的联合概率分布为：P（A=不超额；B=不超额）=r*1×r*2=[SX（]（b-[SX（]τ[]2[SX）]）2[][（a+b）-（[SX（]π[]2[SX）]+[SX（]τ[]2[SX）]）]2[SX）]；A、B选择超额饲养策略的概率分布为：P（A=超额；B=超额）=（1-r*1）（1-r*2）；A、B选择相异策略的概率为：r*1（1-r*2）+r*2（1-r*1）=2η*（1-r*2）=2r*2（1-r*1）。A和B中只要有一人选择了超额饲养策略，草原的饲养量将偏离帕累托最优，出现“公地悲剧”现象，出现的概率为：P（A=超额；B=超额）+P（A=超额；B=不超额）+P（A=不超额；B=超额）=（1-r*1）（1-r*2）+2η*（1-r*2）；根据概率的相关知识，“公地悲剧”出现的概率也可表示为1-P（A=不超额；B=不超额）=1-r*1×r*2∈[0，1]。

把A和B两个牧民决定羊的饲养数量的决策过程看作是一个博弈，根据以上计算可知，“公地悲剧”这一现象会以一定的概率出现在博弈的收益中，这样，从博弈论的视角分析“公地悲剧”就有了可行性。

其次，A、B连续博弈。当A和B两个牧民中有一个人在某些方面优于另一个人即具备先行者的优势时，那么先行者就有观望和利用先行者优势两种选择，这时A、B之间的博弈不再是同时博弈而是连续博弈。这里假设在完全信息的情况下，A是先行者，A先行动、B后行动，收益矩阵和同时博弈的时候相同。

对A来说，A知道假如他选择超额策略，由于b>[SX（]π[]2[SX）]，B的最优策略为限额策略，那么，A将获得a的收益，B获得b；假如A选择限额策略，那么B一定超额，那么A获得收益b，B获得a。当A具有先行者优势时，A能够先行动，并获得a的收益（a>b），所以无论如何A也会选择超额策略，这时，博弈的均衡解释（超额；限额）。这就表示在连续一次性的博弈过程中，A、B两个牧民的羊的总的饲养数量将超过草原上的帕累托最优数量，出现“公地悲剧”。

从上文中的分析可知，理论上，在一次博弈的情形下，不管是同时博弈还是连续博弈，“公地悲剧”都可能发生，但在实际情况下，因为养羊这个活动是不间断连续进行下去的，那么草原上牧民之间养羊数量的决策过程就是重复博弈的过程。一旦存在重复博弈，牧民之间由于人际关系、文化等原因会形成一种相互牵制的情况，最终使草原上羊群的饲养数量限制在符合集体利益最大化的帕累托最优数量上面。

3对策研究

由以上分析可知，A、B因为存在a-[SX（]π[]2[SX）]的超额收益而产生了超额饲养羊的投机心理。A和B都是理性人，都是自私的，都不愿意因为自己限额而损失了额外的收益，更不愿意看到因为双方都超额而带来的共同损失。当不存在一个实际有效的机制来约束双方行为时，为了能减少自身的损失，在博弈的过程中，博弈双方会透露这样的信息：如果在社会交换的过程中出现了违约者，则拒绝与他合作，而拒绝合作给违约者造成的损失大于他不违约的损失，这样就形成了一种可信的、有效的威胁。A和B在牧羊博弈的过程当中自主地限制羊的数量，使其形成一个内生的规则。当限额策略合理地解决了“公地悲剧”问题时，在接下来的重复博弈中，人们会将这一行为坚持下去，就成为了一种制度，一种内生的制度，“公地悲剧”便得到了解决，不再出现。

4结论

通过以上分析，当牧民们在选择羊的饲养数量时，相互之间存在一种相互约束、制约机制，并且这一博弈是重复进行时，那么，饲养羊数量的限额将成为一个内生的博弈规则，它不需要借助外界或第三方的力量来保证实施便能自己起到约束双方行为的作用，因而“公地悲剧”能够依靠内部的约束机制自发解决。

参考文献：

[1] Hardin GThe tragedy of the commons[J].Science，1968：162.

博弈最优策略篇6

关键词：博弈行为；博弈规则；投标报价均衡

一、博弈论原理及方法

（一）博弈论的基本概念

博弈论的基本概念包括以下方面：

参与人：参与人也称局中人，即在所定义的博弈中独立决策、独立承担结果的个人或组织。

行动：即规定每个博弈参与人在进行决策时，可以选择的方法、做法或经济活动的水平、量值等。

信息：指参与人有关博弈的知识，特别是有关“自然”的选择、其他参与人的特征和行动的知识。

战略：参与人在给定信息集的情况下的行动规则。

收益：在一个特定的战略组合下参与人得到的确定效用水平，或者是指参与人得到的期望效用水平。

结果：博弈分析者感兴趣的要素的集合，如均衡战略、均衡行动组合、均衡收益组合等。

均衡：各个参与人的最优战略和行动的组合。

（二）博弈规则

每个博弈都有相应的规则，即是博弈的参与人采取行动所必须遵循的机制。博弈论中机制设计实际上是确定如何激励的问题，机制设计的主要目的是要使一个有理性的参与人有兴趣接受所设计的机制，它必须满足两个约束条件：一是要使参与人在该机制下得到的必须不小于他不接受机制时得到的，此约束称为个人理性约束；二是在不知道参与人类型的情况下，所设计的机制要能使参与人有积极性选择招标单位希望的行动。

（三）博弈的类型

博弈可以划分为合作博弈和非合作博弈。在非合作博弈论中，可以从两个角度对博弈进行分类：一是从参与人行动的顺序，可以将博弈划分为静态博弈和动态博弈。静态博弈指的是参与人同时选择行动或者是参与人虽然不是同时行动，但是后行动者不能知道先行动者所采取的行动；动态博弈指的是参与人的行动有先有后，且后行动者能够通过一定的手段知道先行动者的具体行动。二是从对其他参与人的特征、战略空间和支付函数的知识掌握角度，博弈可以划分为完全信息博弈和不完全信息博弈。将上述两个角度划分结合起来，我们就得到4种不同类型的博弈：完全信息静态博弈、不完全信息静态博弈、完全信息动态博弈和不完全信息动态博弈。

（四）博弈均衡结果

博弈分析的目的是预测博弈的均衡结果，均衡指所有参与人行动战略的组合。在不完全信息静态非合作博弈模型下，纳什均衡是博弈规则的核心思想。

二、投标报价博弈行为

投标报价的博弈类型包括以下方面：

第一，不完全信息下的静态非合作博弈。从博弈论角度看，招投标符合不完全信息下的静态非合作对策模型。所谓不完全信息，是指每一位潜在的投标者在投标前都只知道自己的生产成本及报价，而不知道别人的生产成本及报价，但是他对其他参与人的生产成本及报价有一个主观的概率判断。静态博弈是指在投标报价博弈中，大部分的招标交易采用一次性密封投标竞争的做法，各投标报价在开标当天揭晓，投标人之前对其他局中人的报价行动并不知道，所以投标报价是静态的。博弈规则是招投标的评标方法。目前我国招投标评标法主要有综合评标法及合理最低价评标。综合评分方法是以基准报价为基础，当投标人的标价评分最高，最接近基准报价时他就中标，并且得到全部的合同收益；相反，他的标价与基准标价相差甚远，报价得分最低，就得不到合同。综合评分方法的博弈规则就是报价与基准标价的方差越小，获得的支付越多。合理最低价中标，是以基准价为基础，在有效报价范围内选择最低的报价者。所以合理低价中标的博弈规则是报价最低并且合理才能中标。综合评分法及合理低价评标基准标价仍然以基准价为基础，根据不同的博弈规则有两种不同的博弈模型。战略是投标人根据自己企业的管理水平及其他竞争对手信息的掌握，根据博弈规则决定最终报价。收益是其中一家投标方以最优报价中标并且获得一定的利润空间，达到中标与利润的平衡。

第二，完全但不完美静态非合作博弈。虽然投标人没有掌握其竞争者确切的投标报价信息，但投标单位的历史投标记录可以通过信息搜集及积累可以得到，并且企业的经营状况及生产能力的信息可以得到，通过对这些信息的分析，可以预测竞争者的投标报价趋势及最优报价的范围及概率。在目前建设项目评标方式下，主要以企业自己的工程成本为基础，通过业主的开标记录分析标底与成本之间的关系，同时通过各投标单位的投标记录数据，分析各投标方的报价水平。在一定时间段内，一个地区历次开标记录，各投标方投标记录的信息可搜集性强。通过这些信息搜集并加工，预测得到业主的标底及各投标方的报价水平，实现信息的对称，把不完全信息博弈转化为完全但不完美非合作博弈。

第三，投标报价均衡结果。根据纳什均衡的定义，在对一次项目的投标决策过程中，由于收益函数可以表示为中标，决定收益函数最大化的因素是“信息――局中人决策之前已作过的决策的结果。”局中人对这种“已做过的决策的结果”统计的完整程度，决定着最终计算收益值的客观性和准确程度。在承包商的投标报价决策中，首先需要依赖信息得出的是各参与人报价与最优报价的统计关系，并将这种统计关系通过一定的数量分析方法进行数学表达。这个过程依赖于对以往投标的各承包商报价和中标情况的统计数据记录的完整性和准确程度。

从承包商依据统计分析得出最优报价的这种决策特点，我们可以看出各个承包商可以在一次竞标过程中拿出自己的最优报价进行投标，即上文提及的各个局中人的最优策略可以同时存在于策略空间的某一策略组合中。因此，在投标报价决策这样的有限策略静态博弈中，存在纳什均衡。

建设项目招投标模式下，各个投标方参与一个项目的招标，面对同一个招标方，投标方之间形成价格战。以目前的评标标准为博弈原则，投标方进行价格竞争，结果是稳定的，即是一个纳什均衡结局。从这个纳什均衡结果可以得出两点：一是竞争削价的结果或纳什均衡可能导致一个有效率的零利润结局。二是如果不采取价格战，作为一种敌对博弈论，其结果会如何。每一个企业都会考虑采取正常价格策略，还是采取高价格策略形成垄断价格，并尽力获取垄断利润。如果垄断可以形成，则博弈双方的共同利润最大。这种情况就是垄断经营所做的，通常会抬高价格。另一个极端的情况是投标方用正常的价格，双方都可以获得利润。实际上在纳什均衡中，投标方要使利润最大化，招标方要使效用最大化，结果导致了零利润，即价格等于边际成本。在完全竞争的情况下，非合作行为导致了社会所期望的经济效率状态。如果各竞争者采取合作行动并决定转向垄断价格，那么社会的经济效率就会遭到破坏。

在建筑招投标市场竞争环境中，这个纳什均衡的结果是招标方获得最大的利益，投标方各自竞争，趋于一个利益最小化的均衡。从这一点，我们可以知道，在招投标制度下，招标方可以通过招标获取最大的收益。而各投标方并不能形成垄断，投标人之间不存在相互勾结行为，投标报价博弈的行动是非合作的，投标人的决策是独立的，并且投标方为获得市场，一般采取低价投标。从这个纳什均衡的结果，可以得出各个投标方投标报价的行动趋向，低价投标。这种投标方低价投标的行动趋向，是博弈行为的必然选择，也是博弈的均衡结果，投标方以此为依据，可以在投标行动中预测对手的报价行为，以此为基础进行博弈行为分析。

三、结论

从博弈论的角度分析了项目投标报价的行为，为研究投标报价提供了一个新的思想方法。通过本文的论述，投标报价是一种不完全信息动态非合作博弈行为，投标结果达到一种均衡组合。但利用博弈思想在投标报价中进行决策，需要更进一步的研究，建立科学、合理的、量化的博弈模型进行投标报价决策。

博弈最优策略篇7

城市群政府竞争博弈模型

基本前提

1、博弈三要素

1）参与人即参加博弈的主体和策略制定者，在博弈中假设他们是理性的。本文要分析的博弈主体是城市群里的两个地方政府1和2；2）策略集合是参与人在博弈中的所有可能选择行为的集合。3）支付函数是指参与人采取策略后得到的收益，一般用效用函数来表示。

2、博弈的定位：博弈有很多种分类，但政府间的博弈大部分属于对抗性和合作性的动态博弈。

本文忽略了地方政府在竞争中所采用的具体行为，而仅仅就地方政府是否采用了某一政策行为进行分析。这样，地方政府1和2在竞争中都有两种策略选择：竞争或合作。

模型分析

1、对抗性竞争博弈

对抗竞争假定竞争中具有相同的流动要素偏好，而且只有唯一最佳的满足其偏好的方法。由于地方政府在博弈决策时会因为信息的差异而做出不同的决策，在现实中完全信息条件几乎不存在，所以本文只考虑不完全信息条件下的政府博弈。

在不完全信息条件下，政府1不知道政府2的决策，政府2也不知道政府1会采取合作还是竞争的策略。因此在双方信息都不完全的状况下进行博弈。

在支付矩阵中，括号内的第一个数字为政府1的收益，第二个数字为政府2的收益。由表1我们可以看出，若两个政府合作，各自可得到1的收益；若一个合作另一个竞争，合作一方得到－0.5的收益，竞争一方得到1.5的收益；若两个政府相互竞争，各得－1的收益。在不完全信息条件下,政府1不知道政府2将采取什么决策。若政府2采取合作，政府1采取竞争可以得到1.5的收益，比采取合作时多得0.5的收益。若政府2采取竞争，政府1采取合作会比采取竞争少亏掉0.5 收益，但由于政府间竞争存在着劣性，政府1仍然会采取竞争的决策，从而使得政府2也得不到1.5收益，竞争成为政府1的最优策略。政府2的决策考虑也同样。最终，博弈中得到一个纳什均衡:(竞争，竞争)，并获得(－1，－1)的收益。而这个策略选择是所有选择中得到的收益最少的，即对双方的公共利益都是最差的。

2、合作性竞争博弈

在这个博弈中，有两个纳什均衡：(合作，合作)和(竞争，竞争)。双方都合作的话，都可以得到2.5收益，这比总量两单位的收益还多了0.5，这是由于合作使得总收益增加了。而如果两个政府都采取竞争则都只能得到0收益。在不完全信息条件下，政府1和政府2会选择哪个决策则具有随机性，本文不再深入分析。

合作的竞争并不意味着竞争被消灭了，而是意味着政府间的竞争关系发生了新的变化，从单纯的对抗性走向一定程度的相互合作。并且通过合作, 使得双方的收益都增加了。即使两个政府都采取了竞争的策略，但由于它们是处于合作的竞争，并不会使原有的收益亏掉，仍然是比对抗时的竞争状况好多了。而如果两个政府都采取合作选择时，就更是提高了社会的收益，使双方都得到了最大的好处。

结论与建议

（一）地方政府应尽快从对抗的竞争转而以合作竞争来促进各方的利益，使资源特别是土地资源得最优配置与使用。由上面的模型分析，我们知道无论在信息完全或信息不完全的情况下，对地方政府政来讲采取对抗竞争对社会总体福利水平都不是最优的结果。

（二）各地方政府应努力建立制度化的区域合作协调机制。在招商引资的地方政府竞争中，(合作，合作)是博弈中最好的一组决策组。解决各地方政府间恶性竞争与冲突的办法，不是否认地方政府的个体利益，而是需要一种可以使得各地方政府在满足个体利益的前提下达到总体利益的区域合作协调机制。如果区域内各地方政府在各项措施、规则的制定中达成共识，就会有“合作博弈”形成的基础。

（三）树立地方政府合作竞争和连续博弈的观念。区域内各地方政府间地理位置相邻，具有相近的文化渊源，有天然的合作基础。区域经济合作的目标就是整合各地方拥有的比较优势。实现优势互补。因此区域内各地方政府应有意识地创造合作的条件和氛围，力求实现“集体理性”，避免陷入“囚徒困境”。各方应从长远(无限次博弈)的角度看待地方政府竞争，避免自利决策和各自行事，形成统一的协调机制，才能实现长期合作的动态均衡，实现资本配置的帕累托最优。

博弈最优策略篇8

引言

随着我国环境污染日益加剧，政府对企业的环境规制强度也日趋增强。企业所采取的环境行为必然受到政府环境规制强度变化的影响，而政府的环境行为也必然以企业的策略为依据，因而双方的策略选择无疑成为学者们关注的课题。王冬梅等（2004）分析了环境保护政府与企业之间的四种博弈关系[1]。罗丽艳（2007）运用重复博弈的“囚徒困境”模型分析了人与自然间的无限次重复博弈关系，指出了合作的可能性[2]。

本文以政府环境规制决策和企业环保行为来分别反映两者的环境行为，通过研究环境规制强度动态调整条件下政府与企业环境行为的重复博弈问题，分析政府与企业环境行为的均衡策略，从而为政府政策选择与企业环保决策提供理论参考。

一、基于环境规制强度的政府与企业环境行为的一次博弈分析

假设政府和企业分别为一个博弈参与人，两者都有两种策略选择：政府（完全规制，不完全规制），企业（积极环保，消极环保）。两者收益不仅与自身的策略选择相关，还与对方的策略选择相关。通过建立政府与企业环境行为的博弈树来对双方一次阶段博弈进行分析。

在博弈过程中，政府与企业都明确自身和对方的收益情况，也都能观察到对方的策略选择，因此，利用逆推归纳法来分析各阶段博弈过程。下面首先对第二阶段企业环境行为策略选择进行分析。

综上，当政府已知企业的策略选择情况时，在相应环境规制强度下，政府总收益的差值大于成本的差值时，政府会选择不完全规制策略；否则会选择完全规制策略。

由政企环境行为一次阶段博弈可知，博弈双方具有纯策略纳什均衡，但纳什均衡受总收益和成本的变化趋势的影响，因此，政企环境行为一次阶段动态博弈不存在唯一固定的纯策略纳什均衡，不是帕累托最优策略，而（不完全规制，积极环保）应是政企环境行为博弈的帕累托改进策略。

二、政府与企业间的重复博弈模型

在政府与企业环境行为的博弈中，参与主体均为有限理性，意味着政府环境规制强度的选择具有长期性，是重复博弈过程，往往不可能一开始就找到最优策略，需要参与主体不断学习[3]。

重复博弈分为有限次重复博弈和无限次重复博弈，在重复博弈中，博弈方考虑的不是现在本阶段的博弈，而是整个博弈的总体收益情况[4]。由于资金具有不同的时间价值，就要考虑收益的时间价值问题，因此，引入收益折算的贴现因子δ[5]。设在一无限次重复博弈中，某博弈方的阶段得益为π1，π2，…πt，将各阶段得益折算到当前阶段所得到的总得益为[6]：

在重复博弈中，还存在一种严厉的惩戒机制，冷酷策略就是经典的惩戒机制之一。根据冷酷战略，在政企环境行为重复博弈过程中，双方都能够观察到自己和对方的博弈历史，双方的收益就是各阶段收益折算到当前的贴现值之和[7]。设政府和企业的贴现因子都为δ，Ve表示企业积极环保时无限次重复博弈的贴现值，Vs表示企业消极环保时无限次重复博弈的贴现值，并假设政府开始选择不完全规制策略，且一旦企业选择消极环保策略，政府将会永远选择完全规制策略。则有：

假设企业选择消极环保，政府在察觉到企业的消极环境行为后，采取惩戒机制，且会永远选择完全规制。

三、结论

博弈最优策略范文

博弈最优策略篇1

博弈最优策略篇2

博弈最优策略篇3

博弈最优策略篇4

博弈最优策略篇5

博弈最优策略篇6

博弈最优策略篇7

博弈最优策略篇8

热门文章更多>

热门推荐更多>

精品范文更多>

博弈最优策略范文

博弈最优策略篇1

博弈最优策略篇2

博弈最优策略篇3

博弈最优策略篇4

博弈最优策略篇5

博弈最优策略篇6

博弈最优策略篇7

博弈最优策略篇8

热门文章 更多>

热门推荐 更多>

精品范文更多>

热门文章更多>

热门推荐更多>