mba管理类025——博弈论(编辑修改稿)

mba管理类025——博弈论(编辑修改稿)内容摘要：

新浪微博：黄金律：按照你愿意别人对你的方式来对别人，但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次，“纳什均衡”是一种非合作博弈均衡，在现实中非合作的情况要比合作情况普遍。所以“纳什均衡”是对冯诺依曼和摩根斯特恩的合作博弈理论的重大发展，甚至可以说是一场革命。从“纳什均衡”的普遍意义中我们可以深刻领悟司空见惯的经济、社会、政治、国防、管理和日常生活中的博弈现象。我们将例举出许多类似于“囚徒的两难处境” 这样的例子。如价格战博弈、军奋竞赛博弈、污染博弈等等。一般的博弈问题由三个要素所构成：即局中人 (players)又称当事人、参与者、策略等等的集合，策略 (strategies)集合以及每一对局中人所做的选择和赢得 (payoffs)集合。其中所谓赢得是指如果一个特定的策略关系被选择，每一局中人所得到的效用。所有的博弈问题都会遇到这三个要素。价格战博弈现在我们经常会遇到各种各样的家电价格大战，彩电大战、冰箱大战、空调大战、微波炉大战… …这些大战的受益者首先是消费者。每当看到一种家电产品的价格大战，百姓都会“没事儿偷着乐”。在这里，我们可以解释厂家价格大战的结局也是一个“纳什均衡”，而且价格战的结果是谁都没钱赚。因为博弈双方的利润正好是零。竞争的结果是稳定的，即是一个“纳什均衡”。这个结果可能对消费者是管理系列腾讯微博：新浪微博：有利的，但对厂商而言是灾难性的。所以，价格战对厂商而言意味着自杀。从这个案例中我们可以引伸出两个问题，一是竞争削价的结果或“纳什均衡”可能导致一个有效率的零利润结局。二是如果不采取价格战，作为一种敌对博弈论 (vivalry game)其结果会如何呢。每一个企业，都会考虑采取正常价格策略，还是采取高价格策略形成垄断价格，并尽力获取垄断利润。如果垄断可以形成，则博弈双方的共同利润最大。这种情况就是垄断经营所做的，通常会抬高价格。另一个极端的情况是厂商用正常的价格，双方都可以获得利润。从这一点，我们又引出一条基本准则：“把你自己的战略建立在假定对手会按其最佳利益行动的基础上”。事实上，完全竞争的均衡就是“纳什均衡”或“非合作博弈均衡”。在这种状态下，每一个厂商或消费者都是按照所有的别人已定的价格来进行决策。在这种均衡中，每一企业要使利润最大化，消费者要使效用最大化，结果导致了零利润，也就是说价格等于边际成本。在完全竞争的情况下，非合作行为导致了社会所期望的经济效率状态。如果厂商采取合作行动并决定转向垄断价格，那么社会的经济效率就会遭到破坏。这就是为什么 WTO和各国政府要加强反垄断的意义所在。污染博弈：假如市场经济中存在着污染，但政府并没有管制的环境，企业为了追求利润的最大化，宁愿以牺牲环境为代价，也绝不会主动增加环保设备投资。按照看不见的手的原理，所有企业都会从利己的目的出管理系列腾讯微博：新浪微博：发，采取不顾环境的策略，从而进入“纳什均衡”状态。如果一个企业从利他的目的出发，投资治理污染，而其他企业仍然不顾环境污染，那么这个企业的生产成本就会增加，价格就要提高，它的产品就没有竞争力，甚至企业还要破产。这是一个“看不见的手的有效的完全竞争机制”失败的例证。直到 20世纪 90 年代中期，中国乡镇企业的盲目发展造成严重污染的情况就是如此。只有在政府加强污染管制时，企业才会采取低污染的策略组合。企业在这种情况下，获得与高污染同样的利润，但环境将更好。贸易战博弈论这个问题对于刚刚加入 WTO的中国而言尤为重要。任何一个国家在国际贸易中都面临着保持贸易自由与实行贸易保护主义的两难选择。贸易自由与壁垒问题，也是一个“纳什均衡”，这个均衡是贸易双方采取不合作博弈的策略，结果使双方因贸易战受到损害。 X 国试图对 Y国进行进口贸易限制，比如提高关税，则 Y国必然会进行反击，也提高关税，结果谁也没有捞到好处。反之，如 X和 Y能达成合作性均衡，即从互惠互利的原则出发，双方都减少关税限制，结果大家都从贸易自由中获得了最大利益，而且全球贸易的总收益也增加了。博弈论这是一个热得烫手的概念。它不仅仅存在于数学的运筹学中，也正在经济学中占据越来越重要的地位（近几年诺贝尔经济学奖就频频授予博弈论研究者），但如果你认为博弈论的应用领域仅限于此的话，那你就大错了。实际上，博弈论甚至在我们的工作和生活管理系列腾讯微博：新浪微博：中无处不在。在工作中，你在和上司博弈，也在和下属博弈，你也同样会跟其他相关部门人员博弈；而要开展业务，你更是在和你的客户以及竞争对手博弈。在生活中，博弈仍然无处不在。博弈论代表着一种全新的分析方法和全新的思想。诺贝尔经济学奖获得者包罗萨缪尔逊如是说：要想在现代社会做个有价值的人 ,你就必须对博弈论有个大致的了解。也可以这样说 ,要相赢得生意 ,不可不学博弈论。要想赢得生活 ,同样不可不学博弈论。七、博弈论与纳什平衡博弈论（ game theory）对人的基本假定是：人是理性的（ rational，或者说自私的） ,理性的人是指他在具体策略选择时的目的是使自己的利益最大化，博弈论研究的是理性的人之间如何进行策略选择的。纳什（ John Nash）编制的博弈论经典故事囚徒的困境，说明了非合作博弈及其均衡解的成立，故称纳什平衡。所有的博弈问题都会遇到三个要素。在囚徒的故事中，两个囚徒是当事人 (players) 又称参与者；当事人所做的选择策略 (strategies)是承认了杀人事实，最后两个人均赢得 (payoffs)了中间的宣判结果。如果两个囚徒之中有一个承认杀人，另外一个抵赖，不承认杀人，那么承认者将会得到减刑处理，而抵赖者将会得到最严管理系列腾讯微博：新浪微博：厉的死刑判决，在纳什故事中两个人都承认了犯罪事实，所以两个囚徒得到的是中间的结果。类似的：我们也能从“自私的基因”等理论中看到“纳什平衡”的体现。博弈中最优策略的产生艾克斯罗德（ Robert Axelrod）在开始研究合作之前，设定了两个前提：一、每个人都是自私的；二、没有权威干预个人决策。也就是说，个人可以完全按照自己利益最大化的企图进行决策。在此前提下，合作要研究的问题是：第一、人为什么要合作；第二、人什么时候是合作的，什么时候又是不合作的；第三、如何使别人与你合作。社会实践中有很多合作的问题。比如国家之间的关税报复，对他国产品提高关税有利于保护本国的经济，但是国家之间互提关税，产品价格就提高了，丧失了竞争力，损害了国际贸易的互补优势。在对策中，由于双方各自追求自己利益的最大化，导致了群体利益的损害。对策论以著名的囚犯困境来描述这个问题。 A 和 B各表示一个人，他们的选择是完全无差异的。选择 C代表合作，选择 D 代表不合作。如果 AB 都选择 C合作，则两人各得 3分；如果一方选 C，一方选 D，则选 C 的得零分，选 D的得 5分；如果 AB都选 D，双方各得 1分。显然，对群体来说最好的结果是双方都选 C，各得 3 分，共得 6分。如果一方选 C，一方选 D，总体得 5 分。如果两人都选 D，总体得 2 分。管理系列腾讯微博：新浪微博：对策学界用这个矩阵来描述个体理性与群体理性的冲突：每个人在追求个体利益最大化时，就使群体利益受损，这就是囚徒困境。在矩阵中，对于 A 来说，当对方选 C，他选 D得 5分，选 C只得 3分；当对方选 D，他选 D得 1分，选 C得零分。因此，无论对方选 C 或 D，对 A来说，选 D都得分最多。这是 A单方面的优超策略。而当两个优超策略相遇，即 A， B都选 D时，结果是各得 1分。这个结果在矩阵中并非最优。困境就在于，每个人采取各自的优超策略时，得出的解是稳定的，但不是帕累托最优的，这个结果体现了个体理性与群体理性的矛盾。在数学上，这个一次性决策的矩阵没有最优解。如果博弈进行多次，只要对策者知道博弈次数，他们在最后一次肯定采取互相背叛的策略。既然如此，前面的每一次也就没有合作的必要，因此，在次数已知的多次博弈中，对策者没有一次会合作。如果博弈在多人间进行，而且次数未知，对策者就会意识到，当持续地采取合作并达成默契时，对策者就能持续地各得 3 分，但如果持续地不合作的话，每个人就永远得 1分。这样，合作的动机就显现出来。多次对局下，未来的收益应比现在的收益多一个折现率 W， W越大，表示未来的收益越重要。在多人对策持续进行下去，且 W 比较大，即未来充分重要时，最优的策略是与别人采取的策略有关的。假设某人的策略是，第一次合作，以后只要对方不合作一次，他就永不合作。对这种对策者，当然合作下去是上策。假如有的人不管对方采取什么策略，他总是合作，那么总是对他采取不合作的策略得分最多。对于总是不合作的人，也只能采取不合作的策略。管理系列腾讯微博：新浪微博：艾克斯罗德做了一个实验，邀请多人来参加游戏，得分规则与前面的矩阵相同，什么时候结束游戏是未知的。他要求每个参赛者把追求得分最多的策略写成计算机程序，然后用单循环赛的方式将参赛程序两两博弈，以找出什么样的策略得分最高。第一轮游戏有 14 个程序参加，再加上艾克斯罗德自己的一个随机程序 (即以 50%的概率选取合作或不合作 )，运转了 300 次。结果得分最高的程序是加拿大学者罗伯布写的一报还一报 (tit for tat)。这个程序的特点是，第一次对局采用合作的策略，以后每一步都跟随对方上一步的策略，你上一次合作，我这一次就合作，你上一次不合作，我这一次就不合作。艾克斯罗德还发现，得分排在前面的程序有三个特点：第一，从不首先背叛，即善良的；第二，对于对方的背叛行为一定要报复，不能总是合作，即可激怒的；第三，不能人家一次背叛，你就没完没了的报复，以后人家只要改为合作，你也要合作，即宽容性。为了进一步验证上述结论，艾氏决定邀请更多的人再做一次游戏，并把第一次的结果公开发表。第二次征集到了 62 个程序，加上他自己的随机程序，又进行了一次竞赛。结果，第一名的仍是一报还一报。艾氏总结这次游戏的结论是：第一，一报还一报仍是最优策略。第二，前面提到的三个特点仍然有效，因为 63 人中的前 15名里，只有第 8 名的哈灵顿程序是不善良的，后 15 名中，只有 1个总是合作的是善良的。可激怒性和宽容性也得到了证明。此外，好的策略还必须具有的一个特点是清晰性，能让对方在三、五步对管理系列腾讯微博：新浪微博：局内辨识出来，太复杂的对策不见得好。一报还一报就有很好的清晰性，让对方很快发现规律，从而不得不采取合作的态度。合作的进行过程及规律一报还一报的策略在静态的群体中得到了很好的分数，那么，在一个动态的进化的群体中，这种合作者能否产生、发展、生存下去呢。群体是会向合作的方向进化，还是向不合作的方向进化。如果大家开始都不合作，能否在进化过程中产生合作。为了回答这些疑问，艾氏用生态学的原理来分析合作的进化过程。假设对策者所组成的策略群体是一代一代进化下去的，进化的规则包括：一，试错。人们在对待周围环境时，起初不知道该怎么做，于是就试试这个，试试那个，哪个结果好就照哪个去做。第二，遗传。一个人如果合作性好，他的后代的合作基因就多。第三，学习。比赛过程就是对策者相互学习的过程，一报还一报的策略好，有的人就愿意学。按这样的思路，艾氏设计了一个实验，假设 63个对策者中，谁在第一轮中的得分高，他在第二轮的群体中所占比例就越高，而。

阅读剩余 0%

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体)，仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权，请联系我们反馈本站将在三个工作日内改正。

标签：博弈论 mba 管理

mba管理类025——博弈论(编辑修改稿)

相关推荐

密码登录

账号注册