博弈论,求解?不懂.O(∩_∩)O谢谢
来源:学生作业帮助网 编辑:六六作业网 时间:2024/11/23 01:13:57
博弈论,求解?不懂.O(∩_∩)O谢谢
博弈论,求解?不懂.O(∩_∩)O谢谢
博弈论,求解?不懂.O(∩_∩)O谢谢
博弈论(Game Theory),亦名“对策论”、“赛局理论”,属应用数学的一个分支, 博弈论已经成为经济学的标准分析工具之一.目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用.博弈论主要研究公式化了的激励结构间的相互作用.是研究具有斗争或竞争性质现象的数学理论和方法.也是运筹学的一个重要学科. 博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略.生物学家使用博弈理论来理解和预测进化论的某些结果.参见:行为生态学(behavioral ecology).
博弈论[1]是二人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜的目的.博弈论思想古已有之,中国古代的《孙子兵法》就不仅是一部军事著作,而且算是最早的一部博弈论著作.博弈论最初主要研究象棋、桥牌、赌博中的胜负问题,人们对博弈局势的把握只停留在经验上,没有向理论化发展.博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略.近代对于博弈论的研究,开始于策墨洛(Zermelo),波雷尔(Borel)及冯·诺依曼(von Neumann).1928年,冯·诺依曼证明了博弈论的基本原理,从而宣告了博弈论的正式诞生.1944年,冯·诺依曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统的应用于经济领域,从而奠定了这一学科的基础和理论体系.1950~1951年,约翰·福布斯·纳什(John Forbes Nash Jr)利用不动点定理证明了均衡点的存在,为博弈论的一般化奠定了坚实基础.纳什的开创性论文《n人博弈的均衡点》(1950),《非合作博弈》(1951)等等,给出了纳什均衡的概念和均衡存在定理.此外,塞尔顿、哈桑尼的研究也对博弈论发展起到推动作用.今天博弈论已发展成一门较完善的学科.诺贝尔奖从1994年诺贝尔经济学奖授予3位博弈论专家开始,共有5届的诺贝尔经济学奖与博弈论的研究有关,分别为:1994年,授予美国伯克利加利福尼亚大学的约翰·海萨尼(J.Harsanyi)、普林斯顿大学约翰·纳什(J.Nash)和德国波恩大学的赖因哈德·泽尔滕(Reinhard Selten).1996年,授予英国剑桥大学的 詹姆斯·莫里斯(James A. Mirrlees)与美国哥伦比亚大学的威廉·维克瑞(William Vickrey).2001年,授予美国加州大学伯克莱分校的乔治·阿克尔洛夫(George A. Akerlof )生于1940年、美国斯坦福大学的迈克尔·斯宾塞(A. Michael Spence )和美国纽约哥伦比亚大学的约瑟夫·斯蒂格利茨(Joseph E. Stiglitz).2005年,授予美国马里兰大学的托马斯·克罗姆比·谢林(Thomas Crombie Schelling)和耶路撒冷希伯来大学的罗伯特·约翰·奥曼(Robert John Aumann).2007年,授予美国明尼苏达大学的里奥尼德·赫维茨(Leonid Hurwicz)、美国普林斯顿大学的埃里克·马斯金(Eric S. Maskin)以及美国芝加哥大学的罗杰·迈尔森(Roger B. Myerson).2012年,授予美国经济学家埃尔文·罗斯(Alvin E. Roth)与罗伊德·沙普利因(Lloyd S. Shapley).作为一门工具学科能够在经济学中如此广泛运用并得到学界垂青实为罕见.基本概念(1)决策人:在博弈中率先作出决策的一方,这一方往往依据自身的感受、经验和表面状态优先采取一种有方向性的行动.(2)对抗者:在博弈二人对局中行动滞后的那个人,与决策人要作出基本反面的决定,并且他的动作是滞后的、默认的、被动的,但最终占优.他的策略可能依赖于决策人劣势的策略选择,占去空间特性,因此对抗是唯一占优的方式,实为领导人的阶段性终结行为.(3)局中人(players):在一场竞赛或博弈中,每一个有决策权的参与者成为一个局中人.只有两个局中人的博弈现象称为“两人博弈”,而多于两个局中人的博弈称为 “多人博弈”.(4)策略(strategies):一局博弈中,每个局中人都有选择实际可行的完整的行动方案,即方案不是某阶段的行动方案,而是指导整个行动的一个方案,一个局中人的一个可行的自始至终全局筹划的一个行动方案,称为这个局中人的一个策略.如果在一个博弈中局中人都总共有有限个策略,则称为“有限博弈”,否则称为“无限博弈”.(5)得失(payoffs):一局博弈结局时的结果称为得失.每个局中人在一局博弈结束时的得失,不仅与该局中人自身所选择的策略有关,而且与全局中人所取定的一组策略有关.所以,一局博弈结束时每个局中人的“得失”是全体局中人所取定的一组策略的函数,通常称为支付(payoff)函数.(6)次序(orders):各博弈方的决策有先后之分,且一个博弈方要作不止一次的决策选择,就出现了次序问题;其他要素相同次序不同,博弈就不同.(7)博弈涉及到均衡:均衡是平衡的意思,在经济学中,均衡意即相关量处于稳定值.在供求关系中,某一商品市场如果在某一价格下,想以此价格买此商品的人均能买到,而想卖的人均能卖出,此时我们就说,该商品的供求达到了均衡.所谓纳什均衡,它是一稳定的博弈结果.纳什均衡(Nash Equilibrium):在一策略组合中,所有的参与者面临这样一种情况,当其他人不改变策略时,他此时的策略是最好的.也就是说,此时如果他改变策略他的收益将会降低.在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动.纳什均衡点存在性证明的前提是“博弈均衡偶”概念的提出.所谓“均衡偶”是在二人零和博弈中,当局中人A采取其最优策略a*,局中人B也采取其最优策略b*,如果局中人B仍采取b*,而局中人A却采取另一种策略a,那么局中人A的收益不会超过他采取原来的策略a*的收益.这一结果对局中人B亦是如此.这样,“均衡偶”的明确定义为:一对策略a*(属于策略集A)和策略b*(属于策略集B)称之为均衡偶,对任一策略a(属于策略集A)和策略b(属于策略集B),总有:偶对(a,b*)≤偶对(a*,b*)≥偶对(a*,b).对于非零和博弈也有如下定义:一对策略a*(属于策略集A)和策略b*(属于策略集B)称为非零和博弈的均衡偶,对任一策略a(属于策略集A)和策略 b(属于策略集B),总有:对局中人A的偶对(a,b*)≤偶对(a*,b*);对局中人B的偶对(a*,b)≤偶对(a*,b*).有了上述定义,就立即得到纳什定理:任何具有有限纯策略的二人博弈至少有一个均衡偶.这一均衡偶就称为纳什均衡点.纳什定理的严格证明要用到不动点理论,不动点理论是经济均衡研究的主要工具.通俗地说,寻找均衡点的存在性等价于找到博弈的不动点.纳什均衡点概念提供了一种非常重要的分析手段,使博弈论研究可以在一个博弈结构里寻找比较有意义的结果.但纳什均衡点定义只局限于任何局中人不想单方面变换策略,而忽视了其他局中人改变策略的可能性,因此,在很多情况下,纳什均衡点的结论缺乏说服力,研究者们形象地称之为“天真可爱的纳什均衡点”.塞尔顿(R·Selten)在多个均衡中剔除一些按照一定规则不合理的均衡点,从而形成了两个均衡的精炼概念:子博弈完全均衡和颤抖的手完美均衡.博弈类型博弈的分类根据不同的基准也有不同的分类.一般认为,博弈主要可以分为合作博弈和非合作博弈.合作博弈和非合作博弈的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议,如果有,就是合作博弈,如果没有,就是非合作博弈.从行为的时间序列性,博弈论进一步分为静态博弈、动态博弈两类:静态博弈是指在博弈中,参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动;动态博弈是指在博弈中,参与人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动.通俗的理"囚徒困境"就是同时决策的,属于静态博弈;而棋牌类游戏等决策或行动有先后次序的,属于动态博弈按照参与人对其他参与人的了解程度分为完全信息博弈和不完全信息博弈.完全博弈是指在博弈过程中,每一位参与人对其他参与人的特征、策略空间及收益函数有准确的信息.不完全信息博弈是指如果参与人对其他参与人的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的信息,在这种情况下进行的博弈就是不完全信息博弈.目前经济学家们现在所谈的博弈论一般是指非合作博弈,由于合作博弈论比非合作博弈论复杂,在理论上的成熟度远远不如非合作博弈论.非合作博弈又分为:完全信息静态博弈,完全信息动态博弈,不完全信息静态博弈,不完全信息动态博弈.与上述四种博弈相对应的均衡概念为:纳什均衡(Nash equilibrium),子博弈精炼纳什均衡(subgame perfect Nash equilibrium),贝叶斯纳什均衡(Bayesian Nash equilibrium),精炼贝叶斯纳什均衡(perfect Bayesian Nash equilibrium).博弈论还有很多分类,比如:以博弈进行的次数或者持续长短可以分为有限博弈和无限博弈;以表现形式也可以分为一般型(战略型)或者展开型;以博弈的逻辑基础不同又可以分为传统博弈和演化博弈.纳什均衡定义纳什均衡的定义:在博弈G=﹛S1,…,Sn:u1,…,un﹜中,如果由各个博弈方的各一个策略组成的某个策论组合(s1*,…,sn*)中,任一博弈方i的策论si*,都是对其余博弈方策略的组合(s1*,…s*i-1,sij*,s*i+1,…,sn*)的最佳对策,也即ui(s1*,…s*i-1,si*,s*i+1,…,sn*)≥ui(s1*,…s*i-1,sij*,s*i+1,…,sn*)对 任意sij∈Si都成立,则称(s1*,…,sn*)为G的一个纳什均衡.假设有n个局中人参与博弈,给定其他人策略的条件下,每个局中人选择自己的最优策略(个人最优策略可能依赖于也可能不依赖于他人的战略),从而使自己利益最大化.所有局中人策略构成一个策略组合(Strategy Profile).纳什均衡指的是这样一种战略组合,这种策略组合由所有参与人最优策略组成.即在给定别人策略的情况下,没有人有足够理由打破这种均衡.纳什均衡,从实质上说,是一种非合作博弈状态.纳什均衡达成时,并不意味着博弈双方都处于不动的状态,在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的.纳什均衡也不意味着博弈双方达到了一个整体的最优状态,以下的囚徒困境就是一个例子.案例-囚徒困境在博弈论中,含有占优战略均衡的一个著名例子是由塔克给出的“囚徒困境”(prisoner's dilemma)博弈模型.该模型用一种特别的方式为我们讲述了一个警察与小偷的故事.假设有两个小偷A和B联合犯事、私入民宅被警察抓住.警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果两个犯罪嫌疑人都坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪,各被判刑8年;如果只有一个犯罪嫌疑人坦白,另一个人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放.如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年.下表给出了这个博弈的支付矩阵.
囚徒困境博弈 [Prisoner's dilemma] A╲B坦白抵赖坦白-8,-80,-10抵赖-10,0-1,-1
对A来说,尽管他不知道B作何选择,但他知道无论B选择什么,他选择“坦白”总是最优的.显然,根据对称性,B也会选择“坦白”,结果是两人都被判刑8年.但是,倘若他们都选择“抵赖”,每人只被判刑1年.在表2.2中的四种行动选择组合中,(抵赖、抵赖)是帕累托最优的,因为偏离这个行动选择组合的任何其他行动选择组合都至少会使一个人的境况变差.不难看出,“坦白”是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略均衡.案例二-智猪博弈一、经济学中的“智猪博弈”(Pigs’payoffs) 这个例子讲的是:假设猪圈里有一头大猪、一头小猪.猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会首先付出2个单位的成本,若大猪先到槽边,大小猪吃到食物的收益比是9∶1;同时到槽边,收益比是7∶3;小猪先到槽边,收益比是6∶4.那么,在两头猪都有智慧的前提下,最终结果是小猪选择等待."智猪博弈"由约翰·纳什(JohnFNash),1950年提出.实际上小猪选择等待,让大猪去按控制按钮,而自己选择“坐船”(或称为搭便车)的原因很简单:在大猪选择行动的前提下,小猪选择等待的话,小猪可得到4个单位的纯收益,而小猪行动的话,则仅仅可以获得大猪吃剩的1个单位的纯收益,所以等待优于行动;在大猪选择等待的前提下,小猪如果行动的话,小猪的收入将不抵成本,纯收益为-1单位,如果小猪也选择等待的话,那么小猪的收益为零,成本也为零,总之,等待还是要优于行动.用博弈论中的报酬矩阵可以更清晰的刻画出小猪的选择:
小猪
行动等待大猪行动5,14,4
等待9,-10,0从矩阵中可以看出,当大猪选择行动的时候,小猪如果行动,其收益是1,而小猪等待的话,收益是4,所以小猪选择等待;当大猪选择等待的时候,小猪如果行动的话,其收益是-1,而小猪等待的话,收益是0,所以小猪也选择等待.综合来看,无论大猪是选择行动还是等待,小猪的选择都将是等待,即等待是小猪的占优策略.在小企业经营中,学会如何“搭便车”是一个精明的职业经理人最为基本的素质.在某些时候,如果能够注意等待,让其他大的企业首先开发市场,是一种明智的选择.这时候有所不为才能有所为!高明的管理者善于利用各种有利的条件来为自己服务.“搭便车”实际上是提供给职业经理人面对每一项花费的另一种选择,对它的留意和研究可以给企业节省很多不必要的费用,从而使企业的管理和发展走上一个新的台阶.这种现象在经济生活中十分常见,却很少为小企业的经理人所熟识.在智猪博弈中,虽然小猪的“捡现成”的行为从道义上来讲令人不齿,但是博弈策略的主要目的不正是使用谋略最大化自己的利益吗?总的来说“博弈论”其本质是将日常生活中的竞争矛盾以游戏的形式表现出来,并使用数学和逻辑学的方法来分析事物的运作规律.既然有游戏的参与者那么也必然存在游戏规则的制定者.深入的了解竞争行为的本质,有助于我们分析和掌握竞争中事物之间的关系,更方便我们对规则进行制定和调整,使其最终按照我们所预期的目的进行运作.