当前位置:文档之家› 高级微观经济学 博弈论

高级微观经济学 博弈论

高级微观经济学  博弈论
高级微观经济学  博弈论

高级微观经济学博

弈论

第八章博弈论

前面章节对经济人最优决策的讨论,是在简单环境下进行的,没有考虑经济人之间决策相互影响的问题。本章讨论这个问题,建立复杂环境下的决策理论。开展这种研究的的理论叫做博弈论,也称为对策论(GameTheory)。最近十几年来,博弈论在经济学中得到了广泛应用,在揭示经济行为相互制约性质方面取得了重大进展。大部分经济行为都可视作博弈的特殊情况,比如把经济系统看成是一种博弈,把竞争均衡看成是该博弈的古诺-纳什均衡。博弈论的思想精髓与方法,已成为经济分析基础的必要组成部分。

第一节博弈事例

博弈是一种日常现象,例如棋手下棋,双方都要根据对方的行动来决定自己的行动,双方的目的都是要战胜对方,互不相容,互相影响,互相制约。一般来讲,博弈现象的特征表现为两个或两个以上具有利害冲突的当事人处于一种不相容的状态中,一方的行动取决于对方的行动,每个当事人的收益都取决于所有当事人的行动。当所有当事人都拿定主意作出决策时,博弈的局势就暂时确定下来。博弈论就是研究这种不相容现象的一种理论,并把当事人叫做局中人(player)。

博弈论推广了标准的一人决策理论。在每个局中人的收益都依赖于其他局中人的选择的情况下,追求收益最大化的局中人应该如何采取行动?显然,为了确定出可行的策略,每个局中人都必须考虑其他局中人面临的问题。下面来举例说明。

例1.便士匹配(MatchingPennies)(二人零和博弈)

设博弈中有两个局中人甲和乙,每个局中人都有一块硬币,并且各自独立安排硬币是否正面朝上。局中人的收益情况是这样的:如果两个局中人同时出示硬币正面或反面,那么甲赢得1元,乙输掉1元;如果一个局中人出示硬币正面,另一个局中人出示硬币反面,那么甲输掉1元,乙赢得1元。

对于这个博弈,每个局中人可选择的策略都有两种:正

面朝上和反面朝上,即甲和乙的策略集合都是{正面,反

面}。当甲和乙都作出选择时,博弈的局势就确定了。显然,该博弈的局势集合是{(正面,正面),(正面,反面),(反面,

正面),(反面,反面)},即各种可能的局势的全体,也称为局势表,即表1。

每个局中人的收益都取决于所有局中人的决策,也就是

说,局中人的收益是博弈局势的函数。本例中,甲的收益

函数为:,,,;乙的收益函数为:,,,。局中人的收益函数也

可用表格或矩阵加以表示,并称其为收益表或收益矩阵。

表2中,甲的收益列在左边,乙的收益列在右边。

该博弈的特点在于每个局中人的收益都是另一个局中人的付出,即甲和乙的收益之和为零,收支发生在局内,不涉及任何局外人。这种博弈就是所谓的二人零和博弈。习惯上,人们喜欢把二人博弈的第一个局中人甲叫做“列”,第二个局中人乙叫做“行”,而且总是把列的收益写在前面(即左边),行的收益写在后面(即右边)。

例2.囚徒难题(Prisoner'sDelimma)(二人变和博弈)

有两个狂徒甲和乙因共同参与了一起犯罪活动而被囚禁收审。他们可以选择合作,拒绝供出任何犯罪事实;也可以选择背叛,供出对方的犯罪行

径。这就是所谓的囚徒博弈,也叫做囚徒难题。博弈

的局中人甲和乙都有两种可选择的策略:合作与背

叛。

囚徒博弈的意义在于它可以解释寡头垄断厂商的行为,关键是赋予合作与背叛具体的经济含义。比如在双头垄断的情况下,合作可以解释为“保表1:便士匹配博弈局势表

表2:甲和乙的收益表 表3:囚徒博弈局势表

持索要一个高价”,背叛可解释为“降价以争夺对手的市场”。右表给出了囚徒博弈的局势表。 局中人可以事先讨论这局博弈,但实际决策必须独立地做出。如果甲采取合作策略,不供出乙的犯罪事实,那么乙就能得到3000元的收益。同样,如果乙采取合作策略,那么甲就能得到3000元的收益。可见,如果甲乙双方都采取合作策略,双方各得3000元收益。 但是,审讯者用1000元奖赏来鼓励局中人采取背叛策略。这样,只要局中人选择背叛,他就会得到1000元鼓励,而不管另一个局中人会采取什么策略。

需要注意的是,囚徒博弈中的货币支付来自第三方——局外人,这正是囚徒博弈同便士匹配博弈的不同之处。奥曼(Aumann)1987年对囚徒博弈给出了一个特别简单的描述:每个局中人都可以对仲裁人简单地宣告“给我1000元”或“给对方3000元”。

简单分析一下就会发现,如果一个局中人采取

合作策略,而另一个局中人采取背叛策略,那

么采取合作策略的局中人的收益为零,而采取

背叛策略的局中人的收益为4000元(3000元

收益再加上1000元的背叛鼓励)。如果双方都采取背叛策略,则双方的收益各为1000元。表4列出了甲乙双方的收益情况。从收益表可以看出,甲乙双方的收益之和不为零,而且收益和是变化的。因此,囚徒博弈是一种变和博弈。

直觉上看,甲和乙都应采取合作策略(互不供出对方的犯罪事实),各得3000元收益。但从收益表可以得出这样的结论:如果一个局中人认为另一个局中人将合作,从而他将得到3000元收益,那么他若采取背叛策略,就将总共能获得4000元的收益;如果他认为另一个局中人为了得到1000元鼓励而将背叛,那么他也就只好为了自己也取得1000元鼓励而采取背叛策略(否则,他将一无所获)。总之,在收益最大化动机的驱使下,局中人的最优选择是背表4:甲和乙的收益表

叛。这样一来,甲乙双方都采取背叛策略,各得1000元收益;而不是都采取合作策略,各得3000元。这是一个典型的博弈悖论,问题的关键在于每个局中人都有背叛的鼓励,而不管其他局中人将做什么。

例3.古诺博弈(双头垄断:产量较量)

法国经济学家古诺(Cournot)于1838年以天然矿泉井为例,首次建立了简单的双头垄断博弈模型,其特点是,垄断厂商双方都天真地以为对方不会改变原有产量水平,双方都追求各自利润最大化。古诺假定:①有两个天然矿泉在一起,分别为厂商甲和乙占有;②两个矿泉都为自流井,生产成本为零,边际成本也为零;③甲和乙面对相同的需求曲线,采用相同的价格;④双方都以为对方的产量水平不会改变。在这些假设前提下,甲和乙各自独立决定自己的产量水平,以求利润最大化。

设是甲乙双方共同面临的反需求函数。当甲的矿泉水产量为,乙的产量为时,矿泉水的市场价格为,甲的利润,乙的利润为。在这个博弈中,甲乙双方的策略都表现为选择产量水平,局中人的收益即为厂商的利润。当甲的产量为时,乙以为甲不会改变这一产量,而选择一个合适的产量水平以使自己的利润达到最大。同样,当乙的产量水平为时,甲以为乙不会改变这一产量,而选择一个合适的产量水平以使自己的利润达到最大。

为了说明这个博弈的结果,假设甲乙双方面临的反需求函数。用表示这局博弈中甲选择的最优产量,表示乙选择的最优产量水平,则甲乙各自的收益分别为和。由于实现了利润最大化,因此

解之得:当乙的产量水平为时,甲决定的产量水平为(这是甲对乙的反应函数);当甲的产量水平为时,乙决定的产量水平为(这是乙对甲的反应函数)。其中,表示矿泉水市场容量(即价格为零时的矿泉水需求量)。进一步求解可得:,即博弈的结果是双方最终各占据矿泉市场的三分之一。反应函数说明,古诺博弈中每个局中人的决策(选定的产量水平)不但依赖于其他

局中人的决策,而且与市场的容量有关。

例4.贝特兰博弈(双头垄断:价格较量)

古诺博弈模型描述了双头垄断厂商之间展开的产量较量。实际上厂商之间的产量较量并不如价格较量那么普遍,寡头之间应该有激烈的价格竞争。不论市场价格如何,只要某一厂商降低价格,而其他竞争对手保持原价格不变,那么降价厂商就能占有全部市场。这就是说,我们假定消费者只从最低价格厂商那里购买产品。为此,法国经济学家贝特兰(Bertrand)于1883年提出了以价格为选择策略的贝特兰博弈模型,反对古诺关于产量的博弈模型。

还以矿泉水为例,在贝特兰博弈模型中各厂商都预期对手不会改变价格,从而将自己的价格确定在利润最大化的水平之上。这就是说,贝特兰博弈的构建同古诺博弈相似,所不同的是贝特兰博弈中局中人的策略是选择价格,而古诺博弈局中人的策略是选择产量水平。

贝特兰博弈中两个局中人甲和乙也是面临相同的市场需求函数,不过现在价格是自变量,产量为因变量(古诺模型正好相反)。设市场需求函数为,为了分析上简单起见,进一步设(这里,,,即与古诺模型中的市场需求相同)。局中人的收益仍是他所获得的利润。

如果甲和乙不相互勾结串通,当乙采取了价格水平时,甲认为乙不会改变这一价格水平,从而为了占领市场而要采取低于乙的价格水平的价格,于是甲的利润为,乙的利润为零;同样,当甲采取了价格水平时,乙认为甲不会改变这一价格水平,从而为了占领市场而要采取低于甲的价格水平的价格,于是乙的利润为,甲的利润为零。

如果甲和乙相互勾结串通起来,采取相同的价格策略,即,那么甲和乙就能索要一个垄断价格,并且每人可收取一半的垄断利润。

由此可见,甲和乙的利润函数分别为:

如果甲和乙勾结串通,合作起来,那么双方就能按照最大利润价格获得垄断价格,并且各得

最大利润的一半。这里,利润最大化价格是按照

确定的。但是,占领市场的诱惑对每个局中人都存在,只要他稍微降价,他就能获得全部市场。假如甲先进入该矿泉市场,那么甲就按照利润最大化价格$P_1=Q_o/(2b)$获取最大利润。继而乙进入这个市场,且乙认为甲不会改变他的价格$P_1$,于是乙为了夺取市场而采取低于甲的价格水平的一个价格(。由于乙夺走了市场,甲同样又会采取低于乙的价格水平的价格,以夺回市场。这样不断往复下去,直至最后甲乙双方都把价格水平定为零时才可达到均衡,此时双方的收益为零,市场各占一半(即甲的销售量和乙的销售量相等,且)。这就是甲乙双方不合作的结果,双方都变得更差。

以上分析表明:把贝特兰博弈与古诺博弈作比较,对同一市场来说,由于选择了不同的策略集合(一个以产量作为策略,另一个以定价作为策略),得出了不同的博弈结果,贝特兰博弈的均衡价格、均衡产量和均衡利润都呈完全竞争状态(超额利润为零),而古诺博弈的结果不是这样;再把贝特兰博弈同囚徒难题博弈作比较,二者具有相似的结构,即局中人合作会取得最好的结果,但利益的诱惑促使他们采取不合作的行动,致使双方博弈的结局都变得更差。贝特兰博弈也可用囚徒博以来解释:合作是指两个厂商的勾结,背叛是指两个厂商独立行动,没有勾结。合作,可以索要一个高的垄断价格;背叛,则导致市场价格为零,双方利润为零。可见,双方合作起来,对两个厂商都有利,似乎应该合作。但博弈的最终结果是双方都采取背叛策略,导致谁也得不到利润。

本节所举的这些事例说明,寡头垄断厂商之间展开的竞争与较量完全可以用博弈加以描述和研究。实际上,经济学中大部分经济现象都可以作为博弈的特殊情形进行研究,比如历史上解决竞争均衡的存在性这一经济学基本问题时,就把经济系统看成为一局博弈。

为了研究博弈,必须抓住博弈现象的基本要素,这些要素是:局中人、策略、收益。也就是说,博弈可以用局中人集合、策略集合和收益函数加以描述。局中人从策略集合中选择一种

策略后所获得的效用或利益,就是局中人的收益(payoffs),也叫做得失。我们假定每一个局中人都知道他自己和别人的策略集合与收益函数,这就是说,每个局中人的策略集合与收益函数为所有局中人所共知。当然,每个局中人都知道其他局中人掌握着这些信息和知识。局中人的收益不但依赖于他自己的策略选择,而且依赖于其他局中人的策略选择。我们再假定每个局中人在给定的主观信念下会选择收益最大化的行动,并且当新的信息根据贝叶斯规则到来时,这些信息会得到修正(即根据贝叶斯全概率公式从先验概率计算后验概率)。

第二节策略博弈

为了能够正确地应用博弈论研究经济问题,需要对博弈加以准确地描述和定义。要定义一个博弈,需要确定三件事情:一是局中人集合(setofplayers),一是局中人的策略集合(setofstrategies),一是局中人的收益函数(payofffunction)。这三件事情中,确定策略集合是至关重要的。局中人以策略决定胜负,目标是使他的收益最大化。这种以策略定胜负的博弈,称为策略博弈(gameofstrategy)。正象比较古诺博弈和贝特兰博弈时说明的问题一样,用博弈论研究经济问题时,对于同一经济现象,由于选择了不同的策略集合,得到的博弈结果截然不同。

用表示博弈的局中人集合,表示局中人的策略集合,表示的收益函数,则就表示了一个博弈。根据局中人的多少,博弈可分为二人博弈和多人博弈。根据博弈的策略集合是否有限,博弈还又可分为有限博弈和无限博弈。例如,便士匹配和囚徒难题都是有限博弈,而古诺博弈和贝特兰博弈都是无限博弈。还可根据所有局中人的收益总和是否固定,把博弈分为常和博弈和变和博弈。常和博弈分为零和博弈(即收益总和为零的博弈)和非零和博弈。二人零和有限博弈是所有博弈中最简单、最重要的一类,通常称为矩阵博弈。本节以二人博弈为重点,介绍有关策略博弈的概念与理论。

一.策略表与收益矩阵

设二人博弈的局中人是甲和乙。甲有种可选策略,策略表为;乙有种可选策略,策略表为。当甲采取策略,乙采取策略时,称为博弈的局势,集合就是局势集合(局势表、局势矩阵),即

每个局中人选择自己的策略时,都要考虑对手的行动。这样每个局中人的收益不但与自己的选择有关,而且与对手的选择有关,收益函数是定义在局势集合上的函数,这里假定了局中人的收益是可以用实数来都来计量的。用表示局中人甲的收益函数,用表示局中人乙的收益函数。由于局势集合是有限集合,收益函数和都可用矩阵加以表示,这些矩阵就称为收益矩阵。记,,则甲和乙的收益矩阵分别为:

当(常数)时,该博弈就是常和博弈。否则,就是变和博弈。局中人的策略与收益也可用收益表加以表达:

表1:博弈的收益表

一般情况下,二人博弈可表示成。但对于二人常和博弈,则可简单地表示成,其中为收益的常数和。而矩阵博弈则可更简单地表示成,或者直接用甲的收益矩阵来表示矩阵博弈。二.最小最大原理

局中人的目标是选择使自己收益最大化的策略,我们来分析局中人如何决策。假定甲乙双方彼此了解对方的收益表。如果甲通过间谍获悉乙采取某种策略时,甲必然会采取相应的某种策略,以求自己的收益最大,即选择使下式成立:

但是,当甲不知道乙会采取什么策略时,如果甲是一个避险者,那么他必将作最坏的打算,以求取得较好的效果。首先,甲要从收益表中找出自己的每一种策略下至少可获得的收益(即所能获得的最小收益),即先求解,然后从这些最小收益策略中选择出收益最大的策略,即“从最小收益中选择最大收益”。从收益矩阵来看这个决策过程,即甲首先选出自己的收益矩阵的各行的最小值,然后从这些最小值中再选出最大值:

这就是求解策略博弈的最小最大原理,其合理性表现为:如果甲采取按照最小最大原理确定的策略,那么不论乙采取什么策略,甲都可至少得到这个最小最大收益。由此可见,最小最大原理是能够确保局中人收益的一种原理。今后,我们把局中人甲按照最小最大原理所确定的策略,叫做甲的稳妥策略。

对于局中人乙来说,他的决策行为和决策过程同甲是一样的,只不过乙要依赖于收益矩阵。乙决策的最小最大原理是:乙先选出收益矩阵的各列的最小值,然后从这些最小值中选出最大值:

局中人乙按照最小最大原理确定的策略,称为乙的稳妥策略。

读者可能会问:甲先找出他的收益矩阵各列的最大值,然后再从这些最大值中选出最小值,不也是一种很好的决策办法吗?其实,这种决策办法叫做最大最小法,照此办法做出的决策,在甲不知道乙会采取什么策略的情况下不能保证甲的最大最小收益能够达到。原因在于最大最小法需要确定出乙的每种策略下甲的最大可能的收益。假如甲按照最大最小法选出了策略,那么当乙采用策略时,甲可得到最大最小收益。但是,若乙采用的不是策略,而是策略,那么甲如不重新选择他的收益矩阵第列的最大值的话,他的最大最小收益就不一定能够达到,这正是最大最小法同最小最大原理的区别。

实际中,在甲不知道乙会采取什么策略的情况下选定了自己的策略以后,乙的策略才出台,为甲也获悉了乙的这一行动时,甲很有可能来不及调整自己原定的策略,从而给甲带来一定

的损失。因此,最大最小法在保证局中人收益方面不如最小最大原理那么保险。

当甲和乙的稳妥策略都已选定时,二者结合起来能否成为博弈的结果呢?答案是未必。请看下面二人零和博弈的事例。

例1.高度不确定的博弈

考虑二人博弈,甲的策略集合,乙的策略集合,甲和乙的收益矩阵和通过博弈的收益表给出(见表2)。

对于甲来说,;对于乙来说,。这说明甲的稳妥策略是,乙的

稳妥策略是。

但是,当甲采取时,乙采取的收益小于采取的收益,因而乙

要改用策略。在乙改用后,甲采取策略的收益小于采取的收

益,因而甲也要改用策略。而当甲改用后,乙采用的收益小

于采用的收益,于是乙又要改回到;在乙改回到后,甲也要改回到收益最大的策略。这就让我们看到:当甲采取时,乙要采用;然后甲改用,乙随之改用;甲再改用,乙又改用,如此不断往复下去,博弈的结局是高度不确定的。

一般来讲,要想一个二人博弈具有确定的结局,必须存在这样的局势:

满足这个条件的的局势,叫做博弈的均衡或最优解或最优局势,其中的和分别叫做局中人甲和乙的最优策略或均衡策略。这个条件也就叫做博弈的均衡条件。

对于二人常和博弈来说,是博弈的最优解当且仅当

数学中,满足这个条件的点叫做函数的鞍点。因此,是博弈的最优解当且仅当是收益函数的鞍点。下面的定理给出了鞍点的判别条件。

鞍点定理.是收益函数的鞍点的充要条件是:

证明:必要性.设是的鞍点,即。 表2:甲和乙的收益表

从可知,对一切成立,这就蕴含着,即。

注意,。这就证明了。

充分性.设满足。从可知;从可知。所以,,即是函数的鞍点。◆

既然二人常和博弈的最优解恰好就是收益函数的鞍点,鞍点定理告诉我们,当收益函数的鞍点存在时,利用最小最大原理确定的博弈局势就是二人常和博弈的最优解。

但是,当收益矩阵不存在鞍点时,常和博弈就没有最优解,博弈的结局就是高度不确定的。鉴于此,我们将有鞍点的常和博弈称为严格确定的博弈。

三.反应函数

博弈的局中人总是要考虑对手的行动,然后确定自己的对策。当乙采取了某种策略,而且被甲所觉察时,甲必然有所反应,要确定出相应的对策以使自己的收益在乙选择的情况下达到最大,即要使。甲对乙的行动的这种反应,确定了一个从乙的策略集合到甲的策略集合的映射,即对任何,甲的反应策略是按照来确定的。这个映射就叫做甲对乙的反应函数。

同样的道理,可以确定出乙对甲的反应函数,即对任何,是按照来确定的。

利用反应函数,我们也可以解释博弈的结局。就象古诺博弈一样,假如甲先采取某种策略,乙通过某种途径获悉了甲的这一行动,并认为甲不会改变他的策略,于是作出反应,决定采取策略,以使自己的收益最大化。当乙采取策略时,甲掌握了这一信息,并认为乙不会改变他的策略,于是作出反应,改变原来的策略,决定采用,以求收益最大化。这时,乙再次对甲的行为作出反应,采取新策略。甲也再次对乙的行动作出反应,采取新策略。这样的反应不断下去,直到最后达到且时博弈实现了均衡,此时的局势就是博弈的最优解(均衡、最优局势)。

综上所述,博弈的结局是实现均衡,并且均衡由甲乙双方的反应函数确定,即由方程组决定。事实上,是该方程组的解当且仅当,而这正是博弈实现均衡的含义。注意,以上关于反应函

数的讨论,没有要求策略集合的有限性,即集合和可以是任何集合。

下面考虑二人无限博弈的一种特殊情况:策略集合和都是实数区间。比如,本章第一节例3中古诺博弈的局中人策略集合就是区间(半直线),例4中贝特兰博弈的局中人策略集合也是半直线。假设局中人甲和乙的收益函数和可微,则甲对乙的反应函数由方程(一阶条件)决定,乙对甲的反应函数由方程(一阶条件)决定,从而博弈的最优解就是如下方程组的解:

例2.二人博弈的反应函数及最优解

设二人博弈中,甲和乙的策略集合和为,收益函数和分别如下:

求偏导数得方程组。由此可知局中人甲和乙的反应函数分别为,博弈的最优解为。四.策略选择的经济模拟

第一节中曾经指出,描述一个博弈时策略集合的选择至关重要。比较古诺博弈和贝特兰博弈,虽然二者的目的都是要模拟同一经济现象——双头垄断,但二者的结构却很不同。古诺博弈中厂商的策略是选择产量,厂商的收益是策略变量的连续函数;而贝特兰博弈中厂商的策略是选择价格,厂商的收益是策略变量的非连续函数。这导致了相当不同的均衡,究竟哪一种是正确的呢?

如果抽象地看待这个问题,那么“哪一种模型正确”这样的提问并无什么意义。要回答这个问题,就必须看模型试图模拟什么。不要问哪一种模型是正确的,而去问策略选择中什么样的考虑是切入主题的,这样的提问可能会更加有益一些。比如,如果我们观察OPEC公司的公告,就会发现OPEC企图为每一个员工决定产量配额,并且允许按照世界石油市场价格定价,这样按照产量水平而不是按价格水平来模拟博弈策略,就可能更加合理。

在策略选择的经济模拟中还有另一方面的考虑,乃就是一旦对手的行为被观察到,那么对手的策略应该是被承诺的或者是难以改变的。然而到目前为止,所描述的博弈是“一次性”(one-shot)博弈,其特点是一旦知道对手的行动,策略变量可以很快地进行调整。例如,假

设我为我的产品选择一个价格,然后发现我的对手制定了一个略低一些的价格,在这种情况下我可以很快地调整我的价格。因此,尽管“一次性”博弈所描述的现象应该是发生在实际生活中的现实,但在“一次性”博弈中模拟这种能够很快调整的策略反应并不具有多大的意义。似乎应该使用多阶段博弈,这样才能捕获到策略选择行为的所有可能的内容。

另一方面,如果我们把古诺博弈中的产量水平解释成为厂商的生产能力,那么一定产量的产品生产就可能是不可撤消或不可改变的资本投资。这种情况下,厂商一旦发现对手的产量水平,而要改变厂商自己的产量水平,则可能是难以办到或非常昂贵的。生产能力或产量水平似乎是厂商策略的天然选择,即使一次性博弈中也是这样。

同大部分经济模拟一样,在策略选择的经济模拟中,如果既要让博弈简单明了以便分析,又要能够说明实际策略的迭接要素,那么如何表示博弈的策略选择,就是一项艺术。

第三节重复博弈

到目前为止,所谈论的博弈是一次性的。其实,任何博弈都可以一次一次地重复进行,且每一次重复都不是简单地重复前一次的着法,而会考虑得比前一次更全面些,技法也会更高些。就好像棋手下棋一样,一局结束了再开一局,前一局在某些着法上吃了亏,这一局中就会吸取教训而加以注意,正所谓“吃一暂,长一智”。反反复复地开局,给棋手不断积累经验,让棋手的技艺越来越高。

通过博弈的重复进行,局中人的经验越来越丰富,这种经验源于博弈历史。实际上,重复博弈中的每一点处,局中人决定自己的选择时会考虑到达该点之前的全部博弈历史,比如象棋棋手在上一局中因出车慢而吃了亏,那么这一局中就会吸取前一局的教训而赶快把车开出来。这样一来,重复博弈中局中人的策略空间随着博弈被重复的次数的增加而变得越来越大,也就是说,博弈历史越长,局中人的策略空间越大,可以选择的着法越多。由于“我的对手会基于我的选择历史而修正他的行为,我必须在做出自己的选择时考虑到这种影响”,所以,

重复博弈的结果不绝不是一次性博弈的简单重复。

例1.囚徒博弈的重复

我们以囚徒博弈为例,来分析重复博弈问题。囚徒博弈中,企图获得“(合作,合作)”解是两个局中人的长期利益所在。对于每个局中人来说,可行的做法是试着给另一个局中人发出“信号”以表明他的“善意”,并且在博弈一开始移动就进行合作。当然,背叛是另一个局中人的短期利益所在。如果他不合作而采取背叛策略,那么对方就可能失去耐心而从此以后永远只实行背叛。这样一来,背叛者就会因只看到眼前利益而丧失合作的长期利益。基于这种推理可以得到的事实是,一个局中人目前的做法将在未来将得到回应——其他局中人的未来选择可能依赖于这个局中人当前的选择。

现在来分析一下“(合作,合作)”局势能否成为重复囚徒博弈的一个均衡。我们分两种情况进行讨论,一种情况是有限次重复博弈,另一种情况是无限次重复博弈。

先讨论有限次重复博弈,为此假定每个局中人都知道博弈将重复一个固定的次数(比如重复5次)。考虑最后一轮博弈实施之前局中人给予的推理,此时每个人都认为他们在进行一次性博弈。由于这是最后一次移动,将来不会再有,因此均衡的标准逻辑推理便得以应用,其结果是局中人双方都选择“背叛”策略。再考虑最后一次移动之前的移动,这里似乎每个局中人都重视合作,以向对方发出他是“好人”的信号,以便能在下一次以及最后一次移动中合作。但是,我们已经看到,最后一次移动中双方都将采取背叛,因此在倒数第二次的移动中合作就没有什么优势可言。采取合作是为了得到长期利益,为了在将来最后一次移动中得到回应。然而,将来最后一次移动中并不能得到合作,双方都背叛了,结果倒数第二次移动中双方也只有采取背叛。同理不断向后归纳(backwardsinduction),结果最后一次移动之前的所有移动中,合作并不能带来什么长期利益,没有什么优点,局中人惟有相信其他局中人将在最后一次移动中背叛,用现在的善意企图去影响未来下一次的移动是无利可图的。因

此,在重复某一固定次数的囚徒难题重复博弈中,每一局博弈的均衡局势都是“(背叛,背叛)”,而不是“(合作,合作)”。

再来考虑博弈可无限次重复的情况。当博弈的重复次数为无限时,情况就大不相同了。此时,局中人在每一个阶段都知道博弈至少还要重复一次以上,因而合作大有前景,长期利益在望。在这种无限次重复的囚徒博弈中,每个人的策略都是一个函数序列,它表明每个局中人在每个阶段是选择合作还是选择背叛,都是作为此阶段之前博弈历史的函数。重复博弈中,局中人的收益是各阶段收益的贴现值之总和——贴现和(向时刻0贴现)。具体地说,设局中人在时刻的收益(即第局重复中的收益)为,他在重复博弈中的收益就是贴现和,其中为贴现率。只要贴现率不很高,囚徒博弈每一局重复的均衡局势便都是“(合作,合作)”,每个人在各个阶段都会看到合作的利益。为了说明这个事实,我们采用第一节例2提供的数据。

假设两个局中人一直合作,移动到了时刻。如果本次移动中一个人决定背叛,那么另一个人会因本次移动中采取合作而未得收益,从而从下次以后永远采取背叛策略,给对方以惩罚。第一个背叛者从本次开始,以后只能继续背叛(因为合作的收益为零),结果他虽然在本次移动中立即得到了4000元的收益,但也以以后无限次的1000元收益这个低收益流来毁灭自己,他从背叛中得到的收益贴现和为元。另一方面,如果他持续合作下去,永不背叛,那么对方也不会背叛,于是他从合作中得到的收益贴现和为元。比较和可知,只要贴现率,就有。这就说明,只要贴现率不很高,当一方背叛时,另一方也采取背叛给其以惩罚,就能使背叛者偿其苦果。由此看来,只有双方互相合作下去。如有一方背叛,另一方就要执行惩罚策略来使背叛者饱偿苦果,因而没有一方能够从背叛中会有收获。所以,在贴现率不很高的情况下,囚徒博弈重复的均衡是局中人双方在各阶段都采取合作策略。

以上论述实际上是很有力的,有一个称为弗尔克(Folk)的著名定理支持了这一论述。该定理断言:在重复的囚徒博弈中,任何收益如果高于局中人双方一致背叛所能得到的收益,那么

都将被作为重复博弈均衡而得到支持。上面我们还提到了惩罚策略,实际上这个策略可明确叙述成:“在当前移动中合作,除非其他局中人在最后移动中背叛”。采取这个策略的理由是,如果一个局中人背叛,那么他将在收益上得到永久性惩罚。另外,上面论述中还涉及到了贴现率,并要求贴现率不很高。实际上,当贴现率很高时,当前收益就是特别重要的,因为将来的货币贬值太大了,现在的收益要抵得上将来收益的好几倍,因而当事人只好顾及当前收益,力求当前收益越多越好,而把未来长远利益放在次要位置上。

下面再看一个双头垄断的重复博弈事例。

例2.维持卡特尔

考虑一个简单的重复双头垄断,如果两个厂商都执行古诺博弈均衡策略,则得到利润;如果以共同利润最大化决定产量水平,即执行卡特尔行动,则得到利润。我们知道,一次性博弈中共同利润最大化的产量不是博弈均衡,每个厂商都有激励去倾销额外数量的产品,如果他认为其他厂商将保持产量不变的话。但是在重复博弈中,只要贴现率不太高,合作起来以使共同利润最大化之策略,将是重复博弈的最优解。

可以证明,如果这种简单的双头垄断博弈是一次性的,那么每个厂商以古诺产量生产将是博弈的最优解。但是,如果这个博弈是不断重复的,那么每个厂商都采取按照卡特尔产量生产的策略,即都选择合作,将是双头垄断重复博弈的最优解。对不合作的适当惩罚,是采取生产古诺产量水平这一策略。可见,在不断重复的双头垄断博弈中,由于一次性博弈均衡这种惩罚策略的存在,局中人都将以长远利益为重,来维持卡特尔。

第四节混合策略

并非所有博弈都有严格确定的结局。进一步,实际中博弈局中人常常希望自己的行动隐秘不被暴露,不被对手觉察。对于这两个问题,目前意义上的策略博弈是解决不了的。在博弈非严格确定或者局中人希望保守秘密的情况下,局中人的最好做法是采取混合策略,即以一定

的概率采取某种策略。这样做,甚至连局中人自己也不知道每一次行动中究竟采取什么策略,竞争对手就更不得而知了。而且对于非严格确定的博弈来说,采用混合策略就可求得最优解。当一种混合策略以概率1选择某种策略时,这种策略就是前三节所谈论的“纯”策略,可见混合策略扩展了策略概念。

一.混合策略的概念

我们以两人博弈为例,来对混合策略的概念以及采取混合策略时局中人的行动目标进行解释。至于更一般的多人博弈,将在下一节中讨论。

设为有限二人策略博弈,其中为局中人甲的策略集合,为乙的策略集合,和分别为甲和乙的收益函数。

局中人为了保持自己决策的秘密性,不再象以前那样选择纯策略,而决定采用随机办法来选择策略。也就是说,局中人对纯策略的选择由某种随机装置来决定,对每个纯策略来说,采用它只有可能性的大小,也就是用多大的概率来选择各个纯策略。这样,对方就不可能事先知道究竟选择哪个纯策略,甚至连局中人自己也不可能事先知道,而纯策略是在最后时刻借助随机装置选择出来的。通过借助随机装置,局中人原来对纯策略的选择变成为现在对各个纯策略的概率大小的选择。

如果还嫌借助随机装置给出的选择各个纯策略的概率大小具有一定的客观性,怕被对方估计出来,局中人还可进一步采取主观概率分布,以使对纯策略的选择带有真正的不确定性(参见第六章关于主观概率的介绍)。

这种以某种概率选择的策略就是混合策略,更准确地说,选择混合策略就是选择一个概率分布,然后按照这个分布给出的概率来选择各个纯策略。假如甲选择策略的概率为,,则向量代表着甲选择各种纯策略的概率分布,实际上就表示了甲的一种混合策略。这就是说,混合策略是用概率分布来表示的,混合策略的变化完全反映为概率分布的变化。今后,我们把概

率分布就称为局中人甲的混合策略。

原来的纯策略可看成是这样的一种混合策略:以概率1选择策略,以概率0选择其他策略。如此一来,甲的策略集合由原来的纯策略集合扩张成为混合策略集合。同样,局中人乙的选择集合也由原来的纯策略集合扩张成为混合策略集合。当甲采取混合策略,乙采取混合策略时,就称为博弈的混合局势。

在采取混合策略的情况下,局中人的目标是要使预期收益最大化。当甲采取混合策略,乙采取混合策略时,甲和乙的预期收益分别为和:

这里,和都写成行向量形式,“”为转置运算。甲的收益函数由原来的扩充成为,乙的收益函数由原来的扩充成为。

在策略集合和收益函数都得到扩充以后,原来的纯策略博弈就扩充成为混合策略博弈,而且可看成是一般的二人博弈,不过这个博弈的收益函数具有双线性性,即对于任何,,及任何实数,都成立:

的混合局势就是的局势。博弈叫做纯策略博弈的混合扩充。关于混合扩充,下述两个事实是明显的:

(1)博弈是常和博弈当且仅当混合扩充是常和博弈。

(2)如果是常和博弈,则混合扩充保持了原来博弈的收益和。

混合扩充的最优解(均衡),叫做原博弈的最优混合解(混合均衡)。也即是的最优混合解,是指且。当是的最优混合解时,和分别叫做甲和乙的最优混合策略。可以证明:

(3)纯策略博弈的最优解必然是混合扩充的最优解。

(4)当是常和博弈时,是的最优混合解当且仅当。

从(4)可知,是常和博弈的最优混合解当切仅当是预期收益函数的鞍点。应用第二节的鞍点定理,我们得到常和博弈的最优混合解的又一判别条件:

(5)设是二人常和博弈,则是的最优混合解的充分必要条件是。

二.混合策略的意义

有时,给予混合策略一个有意义的解释是困难的。第一节例1所述的便士匹配博弈,由于收益矩阵没有鞍点,因而没有纯策略意义下的最优解。但由于硬币出现正面或反面,总有一个概率分布情况,因此采取混合策略来把便士匹配博弈加以扩充,然后寻找混合策略意义下的最优解,这显然是我们大家都能够感觉得到的应该采取的做法。然而对于象双头垄断这样的一些其他经济利益博弈来说,采取混合策略似乎是不现实的。

除了混合策略在一定范围内缺乏现实意义外,还有一些逻辑上的原因导致对混合策略难以解释。我们用一个例子来说明这一点。

例1.性别博弈(BattleoftheSexes)

这里介绍的博弈背后隐藏的故事是一场“性别之战”。茹达

(Rhonda ,女)和卡夫(Calvin ,男)本周末一起欢度良宵,但他

们二人的娱乐爱好不同。茹达喜欢看话剧,而卡夫喜欢看足球

比赛。如果他们同时选择看话剧,则茹达可得2个单位的效用,

卡夫可得1个单位的效用;如果同时选择看足球比赛,则他们得到的效用正好与此相反;如果他们选择不同的娱乐,则得不到任何效用。右表给出了茹达和卡夫的收益情况。我们来看一看茹达和卡夫之间这场“性别之战”博弈的结局究竟如何。 首先,让我们寻找该博弈的所有纯策略意义下的最优解。通过对各种策略进行逐一相互比较,不难看出“(话剧,话剧)”和“(足球,足球)”都是纯策略最优解,即茹达和卡夫选择相同的娱乐,才是最好的做法。

然后,我们来寻找混合策略意义下的最优解。茹达的收益矩阵和卡夫的收益矩阵为:

, 性别博弈收益表

博弈论经典案例分析

博弈论经典案例分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A 来说,囚徒B 有坦白和不坦白两种可能的选择,假设囚徒B 的选择是不坦白,则对囚徒A 来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B 选择的是坦白,则囚徒A 不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B 采取何种策略囚徒A 的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 1,1 8, 0 不坦白 0,8 5,5 坦白 嫌疑犯乙 不坦白 坦白 嫌疑犯甲 1,2 -1, -1 时装 0,0 2,1 足球 男 时装 足球 女

博弈论与信息经济学pdfnet

博弈论与信息经济学-pdfnet

————————————————————————————————作者:————————————————————————————————日期:

《博弈论与信息经济学》教学大纲 课程名称:博弈论与信息经济学 课程英文名称: Game and Information Economics 课内学时:32 课程学分:2 课程性质(学位课/选修课)开课学期:每学年第一学期 教学方式:课堂讲授考核方式(考试/考查):考核 大纲执笔人:刘林主讲教师:刘林 师资队伍:刘林郭海涛 一、课程内容简介 博弈论是研究决策主体的行为产生相互作用时各个主体之间的最优决策以及决策均衡问题的。博弈论在西方经济学的教科书中已是一门被广泛接纳的理论知识课程。博弈论分为合作博弈和非合作博弈,本课程讲授的是非合作博弈。博弈论之所以成为主流经济学的一个重要组成部分,是因为信息问题在经济学中变得越来越重要。从非合作博弈理论来看,主体内容包括:完全信息静态博弈,完全信息动态博弈,不完全信息静态博弈和不完全信息动态博弈。 信息经济学是非对称信息博弈论在经济学中的应用,可以简单地理解为:给定一定的信息结构,什么是最优的契约安排。信息的非对称性可以从两个角度划分:非对称信息发生的事件以及非对成信息发生的内容。研究事前非对称信息博弈的模型称为逆向选择模型,研究事后非对称信息博弈的模型称为道德风险模型。研究不可观测行动的模型称为隐藏行动模型,研究不可观测知识的模型称为隐藏知识模型(或隐藏信息模型)。在委托人-代理人的框架下,信息经济学的主体内容包括:隐藏行动的道德风险模型,隐藏信息的道德风险模型,逆向选择模型,信号传递模型,信息甄别模型。 二、课程目的和基本要求 【目的和要求】 通过导论部分的学习,使学生了解和掌握博弈论与信息经济学的研究对象,博弈论与信息经济学的形成与演变,博弈论与信息经济学的基本问题,课程目的与任务,课程基本要求,课程内容、教学方法及学时分配,推荐教材及主要参考书。 【重点】 ●博弈论与信息经济学的研究对象 ●博弈论与信息经济学的形成与演变 ●博弈论与信息经济学的基本问题 ●课程目的与任务 ●课程基本要求、课程内容、教学方法及学时分配 【难点】 ●博弈论与信息经济学的基本问题 三、课程主要内容

《博弈论与信息经济学》习题库

上海师范大学商学院 任课教师:刘江会 2010-2011学年第一学期 《博弈论与信息经济学》习题 一.判断下列表述是否正确,并作简单讨论: 1.有限次重复博弈的子博弈完美纳什均衡每次重复采用的都是原博弈的纳什均衡。 答:不一定。对于有两个以上纯策略纳什均衡的条件下就不一定。如“触发策略”就不是。 2.有限次重复博弈的子博弈完美纳什均衡的最后一次重复必定是原博弈的一个纳什均衡。 答:是,根据子博弈完美纳什均衡的要求,最后一次必须是原博弈的一个纳什均衡。 3.无限次重复博弈均衡解的得益一定优于原博弈均衡解的得益。 答:错。如严格竞争的零和博弈就不优于。 4.无限次重复古诺产量博弈不一定会出现合谋生产垄断产量的现象。 答:正确。合谋生产垄断产量是有条件的,由贴现率来反映,当不满足条件时,就不能构成激励。 5.如果博弈重复无限次或者每次结束的概率足够小,而得益的时间贴现率充分接近1,那么任何个体理性的可实现得益都可以作为子博弈完美纳什均衡的结果出现。 答:这就是无限次重复博弈的民间定理。 6.触发策略所构成的均衡都是子博弈完美纳什均衡。 答:错误。触发策略本身并不能排除重复博弈中不可信的威胁和承诺,因此由触发策略构成的不一定是子博弈完美纳什均衡。 7.完全但不完美信息动态博弈中各博弈方都不清楚博弈的进程,但清楚博弈

答:不一定,不是所有博弈方都不清楚博弈的进程,只要有一个博弈方都不完全清楚博弈的进程。 8.不完美信息动态博弈中的信息不完美性都是客观因素造成的,而非主观因素造成。 答:错。信息不完美很多是人为因素所造成的,因为出于各自的动机和目的,人们在市场竞争或合作中常常会故意隐瞒自己的行为。 9.在完全但不完美信息动态博弈中,若不存在混合策略,并且各博弈方都是主动选择且行为理性的,则不完美信息从本质上说是“假的”。 答:正确。因为只包含理性博弈方的主动选择行为,利益结构明确,而且不同路径有严格优劣之分,从不需要用混合策略的动态博弈来说,所有博弈方选择的路径都可以通过分析加以确定和预测,根本无须观察。从这个意义上说,这种博弈的不完美信息实际上都是假的。 10.子博弈可以从一个多节点信息集开始。 答:不能从多节点信息集开始,因为多节点必然分割信息集。 11.不完美信息指至少某个博弈方在一个阶段完全没有博弈进程的信息。 答:不是完全没有博弈进程的信息,而是没有完美的信息,只有以概率判断形式给出的信息。 12.海萨尼转换可以把不完全信息静态博弈转换为不完美信息博弈,说明有了海萨尼转换,不完全信息静态博弈和一般的不完美信息动态博弈是等同的,不需要另外发展分析不完全信息静态博弈的专门分析方法和均衡概念。 答:错误。即使海萨尼转换把不完全信息静态博弈转换为不完美信息动态博弈,也是一种特殊的有两个阶段同时选择的不完美信息动态博弈,对这种博弈的分析进行专门讨论和定义专门均衡的概念有利于提高分析的效率。 13.完全信息静态博弈中的混合策略可以被解释成不完全信息博弈的纯策略贝叶斯纳什均衡。 答:正确。完全信息静态博弈中的混合策略博弈几乎总是可以解释成一个有少量不完全信息的近似博弈的一个纯策略Bayes—Nash均衡。夫妻之争的混合策略Nash均衡可以用不完全信息夫妻之争博弈的Bayes—Nash均衡表示就是一个

博弈论经典案例与分析

博弈论的经典案例与分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A来说,囚徒B有坦白和不坦白两种可能的选择,假设囚徒B的选择是不坦白,则对囚徒A来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B选择的是坦白,则囚徒A不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B采取何种策略囚徒A的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 嫌疑犯乙

案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 价格战 案例:假设市场中仅有A 、B 两家企业,每家企业可采取的定价策略都是10元或15元,我们可以得出得益矩阵如下: 分析:无论对企业A 还是企业B 来说,低价都是他们的占优战略。从表可见,企业A 的占优战略是10元,因为无论B 采取什么战略,企业A 都能获取比定价15元更多的利润。 如果企业B 定价10元,企业A 定价10元能够获利80万元,而定价15元只能获得30万元;如果企业B 定价15元,企业A 定价10元可获利170万元,而定价15元却只能获利120万元。同样地,企业B 的占优战略也是定价10元的策略。 企业B 男

信息经济学与博弈论 明确重点

名词解释 完全信息(博弈):指所有博弈方完全了解参加博弈的所有博弈方各种情况下的得益的博弈。 不完全信息(博弈):指至少部分博弈方不完全了解其他博弈方各种情况下的得益的博弈。 完美信息(博弈):动态博弈中所有博弈方对自己选择之前的博弈过程完全了解的博弈。 不完美信息(博弈):动态博弈中存在博弈方对自己之前的全部博弈进程不完全了解的博弈。 划线法:通过在每个博弈方对其他博弈方的每个对策或者对策组的最佳对策的得益下划线,来分析博弈的方法被称为划线法。 纳什均衡:在博弈G=(S1….Sn;u1……un)中,如果由各个博弈方的各一个策略组成策略组合(S1*……Sn*)中,任一个博弈方i的策略Si*都是其余博弈方策略组合(S1*…..Si-1*,Si+1*….Sn)的最佳对策,也即ui(S1*….SI-1*,Si*,Si+1*……Sn*)≥ui(S1….Si-1,Sij,Si+1*…..Sn),且Sij包含于Si*,则称(S1*……Sn*)为G的一个纳什均衡。 纳什定理:在一个有n个博弈方的博弈G=(S1….Sn;u1……un)中,如果n是有限的,且Si都是有限的集(对i=1….n),则该博弈至少存在一个纳什均衡,但可能包含混合策略,即每一个有限博弈至少有一个混合策略纳什均衡。 逆推归纳法:从动态博弈的最后一个阶段博弈方的行为开始分析,逐步倒推到前一个阶段博弈方的行为选择,直到第一个阶段的分析方法。 子博弈:由一个动态博弈第一阶段以外的某阶段开始的后续博弈阶段构成的,有初始信息集和进行博弈所需要的全部信息,能够自成一个博弈的原博弈的一部分,称为原博弈的一个子博弈。 子博弈完美纳什均衡:如果在一个完美信息的动态博弈中,各博弈方的策略构成的一个策略组合满足在整个动态博弈及它的所有子博弈中都构成纳什均衡,那么这个策略组合被称为这个动态博弈的一个“子博弈完美纳什均衡”。 触发策略:重复博弈中的两个博弈方所采用的,首先尝试合作,一旦发现一方不合作则用不合作来相报复的策略,称为触发策略。 合并均衡:不同情况下的完美信息博弈方采取完全相同行为的市场均衡。 分开均衡:不同情况下的完美信息博弈方采取完全不同行为的市场均衡。 柠檬原理:在信息不完美的情况下,劣质品赶走优质品,搞垮整个市场机制,最先由乔治阿克罗夫在讨论柠檬市场交易问题时提出。 逆向选择:由于消费者的信息不完美,不能识别商品质量,因而不愿付高价购买优质品,最终引起优质品逐渐被劣质赶出市场的过程,通常称为逆向选择。 暗标拍卖:指参加拍卖的竞价者在互不知道其他竞价者报价情况下各自出价统一时间开标,价高者中标的拍卖行为。

博弈论经典模型全解析

博弈论经典模型全解析(入门级) 1. 囚徒困境这是博弈论中最最经典的案例了——囚徒困境,非常耐人寻味。“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不

会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到,他的同伙也不是傻子,也会这样来设想他。所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。企业在信息化过程中需要与咨询企业、软件供应商打交道的。在与这些企业打交道的过程中,我们不可避免地也会遇到类似的两难境地,这个时候需要相互之间有足够的了解与信任,没有起码的信任做基础,切不可贸然合作。在对对方有了足够的信任之后,诚意也是必不可少的,如果没有诚意或者太过贪婪,就可能闹到双方都没有好处的糟糕情况,造成企业之间的双输。 2. 智猪博弈在博弈论(Game Theory)经济学中,“智猪博弈”是一个着名的纳什均衡的例子。假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会首先付出2个单位的成本,若大猪先到槽边,大小猪吃到食物的收益比是9∶1;同时到槽边,收益比是

博弈论的经典案例与分析

博弈论的经典案例与分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A 来说,囚徒B 有坦白和不坦白两种可能的选择,假设囚徒B 的选择是不坦白,则对囚徒A 来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B 选择的是坦白,则囚徒A 不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B 采取何种策略囚徒A 的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 1,1 8, 0 不坦白 0,8 5,5 坦白 嫌疑犯乙 不坦白 坦白 嫌疑犯甲 1,2 -1, -1 时装 0,0 2,1 足球 男 时装 足球 女

博弈论信息经济学知识点

博弈论与信息经济学 完全信息静态博弈 考察占优战略均衡概念及求解 解题思路:理性参与人做出是最优选择,该博弈存在占优战略均衡,据此可知答案为(3)。 考察重复剔除劣战略占优战略均衡概念及求解 说明:考察重复剔除劣战略,求解占优均衡的方法。答案:(U,L) 下面考察PNE及其解法

妻子 丈夫 (a )请检验,纳什均衡(最优战略组合)是同生共死;均衡结果是同生,或者共死; (b )请检验,占优均衡(占优战略组合)是坚强活着;均衡结果是同生(互相煎熬); (c )请检验,纳什均衡(最优战略组合)是你死我活;均衡结果是死活,或者活死; 显然,(c )情形之下,二人之间的仇恨比(b )中更深。 一些类型的博弈中,PNE 未必存在。以下考察MNE 及其解法 说明:猜谜游戏,是一种典型的零和博弈。这类博弈没有纯战略NE ,但是却存在混合战略 (c ) 活着 死了 (b ) 活着 死了 活着 死了 (a ) 活着 死了 活着 死了

NE。希望大家通过这个例子,加深对NE的概念及NE存在性定理的理解。同时,混合战略NE求解也是本题考察点。以下两个例子,与此相同,供大家练习使用。 模型化如下博弈:两个小朋友一起做猜拳游戏,每人有三个纯战略:石头、剪刀、布。胜负规则为:石头胜剪刀,剪刀胜布,布胜石头,如二人出手相同则未分胜负。二人同时出手。胜者的支付为1,负者的支付为-1,未分胜负时支付均为0。(1)请写出该博弈的支付矩阵,并判断其是否存在占优战略均衡。(2)该博弈是否存在纯战略纳什均衡,是否存在混合战略纳什均衡?如果存在,请写出。 下例来自张维迎,P131。 美国普林斯顿大学“博弈论”课程中有这样一道练习题:如果给你两个师的兵力,你来当司令,任务是攻克“敌人”占据的一座城市。而敌人的守备是三个师,规定双方的兵力只可整师调动,通往城市的道路有甲、乙两条,当你发起攻击时,若你的兵力超过敌人你就获胜;若你的兵力比敌人守备部队兵力少或者相等,你就失败。你如何制定攻城方案? 与零和博弈不同,有些博弈既有PNE,又有MNE。如以下性别战博弈和斗鸡博弈。 性别战博弈:

博弈论经典案例《智猪博弈》

在经济学中,在经济学中,智猪博弈”(PigS ' PayoffS(BoXed PigS) 是一个著名博弈论例子。 这个例子讲的是:猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。 那么,两只猪各会采取什么策略?答案是:小猪将选择搭 便车”策略,也就是舒舒服服地等在食槽边;而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。 原因何在?因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。 小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之 间的距离。 如果改变一下核心指标,猪圈里还会出现同样的小猪躺着 大猪跑”的景象吗?试试看。 改变方案一:减量方案。投食仅原来的一半分量。结果是小 猪大猪都不去踩踏板了。小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完。谁去踩踏板,就意味着为对方贡

献食物,所以谁也不会有踩踏板的动力了。 如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然 是失败的。 改变方案二:增量方案。投食为原来的一倍分量。结果是小 猪、大猪都会去踩踏板。谁想吃,谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的 共产主义”社会,所以竞争意识却不会很强。 对于游戏规则的设计者来说,这个规则的成本相当高(每次提供双份的食物);而且因为竞争不强烈,想让猪们去多踩踏板的效 果并不好。 改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近。结果呢,小猪和大猪都在拼命地抢着踩踏板。等待者不得食,而多劳者多得。每次的收获刚好消费 宀 完。 对于游戏设计者,这是一个最好的方案。成本不高,但收获最 大。 原版的智猪博弈”故事给了竞争中的弱者(小猪)以等待为最佳策略的启发。但是对于社会而言,因为小猪未能参与竞争,小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置,规 则的设计者是不愿看见有人搭便车的,政府如此,公 司的老板也是如此。而能否完全杜绝搭便车”现象,就要看游戏 规则的核心指标设置是否合适了。

博弈论案例分析

博弈论案例分析 一、经济学中的“智猪博弈” (Pigs’payoffs) 故事背景:猪圈里有一头大猪和一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。 那么,两只猪各会采取什么策略,答案是:小猪将选择“搭便车”策略,也就 是舒舒服服地等在食槽边; 而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。原因何在,因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之间的距离。如果改变一下核心指标,猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗,试试看。改变方案一:减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完。谁去踩踏板,就意味着为对方贡献食物,所以谁也不会有踩踏板的动力了。如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然是失败的。改变方案二:增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃,谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会,所以竞争意识却不会很强。对于游戏规则的设计者来说,这个规则的成相当高(每次提供双份的食物) ;而且因为竞争不强烈,想让猪们去多踩踏板的

博弈论三大经典案例

经典的囚徒困境 1950年,由就职于兰德公司的梅里尔·弗拉德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问阿尔伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择: ?若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。 ?若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。 ?若二人都互相检举(互相“背叛”),则二人同样判监2年。 用表格概述如下: 甲沉默(合作)甲认罪(背叛) 乙沉默(合作)二人同服刑半年甲即时获释;乙服刑10年 乙认罪(背叛)甲服刑10年;乙即时获释二人同服刑2年 如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择: ?若对方沉默、背叛会让我获释,所以会选择背叛。 ?若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。 二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。 这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。 由囚徒困境可以写出类似的员工困境: 一名经理,数名员工; 前提,经理比较苛刻; 如果所有员工都听从经理吩咐,则奖金等待遇一样,不过所有人都超负荷工作 如果某人不听从吩咐,其他人听从吩咐,则此人下岗。其他人继续工作 如果所有人都不听从经理吩咐,则经理下岗 但是,由于员工之间信息是不透明的,而且,都担心别人听话自己不听话而下岗,所以,大家只能继续繁重的工作. 囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。

博弈论与信息经济学 课后答案

张1.5 假定消费者从价格低的厂商购买产品,如果两企业价格相同,就平分市场,如果企业i 的价格高于另一企业,则企业i的需求量为0,反之,其它企业的需求量为0。因此,企业i

的需求函数由下式给出: i i i i i i i i p pi p p p p 0)/2Q(p ) Q(p q --->=c 那么每家企业的利润02 i i j i p c q ππ-== >,因此,企业i 只要将其价格略微低于其它企业就将获得整个市场的需求,而且利润也会上升至 ()()22 i i i i p c p c Q p Q p εε---->,()0ε→。同样,其它企业也会采取相同的策略,如果此下去,直到每家厂商都不会选择降价策略,此时的均衡结果只可能是p i =p j =c 。此时,企业i 的需求函数为2 i a c q -=。 张1.8

张2.3

张2.4

张 2.9 (1)由于古诺博弈的阶段均衡是1i a c q n -=+,此时的利润为2 1a c n -?? ?+?? ;若各家企业合作垄断市场,则此时的最优产量是()argmax i i i a nq c q ∈--?,可求得2i a c q n -= ,此时的利润为2 4a c n -?? ??? ,此时若有企业i 背叛,其产量就是()1 2 4j j i i a c q n q a c n ≠--+== -∑,其收益为()2 214n a c n +?? - ? ?? 。下面我们来看重复博弈下的古诺博弈。在这个博弈中,有两个博弈路径,我们分别进行讨论。 首先,在惩罚路径上,由于每个阶段参与企业选择的都是最优的产量,因此能够获得最优的收益,因此是均衡的。 其次,在合作路径上,只要合作的收益大于背叛的收益,则均衡也是可以实现的,这要 求:()2 2 2 211141411a c n a c a c n n n δδ-+-???? ??≥-+ ? ? ?--+??????,解得()1 2411n n δ-??≥+??+???? 。 (2)伯川德博弈的阶段均衡是i p c =,此时参与者的利润均为0。若各企业合作,则此时的最优价格是:()()argmax i i i p p c a p ∈--,此时2i a c p -= ,则2i a c q n -=,利润

博弈论复习题及答案

博弈论 判断题(每小题1分,共15分) 囚徒困境说明个人的理性选择不一定是集体的理性选择。(√) 子博弈精炼纳什均衡不是一个纳什均衡。(×) 若一个博弈出现了皆大欢喜的结局,说明该博弈是一个合作的正和博弈。()博弈中知道越多的一方越有利。(×) 纳什均衡一定是上策均衡。(×) 上策均衡一定是纳什均衡。(√) 在一个博弈中只可能存在一个纳什均衡。(×) 在一个博弈中博弈方可以有很多个。(√) 在一个博弈中如果存在多个纳什均衡则不存在上策均衡。(√) 在博弈中纳什均衡是博弈双方能获得的最好结果。(×) 在博弈中如果某博弈方改变策略后得益增加则另一博弈方得益减少。(×)上策均衡是帕累托最优的均衡。(×) 因为零和博弈中博弈方之间关系都是竞争性的、对立的,因此零和博弈就是非合作博弈。 (×) 在动态博弈中,因为后行动的博弈方可以先观察对方行为后再选择行为,因此总是有利的。(×) 在博弈中存在着先动优势和后动优势,所以后行动的人不一定总有利,例如:在斯塔克伯格模型中,企业就可能具有先动优势。 囚徒的困境博弈中两个囚徒之所以会处于困境,无法得到较理想的结果,是因为两囚徒都不在乎坐牢时间长短本身,只在乎不能比对方坐牢的时间更长。 (×) 纳什均衡即任一博弈方单独改变策略都只能得到更小利益的策略组合。(√)不存在纯战略纳什均衡和存在惟一的纯战略纳什均衡,作为原博弈构成的有限次重复博弈,共同特点是重复博弈本质上不过是原博弈的简单重复,重复博弈的子博弈完美纳什均衡就是每次重复采用原博弈的纳什均衡。(√) 多个纯战略纳什均衡博弈的有限次重复博弈子博弈完美纳什均衡路径:两阶段都采用原博弈同一个纯战略纳什均衡,或者轮流采用不同纯战略纳什均衡,或者两次都采用混合战略纳什均衡,或者混合战略和纯战略轮流采用。(√) 如果阶段博弈G={A1, A2,…,An; u1, u2,…,un)具有多重Nash均衡,那么可能(但不必)存在重复博弈G(T)的子博弈完美均衡结局,其中对于任意的t

博弈论与信息经济学答案

第一章 5. n 个企业,其中的一个方程:π1=q 1(a -(q 1+q 2+q 3……q n )-c ),其他的类似就可以了,然后求导数,结果为每个值都相等,q 1= q 2=……q n=(a-c)/(n+1)。或者先求出2个企业的然后3个企业的推一下就好了。 6.假定消费者从价格低的厂商购买产品,如果两企业价格相同,就平分市场,如果企业i 的价格高于另一企业,则企业i 的需求量为0,反之,其它企业的需求量为0。因此,企业i 的需求函数由下式给出: i i i i i i i i p pi p p p p 0)/2Q(p ) Q(p q --->=c 那么每家企业的利润02 i i j i p c q ππ-== >,因此,企业i 只要将其价格略微低于其它企业就将获得整个市场的需求,而且利润也会上升至()()22 i i i i p c p c Q p Q p εε---->,()0ε→。同样, 其它企业也会采取相同的策略,如果此下去,直到每家厂商都不会选择降价策略,此时的均衡结果只可能是p i =p j =c 。此时,企业i 的需求函数为2 i a c q -= 。 在静态的情况下,没有一个企业愿意冒险将定价高于自己的单位成本C ,最终P=C ,利润为0。因为每个参与人都能预测到万一自己的定价高于C ,其他人定价为C 那么自己的利益就是负的(考虑到生产的成本无法回收)。就算两个企业之间有交流也是不可信的,最终将趋于P=C 。现实情况下一般寡头不会进入价格竞争,一定会取得一个P 1=P 2=P 均衡。此时利润不为零,双方将不在进行价格竞争。 7.设企业的成本相同为C ,企业1的价格为P 1,企业2的价格为P 2。

博弈论理论经典讲解

博弈论经典案例 冰晶淩(杂物区)2010-04-09 22:31:28 阅读258 评论0 字号:大中小订阅 引用 光光的博弈论经典案例 1994年诺贝尔经济学奖授给了三位博弈论专家:纳什,泽尔腾和海萨尼.而博弈论可以划分为合作博弈和非合作博弈.那三位博弈论专家的贡献主要是在非合作博弈方面,而且现在经济学家谈到博弈论,一般指的是非合作博弈,很少指合作博弈.合作博弈与非合作博弈之间的区别主要在于人们的行为相互作用时,当事人能否达成一个具有约束力的协议,如果有,就是合作博弈;反之,就是非合作博弈.非合作博弈强调的是个人理性,个人最优决策,其结果可能是有效率的,也可能是无效率的.而合作博弈强调的是团体理性.下面是我收集的张维迎教授的几个有关博弈论的经典 案例. <案例一:囚徒困境> 囚徒困境讲的是两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里审讯.警察告诉他们:如果两人都坦白,各判刑8年;如果两个都抵赖,各判1年(或许因证据不足);如果其中一人坦白一人抵赖,坦白的放出去,不坦白的判刑10年(这有点'坦白从宽,抗拒从严'的味道).这里,每个囚徒都有两种战略:坦白或抵赖.表中每一格的两个数字代表对应战略组合下两个囚徒的支付(效用),其中第一个数字是第一个囚徒的支付,第二个数字为第二个囚徒的支付.战略形式又称标准形式,是博弈的两种表述形式之一,它特别方便于静态博弈分析. 在这个例子里,纳什均衡就是(坦白,坦白):给定B坦白的情况下,A的最优战略是坦白;同样,给定A坦白的情况下,B的最优战略也是坦白.事实上,这里,(坦白,坦白)不仅是纳什均衡,而且是一个占优战略均衡.就是说,不论对方如何选择,个人的最优选择是坦白.比如说,如果B不坦白,A坦白的话被放出来,不坦白的话判1年,所以坦白比不坦白好;如果B坦白,A坦白的话判8年,不坦白的话判10年,所以,坦白还是比不坦白好。 这样,坦白就是A占优战略;同样,坦白也是B的占优战略.结果是,每个人都选择坦白,各判刑8年. <案例二:智猪博弈> 这个例子讲的是,猪圈里有两头猪,一大一小.猪圈的一头有一个猪食槽,另一头安装一个按钮,控制着猪食的供应。按一下按钮会有10个单位的猪食进槽,但谁按按钮需要付2个单位的成本.若大猪先到,大猪吃到9个单位,小猪只能吃1个单位;若同时到,大猪吃7个单位,小猪吃3个单位;若小猪先到,大猪吃6个单位,小猪吃4个单位。表中第一格表示两猪同时按按钮,因而同时走到猪食槽,大猪吃7个,小猪吃3个,扣除2个单位的 成本,支付水平分别为5和1.其他情形可以类推. 在这个例子中,什么是纳什均衡?首先我们注意到,无论大猪选择"按"还是"等待",小猪的最优选择均是"等待".比如说给定大猪按,小猪也按时得到1个单位,等待则得到4个单位;给定大猪等待,小猪按得到-1单位,等待则得0单位,所以,"等待"是小猪的占优战略.给定小猪总是选择"等待",大猪的最优选择只能是"按".所以,纳什均衡就是:大猪按,小猪等待,各得4个单位.多劳者不多得! <案例三:性别战>

博弈论经典案例-文档

博弈论 “囚徒困境” “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯(甲和乙)作案后被警察抓住,隔离审讯;警方的政策是"坦白从宽,抗拒从严",如果两人都坦白则各判6年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年;如果都不坦白则因证据不足各判1年。 简而言之就是: 甲沉默,乙沉默 --> 二人同服刑1年 甲坦白,乙坦白 --> 二人同服刑6年 甲坦白,乙沉默 --> 甲即时获释;乙服刑10年 甲沉默,乙坦白 --> 甲服刑10年;乙即时获释 “囚徒困境”反应了个人理性和集体理性的矛盾。不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,不坦白的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判六年,不坦白的话判十年,坦白还是比不坦白好。结果,两个嫌疑犯都选择坦白,各判刑六年。如果两人都抵赖,各判一年,显然这个结果好。囚徒困境所反映出的深刻问题是,人类的个人理性有时能导致集体的非理性——聪明的人类会因自己的聪明而作茧自缚。 海盗分赃 有五个海盗,劫掠了100公斤黄金,需要分赃。办法是抓阄,盗亦有道。 五个纸团里写着1-5五个数字,按数字顺序抓阄,抓到“1”的人,可以先提出一个分配方案,如果他的方案被一半以上的人同意,就照他的方案分金子,否则,第一个人就要被杀掉。余下的人也照此办理。 我的问题是:如果你是第一个人,你会提出怎样的分配方案,才能让自己利益最大化? (答案:第一个人提出自己独拿100公斤黄金) 这个例子告诉我们,想问题,确实需要方法论,靠直觉是不可以的,直觉在很多情况下是错误的,必须依靠方法,依靠逻辑的力量。 红黑博弈 这是一个关于输与赢之间的博弈游戏,游戏规则是这样的:所有参加培训的新人分为几个小组,其中两组作为对手。每组选出队长作为团队的领导者和谈判官。在游戏的进程中,每一组选择向对手亮出什么样颜色的牌,如果两组同时亮出了红牌,那么两组将同时被扣掉3分;如果其中一组选择红牌,而另一组选择黑牌,那么选择红牌的一组将得3分,而选择黑牌的小组将得0分;双方同时选择黑牌,将同时得到1分。

博弈论与信息经济学-1pdfnet

《博弈论与信息经济学》教学大纲 课程名称:博弈论与信息经济学 课程英文名称: Game and Information Economics 课内学时:32 课程学分:2 课程性质(学位课/选修课)开课学期:每学年第一学期 教学方式:课堂讲授考核方式(考试/考查):考核 大纲执笔人:刘林主讲教师:刘林 师资队伍:刘林郭海涛 一、课程内容简介 博弈论是研究决策主体的行为产生相互作用时各个主体之间的最优决策以及决策均衡问题的。博弈论在西方经济学的教科书中已是一门被广泛接纳的理论知识课程。博弈论分为合作博弈和非合作博弈,本课程讲授的是非合作博弈。博弈论之所以成为主流经济学的一个重要组成部分,是因为信息问题在经济学中变得越来越重要。从非合作博弈理论来看,主体内容包括:完全信息静态博弈,完全信息动态博弈,不完全信息静态博弈和不完全信息动态博弈。 信息经济学是非对称信息博弈论在经济学中的应用,可以简单地理解为:给定一定的信息结构,什么是最优的契约安排。信息的非对称性可以从两个角度划分:非对称信息发生的事件以及非对成信息发生的内容。研究事前非对称信息博弈的模型称为逆向选择模型,研究事后非对称信息博弈的模型称为道德风险模型。研究不可观测行动的模型称为隐藏行动模型,研究不可观测知识的模型称为隐藏知识模型(或隐藏信息模型)。在委托人-代理人的框架下,信息经济学的主体内容包括:隐藏行动的道德风险模型,隐藏信息的道德风险模型,逆向选择模型,信号传递模型,信息甄别模型。 二、课程目的和基本要求 【目的和要求】 通过导论部分的学习,使学生了解和掌握博弈论与信息经济学的研究对象,博弈论与信息经济学的形成与演变,博弈论与信息经济学的基本问题,课程目的与任务,课程基本要求,课程内容、教学方法及学时分配,推荐教材及主要参考书。 【重点】 ●博弈论与信息经济学的研究对象 ●博弈论与信息经济学的形成与演变 ●博弈论与信息经济学的基本问题 ●课程目的与任务 ●课程基本要求、课程内容、教学方法及学时分配 【难点】 ●博弈论与信息经济学的基本问题 三、课程主要内容

(完整word版)经典的博弈论分析案例——“海盗分金”问题

经典的博弈论分析案例——“海盗分金”问题 5个海盗抢得100枚金币,他们按抽签的顺序依次提方案:首先由1号提出分配方案,然后5人表决,超过半数同意方案才被通过,否则他将被扔入大海喂鲨鱼,依此类推。 “海盗分金”其实是一个高度简化和抽象的模型,体现了博弈的思想。在“海盗分金”模型中,任何“分配者”想让自己的方案获得通过的关键是事先考虑清楚“挑战者”的分配方案是什么,并用最小的代价获取最大收益,拉拢“挑战者”分配方案中最不得意的人们。 假设前提 假定“每个海盗都是绝顶聪明且很理智”,那么“第一个海盗提出怎样的分配方案才能够使自己的收益最大化?” 推理过程 从后向前推,如果1至3号强盗都喂了鲨鱼,只剩4号和5号的话,5号一定投反对票让4号喂鲨鱼,以独吞全部金币。所以,4号惟有支持3号才能保命。 3号知道这一点,就会提出(100,0,0)的分配方案,对4号、5号一毛不拔而将全部金币归为已有,因为他知道4号一无所获但还是会投赞成票,再加上自己一票,他的方案即可通过。 不过,2号推知3号的方案,就会提出(98,0,1,1)的方案,即放弃3号,而给予4号和5号各一枚金币。由于该方案对于4号和5号来说比在3号分配时更为有利,他们将支持他而不希望他出局而由3号来分配。这样,2号将拿走98枚金币。 同样,2号的方案也会被1号所洞悉,1号并将提出(97,0,1,2,0)或(97,0,1,0,2)的方案,即放弃2号,而给3号一枚金币,同时给4号(或5号)2枚金币。由于1号的这一方案对于3号和4号(或5号)来说,相比2号分配时更优,他们将投1号的赞成票,再加上1号自己的票,1号的方案可获通过,97枚金币可轻松落入囊中。这无疑是1号能够获取最大收益的方案了!答案是:1号强盗分给3号1枚金币,分给4号或5号强盗2枚,自己独得97枚。分配方案可写成(97,0,1,2,0)或(97,0,1,0,2)。分析 1号看起来最有可能喂鲨鱼,但他牢牢地把握住先发优势,结果不但消除了死亡威胁,还收益最大。这不正是全球化过程中先进国家的先发优势吗?而5号,看起来最安全,没有死亡的威胁,甚至还能坐收渔人之利,却因不得不看别人脸色行事而只能分得一小杯羹。 不过,模型任意改变一个假设条件,最终结果都不一样。而现实世界远比模型复杂。 首先,现实中肯定不会是人人都“绝对理性”。回到“海盗分金”的模型中,只要3号、4号或5号中有一个人偏离了绝对聪明的假设,海盗1号无论怎么分都可能会被扔到海里去了。所以,1号首先要考虑的就是他的海盗兄弟们的聪明和理性究竟靠得住靠不住,否则先分者倒霉。 如果某人偏好看同伙被扔进海里喂鲨鱼。果真如此,1号自以为得意的方案岂不成了自掘坟墓! 再就是俗话所说的“人心隔肚皮”。由于信息不对称,谎言和虚假承诺就大有用武之地,而阴谋也会像杂草般疯长,并借机获益。如果2号对3、4、5

相关主题
文本预览
相关文档 最新文档