当前位置:文档之家› 博弈论知识点总结完整版

博弈论知识点总结完整版

博弈论知识点总结完整版
博弈论知识点总结完整版

博弈论知识点总结完整

Document serial number【NL89WT-NY98YT-NC8CB-NNUUT-NUT108】

博弈论

(一):基本知识

定义:博弈论,又称对策论,是使用严谨的数学模型研究冲突对抗条件下最优决策问题的理论,是研究竞争的逻辑和规律的数学分支。即,博弈论是研究决策主体在给定信息结构下如何决策以最大化自己的效用,以及不同决策主体之间的均衡。

基本要素:参与人、各参与人的策略集、各参与人的收益函数,是博弈最重要的基本要素。

博弈的分类:博弈论根据其所采用的假设不同而分为合作博弈理论和非合作博弈理论。两者的区别在于参与人在博弈过程中是否能够达成一个具有约束力的协议(binding agreement)。倘若不能,则称非合作博弈(Non-cooperative game)。

合作博弈强调的是集体主义,团体理性,是效率、公平、公正;而非合作博弈则主要研究人们在利益相互影响的局势中如何选择策略使得自己的收益最大,强调个人理性、个人最优决策,其结果有时有效率,有时则不然。目前经济学家谈到博弈论主要指的是非合作博弈,也就是各方在给定的约束条件下如何追求各自利益的最大化,最后达到力量均衡。

博弈的划分可以从参与人行动的次序和参与人对其他参与人的特征、战略空间和支付的知识、信息,是否了解两个角度进行。把两个角度结合就得到了4种博弈:

a、完全信息静态博弈,纳什均衡,Nash(1950)

b、完全信息动态博弈,子博弈精炼纳什均衡,泽尔腾(1965)

c、不完全信息静态博弈,贝叶斯纳什均衡,海萨尼(1967-1968)

d、不完全信息动态博弈,精炼贝叶斯纳什均衡,泽尔腾(1975)Kreps, Wilson(1982) Fudenberg, Tirole(1991)

课程主要内容:完全信息静态博弈完全信息动态博弈不完全信息静态博弈机制设计合作博弈

博弈模型的两种表示形式:策略式表述 (Strategic form), 扩展式表述(Extensive form)

占优均衡:

a、占优策略:在博弈中如果不管其他参与人选择什么策略,一个参与人的某个策略给他带来的支付值始终高于其他策略,或至少不劣于其他策略,则称该策略为该参与人的严格占优策略或占优策略。

对于所有的s-i, si*称

为参与人i的严格占优战

略,如果满足:

ui(si*,s-i)>ui(si',s-

i) ? s-i, ? si' ?si*

b、占优均衡:一个博弈的某个策略组合中,如果对应的所有策略都是各参与人的占优策略,则称该策略组合为该博弈的一个占优均衡。

重复剔除严劣策略均衡:

a、“严劣”和“弱劣”的

含义:

设 s i’和s i’’是参与人i可选择的两个策略,若对其他参与人的任意策略组合s-i, 均成立

u

i

(s i’, s-i) < u i(s i’’, s-i), 则说策略s i’严劣于策略s i’’。

上面式子中,若将“<”改为“≤”,则说策略s i’弱劣于策略

s

i

’’。

b、定义:重复剔除严格策

略就是各参与人在其各自策略

集中,不断剔除严劣策略…如

果最终各参与人仅剩下一个策

略,则该策略组合就被称为重

复剔除严劣策略均衡。

(二):纳什均衡(Nash Equilibrium )

纳什均衡定义:对于一个策略式表述的博弈G= {N,S i , u i , i ∈N }, 称策略组合s *=(s 1, …s i , …, s n )是一个纳什均衡,如果对于每一个i ∈N , s i *是给定其他参与人选择s -i *={s 1*, … ,s i -1*, s i +1*, … ,s n *

} 情况下参与人i 的最优策略(经济理性策略),即:u i (s i *, s -i *) ≥ u i (s i , s -i *), 对于任意的 s i ∈S i ,任意的 i ∈N 均成立。

通俗定义:纳什均衡是一种策略组合,给定对手的策略,每个参与人选择自己的最优策略。纳什均衡是一种稳定的策略组合:当所有参与人的选择公开以后,每个人都满意自己作出了正确的选择;没有人能得到更好的结果了。在博弈论中这种结果被称为纳什均衡(NE )。

定理:

Nash 在1950年证明:任何有限博弈,都至少存在一个NE ——

Existence of Nash Equilibrium 。即 在一个有n 个参与人的策略式博弈G={S1,…,Sn; u1,…,un}中,如果n 是有限的,且Si 是有限集

(i=1,…,n ),则该博弈至少存在一个纳什均衡(在混合策略意义下)

Wilson (1971)证明,几乎所有有限博弈,都存在有限奇数个NE ,包括纯策略NE 和混合策略NE 。——Oddness Theorem

纳什均衡、占优均衡、重复剔除严劣策略均衡的关系

定理a 每一个占优均衡、重复剔除严劣策略均衡一定是纳什均衡,但反过来不一定成立;

定理b 纳什均衡一定不能通过重复剔除严劣策略方法剔除。

划线法

先找出自己针对其他博弈方每种策略或策略组合(对多人博弈)的最佳对策,即自己的可选策略中与其他博弈方的策略或策略组合配合,给自己带来最大得益的策略(这种相对最佳策略总是存在的,不过不一定唯一),然后在此基础上,通过对其他博弈方策略选择的判断,包括对其他博弈方对自己策略判断的判断等,预测博弈的可能结果和确定自己的最优策略。这就是划线法。

箭头法

箭头法对于理解博弈关系很有好处,是寻找相对稳定性策略组合的分析方法。对博弈中的每个策略组合进行分析,考察在每个策略组合处各个参与方能否通过改变自己的策略而增加得益。如能,则从所分析的策略组合对应的得益数组引一箭头到改变策略后策略组合对应的得益数组。最后综合对每个策略组合的分析情况,形成对博弈结果的判断。划线法和箭头法的结果是一致的,可以相互替代。

(三):混合策略(Mixed Strategies )纳什均衡

定义:混合策略的定义:在博弈G={N, Si, ui, i ∈N}中,假设参与人i 的纯策略构成的策略集合为

Si={si1,…, sik},若参与人i 以概率分布pi=(pi1,…, pik) 在其k 个可选策略中随机选择“策略”,称这样的选择方式为混合策略。这里,0≤pij ≤ 1,对于j=1 ,…, k 都成立,且有, pi1+…+ pik=1。纯策略可看成特殊的混合策略。上述定义是在有限博弈前提下进行的。

混合策略意义下策略组合的表述 {x1∈X1, …, xn ∈Xn},其中Xi , i =1, …, n 表示参与人i 所有纯策略生成的概率空间,xi 为参与人i 的一个具体混合策略

猜硬币博弈的一个混合策略就可记为{(1/2, 1/2),(1/2, 1/2)}效用函数(Von Neumann and Morgenstern冯·诺依曼和摩根斯坦)

如果某个随机变量X以概率Pi取值xi,i=1,2,…,n,而某人在确定地得到xi时的效用为u(xi),那么,该随机变量给他的效用便是: U(X) =

P 1u(x1) + P

2

u(x2) + ... + P

n

u(xn)

表示关于随机变量X的期望效用。因

此U(X)称为期望效用函数,又叫做冯·诺依曼——摩根斯坦效用函数(VNM函数)。

基于混合策略意义下的博弈策略

式表述

定义:基于(v-N-M效用的)策略

式博弈由 a、参与人集合 b、每个

参与人有一个(纯)策略集合 c、

对于每一个参与人来说,由所有参与

人纯策略组合构成的风险结果空间,

存在一个v-N-M效用

混合策略意义下的纳什均衡

定义:对于博弈G= {N, Si, ui,

i∈N},基于v-N-M效用的混合策略

组合α*是一个纳什均衡,若对于每

一个i, 以及i的任意一个混合策略

αi,α*对应的期望支付至少和(α

i,α*-i )的期望支付一样大

换句话说,称混合策略组合α*

是一个纳什均衡,如果没有一个参与

人通过偏离策略α*i 实现支付的增

一个定理

对于N-人静态博弈问题,设混合

策略纳什均衡对应的策略组合为(Xi , X –i ) 。

对于任意的i ,若最优混合策略

为Xi= {x1,…,xl,0…0}(不失一般

性,假设前l个分量严格大于0),记

分量xk (k=1,…, l) 对应的纯策略sk,

则对于参与人i而言,sk与其他

参与人的最优混合策略组合X –i 形成的局势的收益值,等于纳什均衡混合策略组合 (Xi, X –i )的收益值。即ui (sk, X –i ) = ui (Xi, X –i )成立, k=1,…, l

方法:

a、求解混合策略均衡可以用期望收益等值法

b、2×2双矩阵博弈的图解法:反应函数的三个交点即是纳什均衡

(四):多重纳什均衡解及其分析

帕雷托占优均衡

帕雷托占优均衡的含义是:在多个纳什均衡中,若存在一个纳什均衡,其支付结果针对每个参与人而言都严格优于其它纳什均衡,则该纳什均衡是帕雷托占优纳什均衡。

风险占优均衡(risk-dominant equilibrium)

参与人对风险占优均衡的选择倾向,有一种强化的机制。当部分或所有参与人选择风险占优均衡的可能性增强的时候,任一参与人选择帕雷托占优均衡策略的期望支付会进一步减小,而这又使得帕雷托占优均衡策略的支付更小,从而形成一种选择风险占优均衡策略的正反馈机制,并使其出现的概率越来越大。

当参与人数目增加时,选择合作的风险将会更大,可借助该点考虑招标机制如何减少投标方勾结问题。上述问题是我们知道建立诚信机制社会的重要意义。上述问题引出一个博弈相关分支为协调博弈(coordination game)

聚点均衡

由实际问题抽象出来的博弈模型中,更多的一类问题是:多个纳什均衡间不存在帕雷托占优关系或明显的风险占优关系,如夫妻爱好问题的两个纯策略均衡。这时如何预测哪一个

纳什均衡会出现是一个很有意义的问题

以夫妻爱好博弈为例,在实际中往往二人很默契地知道如何进行博弈,双方往往知道怎么进行选择策略,且能够相互了解(这里面排除了互相协商后达成的一致)

实际博弈中参与人往往会利用博弈模型以外的信息,实现对特定博弈均衡一致关注的“聚点”

这些信息如:参与人共同的文化背景或规范,共同的知识,具有特定意义事物的特征,某些特殊的数量、位置关系等

聚点均衡确实反映了人们在多重纳什均衡选择中的某些规律性,但因为涉及因素太多,对于一般博弈模型很难总结普遍规律,只能具体问题具体分析

聚点:人们通常会协调彼此的行为。(你弱他就强);先例产生的影响远大于逻辑或者法律效力;人们总是乐于安守现状或接受自然形成的界线(三八线)

相关均衡(correlated equilibrium)

实际上,在现实中遇到选择困难时,特别是在长期中反复遇到相似选择难题时,常会通过收集更多信息,形成特定的机制和规则,为某种形式的制度安排等主动寻找思路。

相关均衡就是这样的一种均衡选择机制。

对于实际中比较复杂的博弈问题,参与人是否有能力设计这种机制,并且有足够能力理解、信任这种机制,是有一定疑问的。

相关均衡作为社会经济制度创新的一种解释也许更有意义。

防共谋均衡(coalition-proof equilibrium)

定义:如果一个博弈的某个策略组合满足

a、没有任何单个参与人的“串通”会改变博弈的结果,即单独改变策略无利可图(该策略组合是纳什均衡)。

b、给定选择偏离的参与人有再次偏离的自由时,没有任何两个参与人通过“串通”改变博弈的结果。

c、依此类推,直到所有参与人都参加的串通也不会改变博弈的结果。

满足上述要求的均衡策略组合称为“防共谋均衡”

在有多个参与人的博弈中,若部分参与人通过某种形式的默契或串通形成小团体,可能得到比不串通个大的支付。这就是多人博弈的共谋问题。

防共谋均衡是指这样的一个纳什均衡,在该均衡局势下,少数参与人集合不能通过均衡策略的偏离,实现更好的局部利益。

防共谋均衡是两个以上参与人参加的博弈中,参与人在帕雷托占优均衡中进行合作思想的扩展。

(五):动态博弈

特点

一类博弈行为通常需要参与人多步决策才能完成,具有明显的阶段性。博弈的结局、各参与人的收益由多阶段决策结果确定。各参与人的决策有一定的顺序。

由于动态博弈各参与人进行决策具有明显的阶段性、行动次序性,通常用扩展式(extensive form)表述法描述这些信息。

博弈的扩展式表示

参与人集合:i=1, … ,N。用

N表示虚拟参与人“自然”;

自然的含义是某些外生

的客观概率分布事件

参与人的行动顺序(the order

of moves):描述各参与人在什

么时候行动;

参与人的行动空间(action

set):在每次行动时,参与人

可选择的行动集合;

参与人的信息集(information

set):每次行动时参与人知道

什么;

参与人的收益函数:在行动结

束之后,每个参与人得到些什

么。

自然选择的概率分布(假定自

然状态是共同知识)。

对于有限博弈,博弈树是常用

的表述方式。

博弈树

a若动态博弈是有限博弈,则可用博弈树表示该博弈。这里有

限的含义是:各阶段各参与人的

行动数目有限;博弈的阶段数有

限。

b博弈树的基本结构为

结点(nodes)。包括决策结及终点结。决策结是参与人采取行动

的时点;终点结是博弈行动路径

的终点。

枝(branches)。从一个决策结到它的直接后续结的连线,每

一个枝代表参与人的一个行动选

择。

信息集。是决策结集合的一个子集。将博弈树中某一决策者在

某一行动阶段具有相同信息的所

有决策结称为一个信息集。

注:每个决策结都是同一个参与人的决策结。

该参与人知道博弈进入该集合的某个决策结,但不知道自己

究竟出于哪一个决策结(若该信

息集有两个或两个以上元素)。

对于有限动态博弈,若参与人对彼此在各决策结点的行动集合,彼此的效用函数,历史的行动有着完全的了解,则称这样的博弈为完全信息动态博弈。

如果博弈树的所有信息集都是单元素集,称该博弈为完美信息

博弈(game of perfect

information)。

上述两个定义的差别在于对自然行动信息的描述。

动态博弈的策略式表述

a相机选择(contingent play)

动态博弈中参与人的策略是各自预先设定的,在博弈的各阶

段,针对各种情况做出相应决

策。即“等待”博弈到达自己的

信息集(包含一个或多个决策

结)后再决定如何行动。

在策略式表述博弈中,参与人似乎是博弈开始之前就制定出

了一个完全的相机选择,即“如

果……发生,我将选择……”。

b从扩展式表述构造战略式表述

若把B的信息集从左到右排列,上述四个纯策略可以简单记为{开发,开发}{开发,不开发}{不开发,开发}{不开发,不开发}。上面四个纯策略含义:当A选择开发时,B选择大括号中前面的策略;当A选择不开发时,B选择大括号中后面的策略。

B的纯策略为:{开发,开发}{开发,不开发}{不开发,开发}{不开发,不开发}

A的纯策略为:S

A

=(开发,不开发)

开发,

开发

开发,

不开发

不开

发,

开发

不开

发,不

开发

开发-3,-3-3,-31,01,0

不开

0,10,00,10,0

在扩展式表述博弈中,所有n个参与人的一个

纯战略组合s=(s

1,…,s

n

)

决定了博弈树上的一个

路径。

比如(开发,{不开

发,开发})决定了博

弈的路径为A?开发?B?

不开发?(1,0)

完全信息动态博弈纳什均衡存在性定理

如果有限博弈是完美信息博

弈,他还有一个纯战略纳什均

衡(Zermelo,1913)。

逆向归纳法:

a逆向归纳法求解策略:从动态博弈的最后一个阶段出发,对该参与人采用经济理性原则进行分析,逐步到推回前一个阶段相应参与人的行动选择,一直到第一阶段的分析方法。

b逆向归纳法是求解完美信息

动态博弈的经典方法。逆推归

纳法是完美信息动态博弈分析

中使用最普遍的方法。

c与策略式分析比较:如果A 选择U,那么B的信息集不能达到,我们说B的信息集不在均衡路径上(out-of-equilibrium path)。此种情况下,B的选择对A没有什么影响。因此,纳什均衡对一个参与人在非均衡信息集上的选择没有限制。但是,一个参与人在非均衡信息集上的战略可以影响其他参与人在均衡信息集上的选择。

d逆向归纳法实质上是重复剔

除劣战略法在扩展式博弈中的

应用。逆向归纳法适不用于无

限博弈和不完美信息博弈。逆

向归纳法剔除了“非理性”的

均衡策略

子博弈完美均衡(子博弈精炼纳什均衡)

①子博弈概念:一个扩展式博弈的子博弈G由一个决策结x和所有该决策结的后续结T(x)组成,它满足下列条件:

x是一个单结信息集,即

h(x)={x};

对于所有的T(x)中的x’,如果x’’与x’同属于一个信息集,则x’’也在T(x)中。

需要说明的是,G本身是自己的一个子博弈。

②子博弈完美纳什均衡(子博弈精炼纳什均衡)

扩展式博弈的一个战略组合

s*=(s

1

*,…,s

i

*,…,s

n

*)是一个子博弈完美纳什均衡,如果

它是原博弈的纳什均衡。

它在每一个子博弈上都是纳什均衡

③纳什均衡与子博弈精炼纳什均衡的关系

前面分析说明,一个特定的纳什均衡决定了原博弈树上唯一的一条路径,这条路径称为“均衡路径”(equilibrium path)。

相对该纳什均衡,其他路径称为非均衡路径(out-of-equilibrium path)。

在每一个子博弈上给出纳什均衡意味着,构成

子博弈纳什均衡的战略不仅在

均衡路径的决策结上是最优

的,同时在非均衡路径的决策

结上也是最优的。

对于有限完美信息博弈,前面介绍的逆推归纳

法得出的纳什均衡即是子博弈

精炼纳什均衡。

(六)多阶段静态博弈

该类模型中至少在某个阶

段参与人同时选择其决

策。

这类模型

实质上就是完美信息动

态博弈,因此仍然可以

采用逆推归纳法进行分

析。

因为存在

同时选择,因此每个阶

段不再是单人优化问

题,而是一个静态博

弈。

前向归纳法:前面已经说

明,完美信息动态博弈的

经典求解方法为逆序归纳

法。

还有一种分析方式,就是前向归纳法(forward induction)。

前向归纳法由科尔博格和莫顿斯(1986)提出。

这里不进行严格的数学描述,仅通过一个例题进行说明。

重复博弈

重复博弈(repeated game)的定义

指同样结构的博弈重复

多次,其中的每次博弈

称为“阶段博弈(stage

game)”。

如两个多次犯罪的“囚

徒问题”。

由于动态博弈是相机行动,反映到重复博弈中,就是可以使自己在某个阶段的博弈选择依赖于其他参与人过去的行动历史。

影响重复博弈均衡结果

的主要因素是博弈重复

次数和信息的完备性

(completeness)。

重复次数对参与人可能

会有的影响是:参与人

为了获得长远利益而牺

牲眼前利益的策略成为

可能。

关于完备性,简单地

说,但一个参与人的支

付函数不为其他参与人

所知时,该参与人可能

有积极性建立一个

“好”的声誉

(reputation)以换取长

远利益。

在社会行为中,经常可

以看到本质不好的人在

相当长的时期内干好事

的原因。

定理:令G是阶段博

弈,G(T)是G重复T次

的重复博弈(T<∞)。那

么,如果G有唯一的纳

什均衡,重复博弈G(T)

的唯一子博弈精炼纳什

均衡结果是阶段博弈G

的纳什均衡重复T次

(即每个阶段博弈出现

的都是一次性博弈的均

衡结果)。

上述定理说明,只要博弈的重

复次数是有限的,重复本身并

不改变囚徒困境的均衡结果。

上述定理中“唯一性”是一个

重要条件。

如果纳什均衡不是唯一的,上

述结论就不一定成立。

当博弈有多个纳什均衡时,参

与人可以使用不同的纳什均衡

惩罚前面阶段的不合作行为或

奖励第一阶段的合作行为。

(七)不完全信息静态博弈

不完全信息静态贝叶斯博弈贝

叶斯纳什均衡海萨尼转换拍卖

理论

(八)合作博弈

可传递效用 (transferable utility)合作博弈的特征函数合作的分配可行分配核心的定义 Shapley 值

相关主题
文本预览
相关文档 最新文档