当前位置：文档之家› 博弈论

博弈论

第一章完全信息非合作静态博弈

例一囚徒困境本例子对奠定非合作博弈理论基础起着重大作用。假定有两个嫌疑犯A 和B 作案后被抓住，关在不同审讯室审讯，他

们部知道，如果两人都坦白各判刑8年，若两人都抵赖各判1年，若一人坦白另一人抵赖坦白者释放抵赖者判十年，下图给出本例的完整数学描述：

囚徒B

坦白抵赖

坦白

囚徒A

抵赖

（囚徒A ，囚徒B ）

基本假定：

1) 两囚徒都是理性的；

2) 两囚徒都了解对方是理性的；

3) 两囚徒都了解在各种情况下审判后果的信息；

4) 两囚徒都了解对方了解在各种情况下审判后果的信息。研究问题：预测最终结果。

结论：从上表看出A 与B 同样是：不管对方采取什么行动，坦白都是最

优的，因而两囚徒若满足上述条件他们所采取的行动都是坦白。（坦白，坦白）称为本博弈的均衡解。

从上述模型中看出，如果两人都选择抵赖，对两人都是最好的，但结果－8，－8 0，－10

－10，0

－1，－1

他们只能选择较差的结果，都坦白，不论他们事先如何订立攻守同盟都无效，原因出在上述四点假设上。囚徒困境表现为个人理性压倒集体理性。

例二智猪博弈

猪圈有两头理性的智猪，一头大猪，一头小猪。猪圈一头放着食，

另一头有一按钮，供智猪食供应。按一下按钮会有10单位猪食进糟，但谁按谁就要付出2单位代价。若大猪先到、大猪吃到9单位，小猪吃到1单位，若同时到大猪吃到7单位，小猪吃到3单位，若小猪先到，大猪吃到6单位，小猪吃到4单位。本问题可用下形式表示：

小猪

按等待按大猪

等待（大

猪，小猪）

基本假设：与囚徒困境相同，即理性人假设和完全对称信息假设。

问题分析：很显然小猪的最优策略是等待，大猪很清楚小猪最优策略是

等待，而且必然采取等待行动，那么大猪的策略是按，于是其结果必然是大猪按小猪等待。（大猪按，小猪等待）为本博弈均衡解。

5，1 4，4 9，－1 0，0

智猪问题本质：在合作共事中谁享受成果多谁多出力。

三、基本概念

包括：参与人、行动、信息、战略、支付（效用）、结果、均衡。

其中参与人、战略、支付是描述一个博弈所需的最少要素；行动和信息是其“积木（建材）”；参与人、行动和结果称为“博弈规则”。博

弈分析的目的是使用博弈规则预测均衡。

1. 参与人博弈中决策主体，他的目的是通过迭择行动（或战

略）以最大化自己的支付（效用）水平。除一般意义的参与人外，

博弈论把“自然”作为虚拟参与人来处理。

2.行动参与人在博弈的某个时点的决策变量。用ai表

示第i个参与人的一个行动，Ai ={ai}表示第i个参与人可选择的

行动集合。在n人博弈中参与人的行动有序集a =（a1，…，

an ）称为行动组合。

与行动相关的一个重要问题是行动的顺序，行动顺序往往决定博弈的结果。实际上静态博弈与动态博弈是由行动顺序来划分的。

在博弈论中一般假定参与人的行动空间和行动顺序是析有参与人的共同知识。

3.信息参与人有关博弈的知识。（关于信息以后将更详

细介绍）。

“共同知识”是所有人知道，所有人知道所有知道……的知识。

4.战略参与人在给定信息集下的行动规则。战略与行动

不同。

5.支付特定的战略组合下参与人确定的效用水平，或期望

效用水平。

6.结果博弈分析者所感兴趣的所有东西，加均衡战略组合、

均衡行动组合、均衡支付组合等。

7.均衡所有参与人的最优战略组合。

四、战略表达式

?一个博弈可以用两种不同方式来表示，一种是战略表达式，另一种是扩展式，战略式适于分析静达博弈，扩展式适于表示动态博

弈。

?战略式又称标准式，在这种表述中，所有参与人同时各自选择各自的战略。

?战略式更准确表述为：

1. 博弈参与人集合：i ∈Γ，= Γ（1，2，…，n）；

2.每个参与人战略空间：Si；

3.每个参与人的支付函数：ui（s1，…，sn）。

用G ={s1，…，sn；u1，…，un} 代表战略式表述博弈。当参与人为两人时则可表示为矩阵形式。

五、纳什均衡

纳什均衡描述性陈述定义，如果一个博弈存在一个战略组合，任何参与人要改变这一战略组合都可能导致降低自身的效用

水平（或只能保持原有的效用水平），因而任何参与人都没有积

极性去改变这一战略组合，这一战略组合称该博弈的纳什均衡。

六、求解纳什均衡方法(一般方法)

定义：有n个参与人的战略表述博弈G ={s1，…，sn；u1，…，un} ，战略组合s * =（s1*，…，si * ，…，sn * ）是一个纳什均衡，

如果对于每个i，si *是给定其他参与人选择

s-i * =（s1*，…，si-1 * ，si+1 * ，…，sn * ）

的情况下第i个参与人的最优战略，即：

Ui（si * ，s-i * ）≥Ui（si ，s-i * ）? si ∈Si，? I （﹡）或表述为：

si * =argmax ui(s1*，…，si-1 * ，si，si+1 * ，…，sn * ) （﹡﹡）（﹡﹡）式为纳什均衡求解的基本公式。

从上式得出以下方法：

Дi （s1，…，sn ）= ?ui(s1，…，sn )/ ? si = 0

Дi （s1，…，sn ）称为si 对（s1，…，si-1 ，si+1 ，…，sn ）反应方程，即第i个参与人对其它参与人如果采取行动（s1，…，

si-1 ，si+1 ，…，sn ）的行动对策。对反应方程组Дi （s1，…，sn ）= 0 i =1 ，2 ，…，n

求解，则得出纳什均衡解。

七、公共用地悲剧

这是制度经济学中典型的例子，是1968年Hardin所提出的，他

证明了，如果一种资源没有排他性产权，就会导致这种资源过度

使用而使效益下降。

现假设有三个农户n＝3每只羊的价格为

V＝100－（g１＋g２＋g３），成本为c＝４。那么三个农户的收益分别为：

π1＝g１［100－（g１＋g２＋g３）-4］

π2＝g2 ［100－（g１＋g２＋g３）-4 ］

π3＝g3 ［100－（g１＋g２＋g３）-4 ］

由一阶导数条件分别求出反应函数为：

g１＝48－（g２＋g３）／2

g2 ＝48－（g３＋g1）／2

g3 ＝48－（g２＋g1 ）／2

求得g１＝g2 ＝g3 ＝24；π1＝π2＝π3＝576

G＝72 ；π＝1728

现研究该草地为一个农民所有，由它一个人放牧的情况。这时π＝G（100－G -4 ）

可求得G ＝48，π ＝2304

显然，草地为一个人所有由一个人使用，养羊少收益大，这就是共公用地悲剧。

八、混合战略纳什均衡

例一社会福利博弈

有些博弈并不存在纳什均衡，例如社会福利博弈问题：

流浪汉

找工作游荡

救济政府

不救济

很显然上述博弈不存在纳什均

衡。给定政府政策是救济流浪汉最优策略是游荡；给是流浪汉对策是游荡政府最优政策是不救济；给定政府政策是不救济浪浪汉的最优策略是找工作；而给定流浪汉对策是找工作政府最优策略是救济，因而不存在纳什均衡解。但可以把均衡的概念放宽定义下面混合战略纳什均衡的概念。

混合战略纳什均衡是参与人以一定的概率选择某种战略。如

在本例中政府以概率θ选择救济，以（1-θ）选择不救济；流浪汉以概率γ选择找工作，以（1-γ），选择流荡。在以上假设下政府的期望效用函数为：

vG （ θ ，γ ）= θ（3 γ +（-1）（1-γ））+ （1-θ）（- γ +0 （1-γ））= θ（5

γ - 1）- γ

流浪汉的期望效用函数为：

vl （ θ ，γ ）= γ （2 θ + 1（1- θ ））+ （1- γ ）（3θ +0 （1- θ ）） = -

（ 2 θ - 1）+3 θ

从中vG ， vl 求出使vG ， vl 最优的θ ，γ则θ ，γ为混合战略纳

什均衡。为此，按最优一阶条件：

? vG （ θ ，γ ）/ ? θ= （5 γ - 1）=0

? vl （ θ ，γ ）/ ? γ = -（2 θ - 1）=0

3，2 －1，3 －1，1 0，0

得出：θ* = 0.5 ; γ *= 0.2

为混合战略纳什均衡。

上述混合战略纳什均衡可以解释为：如果政府预测流浪汉选

择寻找工作的概率严格小于0.2则政府的唯一最优选择的战略是不救济，如果政府预测流浪汉选择寻找工作的概率严格大于0.2则政府的唯一最优选择的战略是救济；如果流浪汉预测政府选择救济的概率严格小于0.5则流浪汉的唯一最优选择的战略是寻找工作，如果流浪汉预测政府选择救济的概率严格大于0.5则流浪汉的唯一最优选择的战略是游荡。

上述例子很显然看出，参与人选择纯战略的概率分布不是由自已的支

付决定的，而是由对手的支付决定的。

例二监督博弈

监督博弈包括：税收检查、质量检查、对雇员监督、惩治犯罪等一

系列十分有现实意义的博弈问题。下面例子是税收检查：

纳税人

逃税不逃税

检查

税收机关

不检查 C 表示检查成本，F 表示罚款，a 表示应交税款，并假设 C

示税收机关检查概率，γ表示纳税人逃税概率。

从上述博弈问题得出税收机关和纳税人的期望效用函数分别为： a-C+F,-a-F a-C,-a

0,0 a,-a

vG(θ, γ)= θ(γ(a-C+F)+(1- γ)(a-C))+(1- θ)(γ 0+(1- γ) a)

vM(θ, γ)= γ(θ(-a-F)+(1- θ)(0))+(1- γ)(θ(-a)+(1- θ)(-a))

由一阶导数条件求最优θ, γ ：

? vG(θ, γ)/ ? θ =0

? vm(θ, γ)/ ? γ =0

得出：

θ* = a/(a+F) ; γ *= C/(a+F)

为混合战略纳什均衡解。

这意味：若税收机关检查概率小于a/(a+F)时纳税人采取逃税战

略，若税收机关检查概率大于时a/(a+F)纳税人采取不逃税战略；

若纳税人逃税概率小于C/(a+F)时税收机关的最优战略是不检

查，若纳税人逃税概率大于C/(a+F)时税收机关最优战略是检查。

九、四种均衡关系

上面介绍了占优战略均衡（DSE）、重复剔除占优均衡（IEDE）、纯战略纳什均衡（PNE）和混合战略纳什均衡（MNE）四个概念，

四种均衡均称为纳什均衡，它们之间存在下图所示的关系：DSE >IEDE >PNE >MNE

第二章完全信息动态博弈

一、博弈的扩展表达式

在静态博弈中，参与人的行动是同时进行的，参与人并未考虑自身的行动对别人的影响，亦未考虑别人的行动。而在动态博弈中参与人

的行动是有先后顺序的，后行者观察到先行者的行动，并根据获

得先行者的行动信息而采取对策。对于动态博弈用扩展表达式来

表示。扩展表达式包括以下六个要素：

1.参与人集合；

2.参与人顺序；

3.参与人行动空间；

4.参与人信息集每次行动时参与人知道什么；

5.参与人支付函数；

6.自然选择的概率分布。

在静态博弈中，战略式用博弈矩阵来表示，在动态博弈中扩展式

用博弈树来表示。

二、子博弈精炼纳什均衡

子博弈精炼纳什均衡是泽尔腾（1965）解决动态博弈问题所引出的，办法是把纳什均衡中把不可置信的纳什均衡剔除。为了给出这概念

的定义，首先给出“子博弈”的概念。

子博弈粗略而言是博弈树中从一个决策点开始的一个分支。准确来说是用下面定义。

定义：一个博树的子博弈是由一个决策点x和它的所有所有后续结所组成，并满足以下条件：

（1）x是单结信息集；

（2）如果x1是x的后续结而x2是与x1同属于原博弈的一个信息集，则x2亦在子博弈中，即不破坏原博弈的结构。

下面定义子博弈精炼纳什均衡。

定义：扩展式（博弈树）的战略组合

s=（s1，…，si，…sn）

是一个子博弈精炼纳什均衡，如果：

（1）它是原博弈的纳什均衡；

（2）它在每个子博弈上给出纳什均衡。

逆向归纳法是求解子博弈精炼纳什均衡最简便的方法,亦即由下而上求优。

三、斯坦克尔格寡头竞争模型

在第一章中我们研究过库诺特静态博弈寡头竞争模型。在这节研斯坦克尔格动态博弈寡头竞争模型，它是在1934年由斯坦克尔格

给出的。

设有两个企业：企业1和企业2垄断某产品市场，设企业1为领头企业先选择产品产量为q1，企业2根据企业1的产量选择产量

为q2。设产品的价格为

P=a - q1 - q2

第企业1的收益为

π1（q1 ,q2 ）= q1 （P-c）= q1 （a - q1 - q2 -c）

第企业2的收益为

π2（q1 ,q2 ）= q2（P-c）= q2 （a - q1 - q2 -c）

求子博弈精炼纳什均衡。

用逆向求解法，先对企业收益求最优

? π2( q1 ,q2 ）/ ? q2 = （a - q1 - q2 -c）- q2 =0

q2 = （a - q1 -c）/2

即q1在确定下的反应函数。代入π1（q1 ,q2 ）得出

π1（q1 ,q2 ）=q1 (a - q1 - （（a - q1 -c）/2 ）-c）

对π1（q1 ,q2 ）求最优

? π1（q1 ,q2 ）/ ? q1 =

a - q1 – (( a - q1 –c)/2 ) -c =0

得出q1* =（a-c）/2

并得出q2* =（a-c）/4

而在静态博弈库诺特模型中

q1* = q2* =（a-c）/3

从本例中可看到“先动优势”。

第三章不完全信息静态博弈

不完全信息库诺特模型

有两企业，企业1和企业2生产同一种产品，在同一市场上进行决定产量的博弈竞争。设价格是而企业总产量的函数：

p = a - q1- q2

企业1的产品单位成本为c1是共公知识，是确定的；企业2产品单位成本c2有两种类型，即c2L , c2 H。企业1只知道企业2低成本

的概率为μ，高成本概率为1- μ。第i个企业的利润为：

πi= qi（a - q1 - q2- ci）

为了求纳什均衡，确定两企业的产量，使两企业利润最大化。对于第二

个企业，最优化条件为：

?π2/ ?q2= ? （q2（a-q1-q2-c2））/ ?q2 =0

得出：

q2*(q1,t)=(a-c2-q1)/2 其中t=a-c2

因此，

q2L*=（a-c2L-q1）/2 ；q2H*=（a-c2H-q1）/2

对于第一个企业，则要求企望期最优，期望值为：

Eπ1= μ q1（a-q1-q2L-c1）+（1- μ）q1（a-q1-q2H-c1）

求最优化条件得出：

μ（a-q1-qL2-c1）-pq1+ (1- μ )(a-q1-qH2-c1）- （1-P）q1=0 μ（a--qL2-c1）+ （1- μ）（a--qH2-c1）- 2 q1=0 q1*=（μ（a--q2L-c1）+ （1- μ）（a--q2H-c1））/2

现解得方程为：

q1*=（μ（a--q2L*-c1）+ （1- μ）（a--q2H*-c1））/2

q2L*=（a-c2L-q1）/2 ；q2H*=（a-c2H-q1）/2

若设

μ =1/2 , a=2 , c1=1 , c2L=3/4 , c2H=5/4 ,

则得出：

q1*=1/3 ; qL*2=11/24 ; qH*2 =5/24

第四章不完全信息动态博弈

一、不完全信息动态博弈定义

在不完全信息博弈中，“自然”首先选择参与人的类型，参与人知道自己的类型，其它参与人不知道，只从一些信息产生对类型的分布概

率的信念（称为先验概率），自然选择后，参与人采取行动，后

行者能观察到先行者的行动。这就产生两个很有意思的问题：第

一个问题是，不完全信息博弈中先行知道后行者能观察到自已的

行动，而行动就有可行暴露自身所属的类型，这是先行者不希望

的，因而先行者往往采取一种行动去迷惑后行者，使后行者误判；

第二个问题是，后行者可能从先行者的行动中对先验概率修正，

而使自身获益，修正后的概率称为后验概率。

二、精炼贝叶斯均衡的定义

定义：精炼贝叶斯均衡是一个战略组合

s*（θ）=（s1*（θ1），…，sn*（θn））

和一个后验概率P=(p1,…，pn)组合，满足：

(1) S*i(s-i, θi)=argmax∑pi(θ-i ︳ah-i )ui(si，s-i，θi)

(2) pi(θ-i | ah-i )是从先验概率通过观察到ah-i使用贝叶斯法则得到的

后验概率

三、举例用负债比例显示企业质量

上世纪五十年代以来，经济学家—直研究什么因素决定企业资本结构（资本负债率），资本结构的信号传递理论是该领域最有影响的理论

之一。这一理论证明，如果内部经理人与外部投资者之间存在信

息不对称，资本结构就可以通过传递内部信息对企业的市场价值

发生影响。下面介绍罗斯（1977）模型。

假设企业经理知道企业利润真实分布函数，投资者不知道；企业利润分布函数是根据一阶隨机占优排序的（即越好的企业高利润的概率

越高）。设经理的效用是企业市场价值的增函数，但企业破产，

经理将受到惩罚。经理使用企业负债比向投资者传递企业利润分

布信息，投资者把较高的负债比看作是企业高质量的表现，由于

低质量的企业经理人不敢过渡举债，因为破产经理将受到惩罚。假定博弈有两个参与人，即企业经理与投资者，并且博弈有两个时期。

令π为企业第二时期的利润并在区间[0, θ] 上均匀分布。经

理知道真实情况，投资者只知道其分布概率为μ(θ)。第—期企

业经理首先选择负债水平为D，投资者根据D确定企业的市场

价值。经理的目标是极大化企业1期市场价值和2期期望价值的

加权平均值，即：

u(D, V0(D), θ)=(1-γ) V0(D)+ γ(θ/2-LD/ θ)

其中V0(D)是给定负债水平为D时第1期企业市场价值，θ/2为2期市场价值，D/ θ为破产概率，L为破产惩罚，γ为权数。并假

定为分离均衡。

首先注意：

?2u(D, V0(D), θ)/?D? θ= γL/ θ2>0

即质量越高的企业越不怕负债。

另一方面注意，当经理选择负债水平为D 他预测投资者从D推得企业利润为θ，从而选择V0(D) ，期望值θ(D)为市场价值为

V0(D)= θ(D)/2

把上式代入u(D, V0(D), θ)求一阶最优条件得出：((1- γ) ? θ(D)/ ?D)/2- γL/ θ =0

可改写为

2 γL ? D/ ? θ-(1- γ) θ =0

解上述微分方程得出：

D(θ)= (1- γ) θ2 /4 γL +C

由于V0(D)= θ/2得出

V0(D)=（（D-c）γL /（1- γ））1/2

博弈论经典例子

博弈论经典例子篇一:《博弈论三大经典案例》经典的囚徒困境 1950年，由就职于兰德公司的梅里尔弗拉德(MerrillFlood)和梅尔文德雷希尔(MelvinDresher)拟定出相关困境的理论，后来由顾问阿尔伯特塔克(AlbertTucker)以囚徒方式阐述，并命名为"囚徒困境"。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择：若一人认罪并作证检举对方(相关术语称"背叛"对方)，而对方保持沉默，此人将即时获释，沉默者将判监xx年。若二人都保持沉默(相关术语称互相"合作")，则二人同样判监半年。若二人都互相检举(互相"背叛")，则二人同样判监2年。用表格概述如下：甲沉默(合作) 乙沉默(合作)二人同服刑半年甲认罪(背叛)甲即时获释;乙服刑xx 年乙认罪(背叛)甲服刑xx年;乙即时获释二人同服刑2年如同博弈论的其他例证，囚徒困境假定每个参与者(即"囚徒")都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为"严格劣势"，理性的参与者绝不会选择。另外，没有任何

其他力量干预个人决策，参与者可完全按照自己意愿选择策略。囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁，并不知道对方选择;而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择：若对方沉默、背叛会让我获释，所以会选择背叛。若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。二人面对的情况一样，所以二人的理性思考都会得出相同的结论选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑半年，总体利益更高，结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是"困境"所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。由囚徒困境可以写出类似的员工困境：一名经理，数名员工;前提，经理比较苛刻; 如果所有员工都听从经理吩咐，则奖金等待遇一样，不过所有人

博弈论经典案例分析

博弈论经典案例分析囚徒困境案例：警察把甲乙分开关押，并在提审时分别告之，如果你坦白而他不坦白，那么你将只判0年，他将被判8年；如果你不坦白而他坦白，那么你判8年，他判0年；如果你们两人都坦白了，各判5年；如果你们两人都不坦白了，各判1年。分析：每个博弈方选择自己的策略时，虽然无法知道另一方的实际选择，但他却不能忽视另一方的选择对他自己的得益的影响，因此他应该考虑到另一方有两种可能的选择，并分别考虑自己相应的最佳策略。对囚徒A 来说，囚徒B 有坦白和不坦白两种可能的选择，假设囚徒B 的选择是不坦白，则对囚徒A 来说，不坦白得益为-1，坦白得益为0，他应该选择坦白；假设囚徒B 选择的是坦白，则囚徒A 不坦白得益为-8，坦白得益为-5，他还是该选择坦白。因此，在此博弈中，无论囚徒B 采取何种策略囚徒A 的选择只有一种，即坦白，因为在另一方两种可能的情况下，坦白给自己带来的得益都是较大的。同样的道理，囚徒B 的唯一的选择也是坦白。所以最可能的结局：该博弈的最终结果是两博弈方同选择坦白策略。其支付矩阵如下：性格大战案例：一对恋人准备在周末晚上一起出去，男的喜欢看足球，但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。分析：可以看出，分开将使他们两人得不到任何满足，只要在一起，不管是看时装表演还是看足球，两人都会得到一定的满足。但看足球将使男的得到更大的满足，看时装表演则使女的得到更大的满足。在这样的一个对局中，男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择，一旦对方选定了某一项活动，另一个人选择同样的活动就是最好的策略。因此，如果男的已经买好了足球的门票，女的当然就不再反对；反之，如果女的已经买好了时装表演票，男的也就会与她一起看时装表演。 1，1 8， 0 不坦白 0，8 5，5 坦白嫌疑犯乙不坦白坦白嫌疑犯甲 1，2 -1， -1 时装 0，0 2，1 足球男时装足球女

(完整版)博弈论知识点总结

博弈论知识总结博弈论概述： 1、博弈论概念：博弈论：就是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。博弈论研究的假设： 1、决策主体是理性的，最大化自己的收益。 2、完全理性是共同知识 3、每个参与人被假定为可以对所处环境以及其他参与者的行为形成正确的信念与预期 2、和博弈有关的变量：博弈参与人：博弈中选择行动以最大化自己受益的决策主体。行动：参与人的决策选择战略：参与人的行动规则，即事件与决策主体行动之间的映射，也是参与人行动的规则。信息：参与人在博弈中的知识，尤其是其他决策主体的战略、收益、类型（不完全信息）等的信息。完全信息：每个参与人对其他参与人的支付函数有准确的了解；完美信息：在博弈过程的任何时点每个参与人都能观察并记忆之前各局中人所选择的行动，否则为不完美信息。不完全信息：参与人没有完全掌握其他参与人的特征、战略空间及支付函数等信息，即存在着有关其他参与人的不确定性因素。支付：决策主体在博弈中的收益。在博弈中支付是所有决策主题所选择的行动的函数。从经济学的角度讲，博弈是决策主体之间的相互作用，因此和传统个人决策存在着区别： 3、博弈论与传统决策的区别： 1、传统微观经济学的个人决策就是在给定市场价格、消费者收入条件下，最大化自己效用，研究工具是无差异曲线。可表示为：maxU(P,I)，其中P为市场价格，I为消

费者可支配收入。 2、其他消费者对个人的综合影响表示为一个参数——市场价格，所以在市场价格既定下，消费者效用只依赖于自己的收入和偏好，不用考虑其他消费者的影响。但是在博弈论理个人效用函数还依赖于其他决策者的选择和效用函数。 4、博弈的表示形式：战略式博弈和扩展式博弈战略式博弈：是博弈问题的一种规范性描述，有时亦称标准式博弈。战略式博弈是一种假设每个参与人仅选择一次行动或战略，并且参与人同时进行选择的决策模型，因此，从本质上来讲战略式博弈是一种静态模型，一般适用于描述不需要考虑博弈进程的完全信息静态博弈问题。 1、参与人集合： 2、每位参与人非空的战略集 S i 3、每位参与人定义在战略组合上的效用函数Ui(s1,s2,…,sn). 扩展式博弈：是博弈问题的一种规范性描述。与战略式博弈侧重博弈结果的描述相比，扩展式博弈更注重对参与人在博弈过程中遇到决策问题时序列结构的分析。包含要素： 1、参与人集合 2、参与人的行动顺序，即每个参与人在何时行动； 3、序列结构：每个参与人行动时面临的决策问题，包括参与人行动时可供选择的行动方案、所了解的信息； 4、参与人的支付函数。比较： 1、战略式博弈从本质上来讲是一种静态模型。 2、扩展式博弈从本质上来讲是一种动态模型。 {1,2,...,} n Γ={1,2,...,}n Γ=11 (,...,,...,) n i i n i s s s s ==∏

《博弈论原理模型与教程》第06章扩展式博弈第01节.

《博弈论：原理、模型与教程》第二部分完全信息动态博弈第6章扩展式博弈（已精细订正！）对博弈问题的规范性描述是科学、系统地分析博弈问题的基础。前面介绍了一种常用的博弈问题描述方式—战略式博弈，虽然这种博弈模型结构简单，只要给出博弈问题的三个基本构成要素（即参与人、参与人的战略集及参与人的支付），就可完成对博弈问题的建模。但是，由于战略式博弈假设每个参与人仅选择一次行动或行动计划（战略），并且参与人同时进行选择，因此从本质上来讲战略式博弈是一种静态模型，一般适用于描述不需要考虑博弈进程的完全信息静态博弈问题。虽然战略式博弈也可以对动态博弈问题进行建模，但是从所得到的模型中只能看到博弈的结果，而无法直观地了解到博弈问题的动态特性。本章将介绍一种新的博弈问题描述方式—扩展式博弈。从扩展式博弈模型中，不仅可以看到博弈的结果，而且还能直观地看到博弈的进程。在介绍扩展式博弈构成的基础上，还将对扩展式博弈的战略和解进行讨论。 6.1 扩展式博弈（文字描述、博弈树描述）所谓扩展式博弈（extensive form game），是博弈问题的一种规范性描述。与战略式博弈侧重博弈结果的描述相比，扩展式博弈更注重对参与人在博弈过程中所遇到决策问题的序列结构的详细分析。一般而言，要了解一个博弈问题的具体进程，就必须弄清楚以下两个问题：（1）每个参与人在什么时候行动（决策、选择）；（2）每个参与人行动时，他所面临决策问题的结构，包括参与人行动时可供他选择的行动方案及所了解的信息（集）。 [注：行文中频繁出现的“行动”一词，有两义：其一，动词的“行动”，指选择、决策。其二，名词的“行动”，指策略、战略、谋略、行动方案、方案。] 上述两个问题构成了参与人在博弈过程中所遇到决策问题的序列结构。对于一个博弈问题，如果能够说清楚博弈过程中参与人的决策问题的序列结构，那么就意味着知道了博弈问题的具体进程。

纳什博弈论的原理与应用的论文

纳什博弈论的原理与应用的论文 1950年和1951年纳什的两篇关于非合作博弈论的重要论文，彻底改变了人们对竞争和市场的看法。他证明了非合作博弈及其均衡解，并证明了均衡解的存在性，即著名的纳什均衡。从而揭示了博弈均衡与经济均衡的内在联系。纳什的研究奠定了现代非合作博弈论的基石，后来的博弈论研究基本上都沿着这条主线展开的。然而，纳什天才的发现却遭到冯·诺依曼的断然否定，在此之前他还受到爱因斯坦的冷遇。但是骨子里挑战权威、藐视权威的本性，使纳什坚持了自己的观点，终成一代大师。要不是30多年的严重精神病折磨，恐怕他早已站在诺贝尔奖的领奖台上了，而且也绝不会与其他人分享这一殊荣。纳什是一个非常天才的数学家，他的主要贡献是1950至1951年在普林斯顿读博士学位时做出的。然而，他的天才发现———非合作博弈的均衡，即“纳什均衡”并不是一帆风顺的。 1948年纳什到普林斯顿大学读数学系的博士。那一年他还不到20岁。当时普林斯顿可谓人杰地灵，大师如云。爱因斯坦、冯·诺依曼、列夫谢茨(数学系主任)、阿尔伯特·塔克、阿伦佐·切奇、哈罗德·库恩、诺尔曼·斯蒂恩罗德、埃尔夫·福克斯……等全都在这里。博弈论主要是由冯·诺依曼(1903—1957)创所立的。他是一位出生于匈牙利的天才的数学家。他不仅创立了经济博弈论，而且发明了计算机。早在20世纪初，塞梅鲁(zermelo)、鲍罗(borel)和冯·诺伊曼已经开始研究博弈的准确的数学表达，直到1939年，冯·诺依曼遇到经济学家奥斯卡·摩根斯特恩(oskar morgenstern)，并与其合作才使博弈论进入经济学的广阔领域。 1944年他与奥斯卡·摩根斯特恩合著的巨作《博弈论与经济行为》出版，标志着现代系统博弈理论的的初步形成。尽管对具有博弈性质的问题的研究可以追溯到19世纪甚至更早。例如，1838年古诺(cournot)简单双寡头垄断博弈；1883年伯特兰和1925年艾奇沃奇思研究了两个寡头的产量与价格垄断；2000多年前中国著名军事家孙武的后代孙膑利用博弈论方法帮助田忌赛马取胜等等都属于早期博弈论的萌芽，其特点是零星的，片断的研究，带有很大的偶然性，很不系统。冯·诺依曼和摩根斯特恩的《博弈论与经济行为》一书中提出的标准型、扩展型和合作型博弈模型解的概念和分析方法，奠定了这门学科的理论基础。合作型博弈在20世纪50年代达到了巅峰期。然而，诺依曼的博弈论的局限性也日益暴露出来，由于它过于抽象，使应用范围受到很大限制，在很长时间里，人们对博弈论的研究知之甚少，只是少数数学家的专利，所以，影响力很有限。正是在这个时候，非合作博弈———“纳什均衡”应运而生了，它标志着博弈论的新时代的开始！纳什不是一个按部就班的学生，他经常旷课。据他的同学们回忆，他们根本想不起来曾经什么时候和纳什一起完完整整地上过一门必修课，但纳什争辩说，至少上过斯蒂恩罗德的代数拓扑学。斯蒂恩罗德恰恰是这门学科的创立者，可是，没上几次课，纳什就认定这门课不符合他的口味。于是，又走人了。然而，纳什毕竟是一位英才天纵的非凡人物，他广泛涉猎数学王国的每一个分支，如拓扑学、代数几何学、逻辑学、博弈论等等，深深地为之着迷。纳什经常显示出他与众不同的自信和自负，充满咄咄逼人的学术野心。1950年整个夏天纳什都忙于应付紧张的考试，他的博弈论研究工作被迫中断，他感到这是莫大的浪费。殊不知这种暂时的“放弃”，使原来模糊、杂乱和无绪的若干念头，在潜意识的持续思考下，逐步形成一条清晰的脉络，突然来了灵感！这一年的10月，他骤感才思潮涌，梦笔生花。其中一个最耀眼的亮点就是日后被称之为“纳什均衡”的非合作博弈均衡的概念。纳什的主要学术贡献体现在1950年和1951年的两篇论文之中(包括一篇博士论文)。1950年他才把自己的研究成果写成题为“非合作博弈”的长篇博士论文，1950年11月刊登在美国全国科学院每月公报上，立即引起轰动。说起来这全靠师兄戴维·盖尔之功，就在遭到冯·诺依曼贬低几天之后，他遇到盖尔，告诉他自己已经将冯·诺依曼的“最小最大原理”(minimax solution)推到非合作博弈领域，找到了普遍化的方法和均衡点。盖尔

博弈论经典案例与分析

案例：一对恋人准备在周末晚上一起出去，男的喜欢看足球，但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。分析：可以看出，分开将使他们两人得不到任何满足，只要在一起，不管是看时装表演还是看足球，两人都会得到一定的满足。但看足球将使男的得到更大的满足，看时装表演则使女的得到更大的满足。在这样的一个对局中，男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择，一旦对方选定了某一项活动，另一个人选择同样的活动就是最好的策略。因此，如果男的已经买好了足球的门票，女的当然就不再反对；反之，如果女的已经买好了时装表演票，男的也就会与她一起看时装表演。价格战案例：假设市场中仅有A 、B 两家企业，每家企业可采取的定价策略都是10元或15元，我们可以得出得益矩阵如下：分析：无论对企业A 还是企业B 来说，低价都是他们的占优战略。从表可见，企业A 的占优战略是10元，因为无论B 采取什么战略，企业A 都能获取比定价15元更多的利润。如果企业B 定价10元，企业A 定价10元能够获利80万元，而定价15元只能获得30万元；如果企业B 定价15元，企业A 定价10元可获利170万元，而定价15元却只能获利120万元。同样地，企业B 的占优战略也是定价10元的策略。企业B 男

博弈论与社会科学方法论(潘天群)

通识课课程中文名称：博弈论与社会科学方法论课程英文名称：Game Theory and Methodology of Social Sciences 课程代号：开课学期：第一学期（秋学期）主讲教师：潘天群职称：教授、博导研究专长：博弈论、逻辑学、科学方法论所在院系：哲学联系电邮：tqpan@https://www.doczj.com/doc/da16368589.html, 授课对象：全校二、三年级本科生（不限专业）一、主讲教师简介：潘天群，哲学博士，现为南京大学哲学系、南京大学现代逻辑与逻辑应用研究所教授、博士生导师。兼任中国逻辑学会常务理事、中国逻辑学会经济逻辑专业委员会副主任委员。教育部新世纪人才（2006）。曾于2001年9月-2002年2月在美国纽约大学政治学系从事“博弈论中的方法论问题”的访问研究。主要研究领域为：逻辑学、哲学、博弈论。在《哲学研究》等国内外学术杂志发表学术论文约70余篇。独立出版著作5部：《行动科学方法论》，《博弈生存——社会现象的博弈论解读》、《博弈思维——逻辑使你决策制胜》、《社会决策的逻辑结构》与《合作之道——博弈中共赢方法论》。其中《博弈生存——社会现象的博弈论解读》，自2002年出版以来深受读者欢迎，为畅销书与长销书，已出版第三版。主持国家社会科学基金项目“博弈论的哲学基础与应用功能研究”（2009）。二、课程简介由于“他人”与“我”是既合作又竞争的关系，研究冲突与合作的博弈论自上一世纪由冯?诺依曼等人创立与发展以来，对社会现象表现出强大的解释力，已经成为社会科学的一个通用工具。迄今至少有五位博弈论专家获得诺贝尔经济学奖，许多诺贝尔经济学奖获得者其研究与博弈论相关。博弈论也也渐渐渗透到自然科学（如生物学、人工智能）之中。本课程突破数理博弈论的框架，结合主讲教师十年来的研究工作，构建适合

博弈论的基础知识与应用

博弈论的基础知识与应用(转) 1 基础知识博弈论是一种独特的处于各学科之间的研究人类行为的方法。与博弈论有关的学科包括数学、经济学以及其他社会科学和行为科学。博弈论（如同计算科学理论和许多其他的贡献一样）是由约翰.冯.诺伊曼（John von Neumann）创立的。博弈论领域第一本重要著作是诺伊曼与另一个伟大的数理经济学家奥斯卡.摩根斯坦（Oskar Morgenstern）共同写成的《博弈论与经济行为》（The Theory of Games and Economic Behavior）。当然，摩根斯坦把新古典经济学的思想带入了合作中，但是诺伊曼也同样意识到那些思想并对新古典经济学做出了其他的贡献。 ■一个科学的隐喻由于诺伊曼的工作，在更广阔的人类行为互动的范围内，“博弈”成为了一个科学的隐喻。在人类的互动行为中，结局依赖于两个或更多的人们所采取的交互式的战略，这些人们具有相反的动机或者最好的组合动机（mixed motives）。在博弈论中常常讨论的问题包括：1）当结局依赖于其他人所选择的战略以及信息是完全的时候，“理性地”选择战略意味着什么？ 2）在允许共同得益或者共同损失的“博弈”中，寻求合作以实现共同得益（或避免共同损失）是否“理性”？或者，采取侵略性的行动以寻求私人利益而不顾共同得益或共同损失，这是否是“理性”的？ 3）如果对2）的回答是“有时候是”，那么在什么样的环境下侵略是理性的，在什么样的情况下合作是理性的？ 4）在特定情况下，正在持续的关系与单方退出这种关系是不同的吗？ 5）在理性的自我主义者的行为互动中，合作的道德规则可以自然而然地出现吗？ 6）在这些情况下，真正的人类行为与“理性”行为是否相符？ 7）如果不符，在那些方面不符？相对于“理性”，人们更倾向于合作？或者更倾向于侵略？抑或二者皆是？因而，博弈论研究的“博弈”包括：破产门口的野蛮人（Barbarians at the Gate）网络战（Battle of the Networks）货物出门，概不退换（Caveat Emptor）征召（Conscription）协调（Coordination）逃避（Escape and Evasion）青蛙呼叫配偶（Frogs Call for Mates）鹰鸽博弈（Hawk versus Dove） Mutually Assured Destruction 多数决定原则（Majority Rule） Market Niche 共同防卫（Mutual Defense）囚徒困境（Prisoner’s Dilemma）补贴小商业Subsidized Small Business 公共地悲剧Tragedy of the Commons 最后通牒Ultimatum

博弈论案例分析

(1)失火了，你往哪个门跑失火了，你往哪个门跑——这就是博弈论一天晚上，你参加一个派对，屋里有很多人，你玩得很开心。这时候，屋里突然失火，火势很大，无法扑灭。此时你想逃生。你的面前有两个门，左门和右门，你必须在它们之间选择。但问题是，其他人也要争抢这两个门出逃。如果你选择的门是很多人选择的，那么你将因人多拥挤、冲不出去而烧死；相反，如果你选择的是较少人选择的，那么你将逃生。这里我们不考虑道德因素，你将如何选择？这就是博弈论！你的选择必须考虑其他人的选择，而其他人的选择也考虑你的选择。你的结果——博弈论称之为支付，不仅取决于你的行动选择——博弈论称之为策略选择，同时取决于他人的策略选择。你和这群人构成一个博弈（game）。上述博弈是一个叫张翼成的中国人在1997年提出的一个博弈论模型，被称之为少数者博弈或少数派博弈（Minority Game）。当然，原来的博弈形式不是这么简单，这里我把它简化了，我们在第三部分论述归纳推理时还要谈这个博弈模型。现在很多学者在研究这个问题。生活中博弈的案例很多，你会见到很多例子。只要涉及到人群的互动，就有博弈。什么叫博弈？博弈的英文为game，我们一般将它翻译成“游戏”。而在西方，game的意义不同于汉语中的游戏。在英语中，game即是

人们遵循一定规则下的活动，进行活动的人的目的是使自己“赢”。奥林匹克运动会叫Olympic Games。在英文中，game有竞赛的意思，进行game的人是很认真的，不同于汉语中游戏的概念。在汉语中，游戏有儿戏的味道。因此将关于game的理论，即game theory翻译成博弈论或者对策论，是恰当的。本书下面统称game theory为博弈论。博弈论的出现只有50多年的历史。博弈论的开创者为诺意曼与摩根斯坦，他们1944年出版了《博弈论与经济行为》。诺意曼是着名的数学家，他同时对计算机的发明作出了巨大贡献，他去世时博弈论还未对经济学产生广泛影响，否则经济学的诺贝尔奖肯定有他的名字，因为诺贝尔奖有规定，只颁发给在世的学者。谈到博弈论，不能忽略博弈论天才纳什（John Nash）。纳什的开创性论文《n人博弈的均衡点》（1950）、《非合作博弈》（1951）等等，给出了纳什均衡的概念和均衡存在定理。今天博弈论已发展成一个较完善的学科。博弈论对于社会科学有着重要的意义，它正成为社会科学研究范式中的一种核心工具，以至于我们可称博弈论是“社会科学的数学”，或者说是关于社会的数学。从理论上讲，博弈论是研究理性的行动者（agents）相互作用的形式理论，而实际上它正深入到经济学、政治学、社会学等等，被各门社会科学所应用。甚至有学者声称要用博弈论重新改写经济学。1994年经济学诺贝尔奖颁发给三位博弈论专家：纳什、塞尔屯、哈桑尼（），而像1985年获得诺贝尔奖的公共选择学派的领导者布坎南，1995年获得诺贝尔奖的理性主义学派的领袖卢

博弈论经典模型全解析

博弈论经典模型全解析（入门级） 1. 囚徒困境这是博弈论中最最经典的案例了——囚徒困境，非常耐人寻味。“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事，结果被警察发现抓了起来，分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下，两个囚犯都可以做出自己的选择：或者供出他的同伙(即与警察合作，从而背叛他的同伙)，或者保持沉默(也就是与他的同伙合作，而不是与警察合作)。这两个囚犯都知道，如果他俩都能保持沉默的话，就都会被释放，因为只要他们拒不承认，警方无法给他们定罪。但警方也明白这一点，所以他们就给了这两个囚犯一点儿刺激：如果他们中的一个人背叛，即告发他的同伙，那么他就可以被无罪释放，同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决，并且为了加重惩罚，还要对他施以罚款，作为对告发者的奖赏。当然，如果这两个囚犯互相背叛的话，两个人都会被按照最重的罪来判决，谁也不会得到奖赏。那么，这两个囚犯该怎么办呢？是选择互相合作还是互相背叛？从表面上看，他们应该互相合作，保持沉默，因为这样他们俩都能得到最好的结果：自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子，他马上意识到，他根本无法相信他的同伙不

会向警方提供对他不利的证据，然后带着一笔丰厚的奖赏出狱而去，让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到，他的同伙也不是傻子，也会这样来设想他。所以A犯的结论是，唯一理性的选择就是背叛同伙，把一切都告诉警方，因为如果他的同伙笨得只会保持沉默，那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了，那么，A犯反正也得服刑，起码他不必在这之上再被罚款。所以其结果就是，这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应：坐牢。企业在信息化过程中需要与咨询企业、软件供应商打交道的。在与这些企业打交道的过程中，我们不可避免地也会遇到类似的两难境地，这个时候需要相互之间有足够的了解与信任，没有起码的信任做基础，切不可贸然合作。在对对方有了足够的信任之后，诚意也是必不可少的，如果没有诚意或者太过贪婪，就可能闹到双方都没有好处的糟糕情况，造成企业之间的双输。 2. 智猪博弈在博弈论（Game Theory）经济学中，“智猪博弈”是一个着名的纳什均衡的例子。假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽，另一头安装着控制猪食供应的按钮，按一下按钮会有10个单位的猪食进槽，但是谁按按钮就会首先付出2个单位的成本，若大猪先到槽边，大小猪吃到食物的收益比是9∶1；同时到槽边，收益比是

博弈论的经典案例与分析

博弈论的经典案例与分析囚徒困境案例：警察把甲乙分开关押，并在提审时分别告之，如果你坦白而他不坦白，那么你将只判0年，他将被判8年；如果你不坦白而他坦白，那么你判8年，他判0年；如果你们两人都坦白了，各判5年；如果你们两人都不坦白了，各判1年。分析：每个博弈方选择自己的策略时，虽然无法知道另一方的实际选择，但他却不能忽视另一方的选择对他自己的得益的影响，因此他应该考虑到另一方有两种可能的选择，并分别考虑自己相应的最佳策略。对囚徒A 来说，囚徒B 有坦白和不坦白两种可能的选择，假设囚徒B 的选择是不坦白，则对囚徒A 来说，不坦白得益为-1，坦白得益为0，他应该选择坦白；假设囚徒B 选择的是坦白，则囚徒A 不坦白得益为-8，坦白得益为-5，他还是该选择坦白。因此，在此博弈中，无论囚徒B 采取何种策略囚徒A 的选择只有一种，即坦白，因为在另一方两种可能的情况下，坦白给自己带来的得益都是较大的。同样的道理，囚徒B 的唯一的选择也是坦白。所以最可能的结局：该博弈的最终结果是两博弈方同选择坦白策略。其支付矩阵如下：性格大战案例：一对恋人准备在周末晚上一起出去，男的喜欢看足球，但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。分析：可以看出，分开将使他们两人得不到任何满足，只要在一起，不管是看时装表演还是看足球，两人都会得到一定的满足。但看足球将使男的得到更大的满足，看时装表演则使女的得到更大的满足。在这样的一个对局中，男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择，一旦对方选定了某一项活动，另一个人选择同样的活动就是最好的策略。因此，如果男的已经买好了足球的门票，女的当然就不再反对；反之，如果女的已经买好了时装表演票，男的也就会与她一起看时装表演。 1，1 8， 0 不坦白 0，8 5，5 坦白嫌疑犯乙不坦白坦白嫌疑犯甲 1，2 -1， -1 时装 0，0 2，1 足球男时装足球女

1.3.7 博弈论分析方法的主要特征

博弈论分析方法的主要特征博弈论已形成一套完整的思想体系和方法论体系。其分析方法具有下列特征： 1. 研究对象的普遍性和应用范围的广泛性人们的行为之间存在相互作用与相互依赖，不同的行为主体及其不同的行为方式所形成的利益冲突与合作，已成为一种普遍现象，这使博弈论的研究对象具有普遍性。一切涉及到人们之间利益冲突与一致的问题、一切关于竞争或对抗的问题都是博弈论的研究对象。现实社会中广泛存在的合作与非合作博弈、完全信息与不完全信息博弈的事实，使博弈论的研究内容和应用范围十分广泛，涉及到政治学、社会学、伦理学、经济学、生物学、军事学等诸多领域，在经济学中的应用尤为突出。 2. 研究方法的模型化、抽象化以及涉及学科的综合性一是运用数学模型来描述所研究的问题，使博弈论的分析更为精确。二是研究方法具有抽象化的特征，由于博弈论分析大量使用了现代数学，使它所描述和分析的过程及所揭示的结论都带有抽象、一般化的特点。三是博弈论分析方法所体现的模式化特征，博弈论为人们提供了一个统一的分析框架或基本范式，从而使博弈论能够分析和处理其它数学工具难以处理的复杂行为，成为对行为主体间复杂过程进行建模的最适合的工具。

四是博弈论方法所涉及的学科的综合性。在博弈论分析中，不仅要应用现代数学的大量知识，还涉及到经济学、管理学、心理学和行为科学等学科。 3. 研究方法的实证性与研究结论的真实性博弈论中的最佳策略是经济学意义上的最优化，它只回答是什么导致博弈均衡，均衡的结果是什么，所遵循的基本原则是科学结论的客观性和普遍性。从实践上看，博弈论突破了传统的完全竞争、完全信息假定，更加强调决策者的个人理性，强调不完全信息、不完全竞争条件下的经济分析，强调决策个体之间的相互影响和相互作用等外部性，强调通过规则、机制和制度的设计和优化在个人理性得到满足的基础上达到个人理性和集体理性的一致，等等。作为一门方法论科学，除了提供分析和解决博弈问题的独特和新颖的具有战略思维的思想方法以外，还提供了更加贴近现实的分析工具并填补了传统经济分析的许多空白。从这个意义上说，博弈论方法具有实证的特征，使研究结果更具有真实性。

博弈论经典案例《智猪博弈》

在经济学中，在经济学中，智猪博弈”(PigS ' PayoffS(BoXed PigS) 是一个著名博弈论例子。这个例子讲的是：猪圈里有两头猪，一头大猪，一头小猪。猪圈的一边有个踏板，每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物；若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。那么，两只猪各会采取什么策略？答案是：小猪将选择搭便车”策略，也就是舒舒服服地等在食槽边；而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。原因何在？因为，小猪踩踏板将一无所获，不踩踏板反而能吃上食物。对小猪而言，无论大猪是否踩动踏板，不踩踏板总是好的选择。反观大猪，已明知小猪是不会去踩动踏板的，自己亲自去踩踏板总比不踩强吧，所以只好亲力亲为了。小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是：每次落下的事物数量和踏板与投食口之间的距离。如果改变一下核心指标，猪圈里还会出现同样的小猪躺着大猪跑”的景象吗？试试看。改变方案一：减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩，大猪将会把食物吃完；大猪去踩，小猪将也会把食物吃完。谁去踩踏板，就意味着为对方贡

献食物，所以谁也不会有踩踏板的动力了。如果目的是想让猪们去多踩踏板，这个游戏规则的设计显然是失败的。改变方案二：增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃，谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的共产主义”社会，所以竞争意识却不会很强。对于游戏规则的设计者来说，这个规则的成本相当高（每次提供双份的食物）；而且因为竞争不强烈，想让猪们去多踩踏板的效果并不好。改变方案三：减量加移位方案。投食仅原来的一半分量，但同时将投食口移到踏板附近。结果呢，小猪和大猪都在拼命地抢着踩踏板。等待者不得食，而多劳者多得。每次的收获刚好消费宀完。对于游戏设计者，这是一个最好的方案。成本不高，但收获最大。原版的智猪博弈”故事给了竞争中的弱者（小猪）以等待为最佳策略的启发。但是对于社会而言，因为小猪未能参与竞争，小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置，规则的设计者是不愿看见有人搭便车的，政府如此，公司的老板也是如此。而能否完全杜绝搭便车”现象，就要看游戏规则的核心指标设置是否合适了。

历史的制度分析：博弈论分析方法

历史的制度分析：博弈论分析方法把博弈论作为研究方法和分析工具应用于经济体制与制度问题的研究，目前主要有两种方法。一种是“进化博弈论方法”（evolutionary game approach）。经济学中的进化博弈论是在生物学的进化博弈论的基础上产生、发展起来的。它将人类的经济活动和竞争性经济行为同生物的进化相类比，研究人类经济行为中的策略和行为方式的均衡，以及向均衡状态调整、收敛的过程与性质。采用这一方法的研究者认为，社会制度并不是由什么人有意设计出来的，而是在那些适应环境和社会变化的新的制度结构不断被发现、更为理想的制度结构不断被保存的过程中产生的。这就是所谓的“适应性进化”过程。进化博弈论的引入，就是为了分析和说明社会制度的这一适应性进化过程。进化博弈论之所以在制度变迁理论中受到重视，主要是因为它是在不严重依赖决策者计算能力的前提下来说明均衡选择过程，从而在纳什均衡的理性主义解释遇到理论困难时，显示出了通过进化机制实现纳什均衡的可能性。应用博弈论研究制度变迁的另一种新方法是“重复博弈论方法”（repeated game approach），它运用更精细的均衡概念，如“子博弈精炼均衡”（subgame perfect equilibrium）来分析历史与现实中的制度选择与变迁过程。其中最具代表性的，就是格瑞夫进行的“历史的比较制度分析”。所谓的重复博弈，实际上是指同样结构的博弈重复地进行多次。与一次性博弈不同，它是由若干个阶段博弈（stage game）构成的一个完整的和相对长期的博弈过程。因此，在重复博弈中，各博弈方的着眼点就不是其在某一阶段上的局部利益或短期利益，而是他们在整个博弈过程中的总体利益和长期利益。当各博弈方面对不同的策略选择时，他必须考察到其在当前阶段的博弈中所采取的策略，不致在随后阶段中引起其他博弈方的对抗、报复或恶性竞争。也就是说，他不能像在一次性博弈中那样，毫不顾及其他博弈方的利益。有时，一方若作出一种合作姿态，可能会使其他博弈方在随后的阶段中也采取合作态度，从而实现共同的长远利益。这样，在重复博弈中就存在着比一次性博弈更大的合作的可能性，也有可能实现比一次性博弈更有效率的均衡。重复博弈论的这一特征，为它说明人类之间的合作行为，特别是说明历史与现实社会中体制与制度的演变过程，提供了强有力的支持。在历史的比较制度分析那里，制度被定义为本身是“自我实施的对行为的非技术决定的约束” ，即所谓的自我实施制度（self-enforcing institution ）。自我实施制度的一个最基本的特征，就是它的自发产生和自我实施的性质。与那些由国家和法律强制实施的制度不同，自我实施制度必须是参与人各方经过协商、谈判、讨价还价后自愿达成一致的结果。因此，历史的比较制度分析将自我实施制度视为特定历史条件下制度博弈的一种均衡状态或均衡结果。自我实施制度产生的过程，也就是制度博弈各方在特定的战略局势中，根据自己不同的目标自主地选择各自的最优策略与对手进行博弈，最后求得制度均衡的过程。而所谓的“子博弈精炼均衡”，恰恰是指在构成动态博弈的所有子博弈阶段上都实现了纳什均衡。这就是说，一个子博弈精炼均衡，必须是各博弈方在整个博弈的每个阶段（子博弈）都选择了不愿单独改变的策略（纳什均衡）的最终结果。如果我们从博弈论的角度来观察自我实施制度，就会发现自我实施制度与子博弈精炼均衡之间的内在联系。简单地说，自我实施制度所具有的自发产生和自我实施的基本属性，说明了它必定是制度博弈各方在每个子博弈中都选择了不愿单独改变的最优策略的结果，也即实现子博弈精炼均衡的结果。更直接地说，自我实施制度的产生，必定是一个制度博弈实现了子博弈精炼均衡的结果。反过来说，如果一个制度博弈实现了子博弈精炼均衡的结果，那它也应该是自我实施的。

博弈论的基本概念

博弈论的基本概念 ?博弈论是研究两人或多人谋略和决策的理论。 ?博弈论思想古已有之，我国古代的《孙子兵法》就不仅是一部军事著作，而且算是最早的一部博弈论专著。博弈论最初主要研究象棋、桥牌、赌博中的胜负问题，人们对博弈局势的把握只停留在经验上,没有向理论化发展，正式发展成一门学科则是在20世纪初。1928年冯·诺意曼证明了博弈论的基本原理，从而宣告了博弈论的正式诞生。1944年，冯·诺意曼和摩根斯坦共著的划时代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并将博弈论系统的应用于经济领域，从而奠定了这一学科的基础和理论体系。纳什的开创性论文《n人博弈的均衡点》（1950），《非合作博弈》（1951）等等，给出了纳什均衡的概念和均衡存在定理。此外，塞尔顿、哈桑尼的研究也对博弈论发展起到推动作用。今天博弈论已发展成一门较完善的的学科。 ?参与者：参与者是指一个博弈中的决策主体，通常又称为参与人或局中人。参与人的目的是通过合理悬着自己的行动，以便取得最大化的收益。参与者可以是自然人，也可以是团体。 ?信息：信息是指参与者在博弈过程中能了解和观察到的知识。信息对参与者是至关重要，每一个参与者在每一次进行决策之前必须根据观察到的其他参与者的行动和了解到的有关情况作出自己的最佳选择。完全信息是指所有参与者各自选择的行动的不同组合所决定的收益对所有参与者来说是共同知识。

?策略：策略是参与者如何对其他参与者的行动作出反应的行动规则，它规定参与者在什么时候选择什么行动。通常用s i表示参与者i的一个特定策略，用S i表示参与者i的所有可选择的策略的集合（又成为而i的策略空间）。如果n个参与者没人选择一个策略，那么s=（s1，s2，…，s n）称为一个策略组合。 ?收益：收益是在一个特定的策略组合下参与者能得到的确定的效用。通常用u i表示参与者i的收益，它是策略组合的函数。 ?均衡：均衡是所有参与者的最优策略组合，记为s*。几个经典的博弈实例 ?例一囚徒困境两个共同作案的犯罪嫌疑人被捕，并受到指控。除非至少一人认罪，否则警方无充分证据将他们按最论刑。警方把他们隔离审讯，并对他们说明不同行动所带来的后果。如果两人都采取沉默的抗拒态度，因警方证据不足，两人将均被判为轻度犯罪入狱一个月；如果双方都坦白，根据案情两人将被判入狱六个月；如果一个招认而另一个拒不坦白，招认者因由主动认罪立功的表现将立即释放，而另一人将被判入狱九个月。

博弈论三大经典案例

经典的囚徒困境 1950年，由就职于兰德公司的梅里尔·弗拉德（Merrill Flood）和梅尔文·德雷希尔（Melvin Dresher）拟定出相关困境的理论，后来由顾问阿尔伯特·塔克（Albert Tucker）以囚徒方式阐述，并命名为“囚徒困境”。经典的囚徒困境如下：警方逮捕甲、乙两名嫌疑犯，但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯，分别和二人见面，并向双方提供以下相同的选择： ?若一人认罪并作证检举对方（相关术语称“背叛”对方），而对方保持沉默，此人将即时获释，沉默者将判监10年。 ?若二人都保持沉默（相关术语称互相“合作”），则二人同样判监半年。 ?若二人都互相检举（互相“背叛”），则二人同样判监2年。用表格概述如下：甲沉默（合作）甲认罪（背叛）乙沉默（合作）二人同服刑半年甲即时获释；乙服刑10年乙认罪（背叛）甲服刑10年；乙即时获释二人同服刑2年如同博弈论的其他例证，囚徒困境假定每个参与者（即“囚徒”）都是利己的，即都寻求最大自身利益，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低的话，此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短？两名囚徒由于隔绝监禁，并不知道对方选择；而即使他们能交谈，还是未必能够尽信对方不会反口。就个人的理性选择而言，检举背叛对方所得刑期，总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择： ?若对方沉默、背叛会让我获释，所以会选择背叛。 ?若对方背叛指控我，我也要指控对方才能得到较低的刑期，所以也是会选择背叛。二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此，这场博弈中唯一可能达到的纳什均衡，就是双方参与者都背叛对方，结果二人同样服刑2年。这场博弈的纳什均衡，显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言，如果两个参与者都合作保持沉默，两人都只会被判刑半年，总体利益更高，结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设，二人均为理性的个人，且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作为高，总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了：非零和博弈中，帕累托最优和纳什均衡是相冲突的。由囚徒困境可以写出类似的员工困境：一名经理，数名员工; 前提，经理比较苛刻; 如果所有员工都听从经理吩咐，则奖金等待遇一样，不过所有人都超负荷工作如果某人不听从吩咐，其他人听从吩咐，则此人下岗。其他人继续工作如果所有人都不听从经理吩咐，则经理下岗但是，由于员工之间信息是不透明的，而且，都担心别人听话自己不听话而下岗，所以，大家只能继续繁重的工作. 囚徒困境是博弈论的非零和博弈中具代表性的例子，反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

博弈论案例分析

博弈论案例分析一、经济学中的“智猪博弈” (Pigs’payoffs) 故事背景:猪圈里有一头大猪和一头小猪。猪圈的一边有个踏板，每踩一下踏板，在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板，另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时，大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板，则还有机会在小猪吃完落下的食物之前跑到食槽，争吃到另一半残羹。那么，两只猪各会采取什么策略,答案是:小猪将选择“搭便车”策略，也就是舒舒服服地等在食槽边; 而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。原因何在,因为，小猪踩踏板将一无所获，不踩踏板反而能吃上食物。对小猪而言，无论大猪是否踩动踏板，不踩踏板总是好的选择。反观大猪，已明知小猪是不会去踩动踏板的，自己亲自去踩踏板总比不踩强吧，所以只好亲力亲为了。“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之间的距离。如果改变一下核心指标，猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗,试试看。改变方案一:减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩，大猪将会把食物吃完;大猪去踩，小猪将也会把食物吃完。谁去踩踏板，就意味着为对方贡献食物，所以谁也不会有踩踏板的动力了。如果目的是想让猪们去多踩踏板，这个游戏规则的设计显然是失败的。改变方案二:增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃，谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会，所以竞争意识却不会很强。对于游戏规则的设计者来说，这个规则的成相当高(每次提供双份的食物) ;而且因为竞争不强烈，想让猪们去多踩踏板的