99网
您的当前位置:首页博弈论课程概要 (III)

博弈论课程概要 (III)

来源:99网
交通大学博弈论课程概要 (III)

周林

第四部分:不完全信息扩展式博弈

1. 一般扩展式博弈的定义

一个一般扩展式博弈由(有向)博弈树表示。博弈树由点和联结点的枝组成。前点和后点。起点无前点,终点无后点。除起点外,每点有唯一的直接前访点。

除终点外的点代表决策点,每点x只属于一个博弈者i(x),从这点出发的枝代表i(x)在x处的行动集A(x) 。

博弈者i(x)在x处拥有的信息由信息集h(x)表示。h(x)包括了所有i(x)不能同x区分开来的点。对所有的h(x)中的点x’,A(x’) = A(x) 。因此我们可以将行动集记为A(h) 。

对一个不完全信息的扩展式博弈来说,起点代表“自然”,从自然出发的枝代表外生随机事件,概率分布是给定的,不受博弈者选择的影响。

每一终点处给出所有博弈者的收益。(当博弈进行无穷阶段时,所有博弈者的收益由博弈的历史决定。)

2. 一般扩展式博弈的策略式博弈表示

每一个博弈者的一个策略罗列了他在他的每一信息集上的行动,是一个

从信息集到行动的映射si:HA,si(hi)A(hi)。如果每一博弈者都选取一个特定的策略,我们可以用它们确定行动的历史,从而求出每人的收益。这样我们就得到了一般扩展式博弈的策略式博弈表示。

3. 混合策略和行为策略。混合策略在整个博弈尚未开始以前混合,行为策

略在博弈开始后每一决策点处混合。对具有完美记忆的博弈,混合策略和行为策略是等价的(Kuhn定理)。

4. 一般扩展式博弈的求解。Nash均衡和Nash均衡的精细:逆向归纳法和

子博弈完美。

5. 重要例子:行动可观察无限重复博弈与无名氏定理:只要博弈者足够耐

心,任何一个满足个人理性的可行的收益分配可以由一个无限重复博弈的Nash均衡(或子博弈完美Nash均衡)实现。

GAi;gii1,...,n是一个基本博弈,或阶段博弈。我们研究G的无限期

重复博弈。

0阶段: 每一个博弈者可以选择一个行动 ai0Ai.

001阶段: 历史h1a0(a1,,an) 被所有博弈者观察到,每一博弈者再

选择一个行动ai1Ai. …………

t阶段: 历史ht(a0,a1,,at1)被所有博弈者观察到,每一博弈者再选择一个行动aitAi.

博弈永不中止.

无限重复博弈中收益的计算

(1) 折现: u(1)tgt(2) 平均:ulimt,1;

1gtTTt0t0tT. 无限耐心

个人理性由最小最大值,或最低保证收益,来表示:

viminmaxgi(ai,i)  . iai

注意:博弈者i在任何一个无限重复博弈的Nash均衡至少获得vi。

可行的收益分配当然包括所有可以由g生成的收益分配。如果我们允许公共观察的随机混合装置,可行的收益分配还包括所有可以由g生成的收益分配的凸组合。

无名氏定理(Nash均衡):任给一个满足vivi(i)的可行的收益分配v, 只要足够接近1,v就可以由一个无限重复博弈的Nash均衡实现。

满足vivi(i)的v的子博弈完美Nash均衡的实现较为复杂。一个较弱但容易证明的结果是:

Friedman定理:假设阶段博弈G有一个Nash均衡a*,e是由a*生成的收益分配。任给一个满足viei(i)的可行的收益分配v, 只要足够接近1,v就可以由一个无限重复博弈的子博弈完美Nash均衡实现。

另一个容易证明的结果是当博弈者无穷耐心时的情况。

Aumann-Shapley定理:假设博弈者使用平均收益, 任给一个满足

viei(i)的可行的收益分配v 都可以由一个无限重复博弈的子博弈完美Nash均衡实现。

如不假设博弈者无穷耐心,我们需要一个“全维数条件”。

Fudenberg-Maskin定理:假设可行的收益分配集的维数等于博弈者的人数。任给一个满足vivi(i)的可行的收益分配v, 只要足够接近1,v就可以由一个无限重复博弈的子博弈完美Nash均衡实现。

6. 无名氏定理的推广:有限重复博弈;一个长期博弈者和无限个短期博弈

者;行动不可观察无限重复博弈

7. 不完全信息扩展式博弈时Nash均衡的精细. 信号传递博弈。

任何一个不完全信息扩展式博弈由“自然”出发,由于不完全信息,不存在子博弈。所以子博弈完美不能有任何作用。我们需要寻求更有效的精细。

信号传递博弈中有两个博弈者,1和2。1 的类型空间是。自然先依概率分布p抽出1 的类型。1 在知道了自己的类型后从行动集A1中选择一个行动a1。2在观察到1的行动a1后再从行动集A2中选择一个行动a2。双方的收益为u1(a1,a2,),u2(a1,a2,)。

在一个信号传递博弈中, 1的纯策略是从到A1的映射,混合策略记为1:对每一个,1(a1|)aA是一个A1上的概率分布。

11

2的纯策略是从A1到A2的映射,混合策略记为2:对每一个a1A1,2(a2|a1)a2A2是一个A2上的概率分布。



另外,2在观察到每个1的行动(信号)a1A1以后,对于的估计有一个更新: 对每一个a1A1,(|a1)是一个上的(后验)概率分布。

*完美Bayesian均衡(PBE):策略(1*,2)和估计*

*A1, a. 对任何类型,1*是对2的最佳反应:对所有a1

**)u1(a1,a2,) . (a2|a1)u1(a1,a2,)a2(a2|a1 a1*(a1|)a2122

*A2 , b. 对任何1的行动a1,2是在*下的最优决策: 对所有a2

a2*(a2|a1)*(|a1)u1(a1,a2,)*(|a1)u1(a1,a2,) .

2

c. 博弈者2的后验估计*与博弈者1的策略1*是一致的: 如果

p()1*(a1|)0,则

p()1*(a1|) . (|a1)*p()(a|)11*

8. 重要例子:Spence的教育模型

9. 信号传递博弈中PBE的精细 ——直观法则 。

给定任何博弈者1的行动a1A1, 如果博弈者2相信博弈者1的类型属于的一个子集T,则博弈者2应当采用下列行动之一:

BR(T,a1)a2|a2最大化T(|a1)u2(a1,a2,),T(|a1)1

**改进的Cho-Kreps法则:假设(1,2,*)是一个完美Bayesian均衡,*u1()是类型的博弈者1在此均衡的期望收益。如果对于任何理性的博弈者2的行动,1的行动a1A1总导致比均衡收益更坏的结果,最大化

** u1()maxa2BR(,a1)u1(a1,a2,) ,

那么对类型的博弈者1来说,a1是一个被均衡剔除的行动。博弈者2会认识到这一点,所以,我们要求 *(|a1)0 .

作业:5.1, 5.2, 5.5, 8.3, 8.4, 8.10.

因篇幅问题不能全部显示,请点此查看更多更全内容