期末速通版 · 但不偷工减料

把一学期博弈论压成一份能从头读到尾的复习讲义。

阅读顺序建议:先看“一张总图”和“解题工具箱”,再按目录复习。例题块给出考试时该怎么想,而不是只给答案。

核心对象参与人、策略、信息、支付、均衡。
核心动作找最优反应,剔除不合理威胁,更新信念。
核心难点个人理性与集体理性、信息不对称、承诺可信性。

0. 一张总图

博弈论研究的是互动决策:你的最优选择取决于别人如何选择,而别人也在预测你。考试中先判断博弈属于哪一类,再选均衡概念。

行动顺序 / 私人信息 无私人信息 有私人信息
同时行动 完全信息静态博弈:纳什均衡 不完全信息静态博弈:贝叶斯纳什均衡
先后行动 完全信息动态博弈:子博弈精炼纳什均衡 不完全信息动态博弈:精炼贝叶斯均衡、信号博弈
考试口诀 同时行动看“最佳回应”;先后行动从后往前推;有私人信息先写类型和信念;反复互动再问未来惩罚能不能支持合作。

1. 理性、偏好与共同知识

博弈的基本构成

  • 参与人:做决策的主体,可以是个人、企业、国家、群体。
  • 策略:在所有可能情形下的完整行动计划。动态博弈中,未到达的信息集也要规定行动。
  • 支付:参与人关心的结果评价,不限于金钱,也可包含尊严、声誉、公平、风险。
  • 信息:参与人知道什么,包括行动历史、类型、支付函数和信念。
  • 均衡:每个人在给定他人策略时都没有单方面偏离的动机。

理性人假设

理性人有明确偏好,并在约束条件下最大化自己的偏好满足。偏好通常要求完备性和传递性;约束包括财富、技术、制度、信息等。

常考辨析 “理性”不是只爱钱。若一个人为了荣誉、内疚、社会认可而行动,只要这些进入他的偏好,他仍可能是理性的。

不确定性与预期效用

在不确定环境中,选择的价值通常是不同状态下效用的概率加权平均。风险态度分为风险厌恶、风险中立、风险偏好。

例题:带伞或卖画 若一幅画有 25% 概率值 10000 美元,75% 概率值 2000 美元,期望货币价值为 0.25×10000+0.75×2000=4000 美元。若有人出价 3500,风险中立者会拒绝;风险厌恶者可能接受,因为确定收入能减少风险成本。

共同知识与理性共识

共同知识不是“大家都知道”这么简单,而是大家知道,大家知道大家知道,并无限递归。许多博弈预测与现实偏离,原因正是现实中共同知识不足。

  • 零阶:每个人理性
  • 一阶:每个人知道别人理性
  • 二阶:每个人知道别人知道自己理性
  • 无穷阶:共同知识

2. 完全信息静态博弈

标准式表达

完全信息静态博弈可写作参与人集合、策略空间、支付函数。双人有限博弈常用支付矩阵表示。

优势策略与劣势策略

  • 严格优势策略:无论对方怎么选,它都比其他策略好。
  • 弱优势策略:无论对方怎么选至少不差,且某些情况下更好。
  • 劣势策略剔除:反复删除永远不如其他策略的选择,直到剩下可理性化策略。

纳什均衡

纳什均衡是互为最优反应的策略组合。它不一定帕累托最优,也不一定唯一;有限博弈至少存在一个纳什均衡,可能是混合策略均衡。

对策略组合 s*,若对每个参与人 i,都有 u_i(s_i*, s_-i*) ≥ u_i(s_i, s_-i*),则 s* 是纳什均衡。

求解方法

  1. 画支付矩阵或列出策略组合。
  2. 固定对手策略,标出自己的最大支付。
  3. 双方最佳回应交叉处即纯策略纳什均衡。
  4. 若没有纯均衡,考虑混合策略。

3. 混合策略与不确定性

纯策略是在一个信息情况下选择确定行动;混合策略是按概率随机选择行动。混合的目的不是“随便选”,而是让对手在各纯策略之间无差异,从而无法被针对。

例题:NBA 投篮 / 突破 Kobe 有投篮和突破,Pierce 有防投篮和防突破。若 Kobe 投篮概率为 p,Pierce 在两种防守策略下的期望收益相等:15p-5 = 3-8p,得 p = 8/23。反过来,Pierce 防投篮概率 q 使 Kobe 投篮与突破收益相等:5-15q = 8q-3,得 q = 8/23。均衡为双方均以 8/23 选择“投篮/防投篮”,以 15/23 选择“突破/防突破”。
解题关键 混合策略均衡里,被正概率使用的纯策略必须给参与人相同期望收益;没有被使用的策略收益不能更高。
例题:礼貌过门 两人都可“先走”或“等待”。该协调博弈有两个纯策略均衡:一人先走、另一人等待;同时还可能有混合均衡。混合均衡通常不稳定,且期望收益可能低于纯协调均衡,因为存在撞上或都等待的概率。

4. 囚徒困境与社会两难

囚徒困境

囚徒困境说明个人理性可能导致集体非理性。每个囚徒都有坦白的占优策略,因此均衡是“都坦白”;但“都不坦白”对两人总体更好。

一般囚徒困境可记为:诱惑收益 T > 合作收益 R > 惩罚收益 P > 受骗收益 S,且 2R > T + S。

社会两难

社会两难是存在占优策略均衡,但采用均衡策略的收益比非均衡合作结果差。典型例子包括努力困境、公共地悲剧、政治家增税困境。

例题:公共地悲剧 每个牧人多放一头牛时,新增收益归自己,过度放牧成本由所有人分摊。个体边际收益大于个体边际成本,于是每个人都扩张,最终公地被耗尽。制度安排、产权、配额、惩罚和重复关系都是解决方案。

合作解与非合作解

非合作博弈强调独立决策与个人理性;合作博弈强调能否达成有约束力的协议与集体理性。两者区别不在于参与人是否“友好”,而在于协议是否可执行。

5. 完全信息动态博弈

扩展式博弈

动态博弈用博弈树表示:节点是决策点,枝是行动,终点给出支付。策略必须规定每个信息集上的行动。

序贯理性与不可置信威胁

动态博弈中,纳什均衡可能包含事后不会执行的威胁。序贯理性要求在每个到达的决策节点都选择最优行动。

例题:绩效考核博弈 经理先给“及格/不及格”,员工后选择“申诉/接受”。普通标准式可能给出三个纳什均衡,但其中两个依赖员工事后不愿执行的申诉威胁。用子博弈精炼剔除不可置信威胁后,合理均衡是经理给不及格,员工在两种情形下都接受。

子博弈精炼纳什均衡

SPE 要求策略组合不仅在原博弈是纳什均衡,在每个子博弈中也是纳什均衡。有限完美信息博弈通常用逆向归纳求解。

  1. 从最后一个决策节点开始。
  2. 求该节点行动者的最优选择。
  3. 把该子博弈替换为相应支付。
  4. 逐层向前推到初始节点。

承诺、威胁与法律

承诺是改变未来选择空间或选择成本,使原本不可置信的行动变得可信。订金、抵押物、固定资产、合同、法律都可能是承诺装置。承诺的本质是有时“选择少反而更有利”。

6. 讨价还价

共同利益与利益冲突

讨价还价是正和博弈:达成协议双方都有好处,但双方偏好的分配点不同。核心问题是合作剩余如何分配。

纳什合作解

设总价值为 V,不能达成协议时 A 得 a、B 得 b,合作剩余 S = V-a-b。纳什合作解在帕累托有效等条件下最大化纳什福利函数。

max (x-a)^h (y-b)^k,约束 x+y=V。若谈判力 h=k,则合作剩余平均分配。
例题:画家与拍卖商 画售价 V=3000;画家自己卖得 a=1000;拍卖商做别的事得 b=500。合作剩余 S=1500。若谈判力相等,双方各得 750 的剩余,所以画家 x=1750,拍卖商 y=1250。

轮流出价与耐心

非合作讨价还价把谈判看成动态博弈。谁先出价、是否有限期、谁更有耐心、拖延成本多大,都会影响分配。

两期谈判:A 第一轮给 B 至少 b,均衡为 x=1-b, y=b。无限期轮流出价:x=(1-b)/(1-ab), y=b(1-a)/(1-ab)。
结论 有最后期限时可能出现后动优势;无限期且耐心相同时,先出价者有先动优势。越有耐心,谈判力越强。

7. 重复博弈与合作

为什么重复能产生合作

一次囚徒困境中合作难以维持;若未来足够重要,今天背叛会失去未来合作收益,合作可成为均衡。重复博弈扩大了策略空间:参与人可以根据历史行动惩罚或奖励对方。

  • 冷酷触发策略:先合作;一旦对方背叛,之后永远不合作。
  • 一报还一报:先合作;随后复制对方上一期行动,特点是友善、报复、宽恕、一致。
  • 有限惩罚:惩罚若干期后恢复合作,在不确定环境中比永久惩罚更稳。
为避免和囚徒困境经典符号混淆,记双方合作收益为 C,单方背叛收益为 D,双方不合作收益为 P。触发策略支持合作的条件是:C/(1-d) ≥ D + dP/(1-d),即 d ≥ (D-C)/(D-P)。
例题:贴现因子门槛 若 D=3、C=2、P=1,则 d ≥ (3-2)/(3-1)=0.5,合作可维持。若背叛收益提高到 D=3.5,则 d ≥ (3.5-2)/(3.5-1)=0.6。背叛诱惑越大,需要越重视未来。

信息、惩罚与声誉

欺骗越难被发现,合作所需贴现因子越高。社会信息传播速度、品牌、声誉、第三方惩罚、联合抵制,都能影响合作。

考试提醒 有限次重复囚徒困境若阶段博弈唯一均衡为背叛,逆向归纳通常导致每期背叛。但若阶段博弈有多个均衡,或存在不完全信息与声誉类型,有限次重复也可能在前期合作。

8. 不对称信息与信号

事前与事后不对称

非对称信息是交易一方拥有而另一方不知道的信息。签约前的隐藏信息导致逆向选择;签约后的隐藏行动导致道德风险。

类型 别名 典型问题 解决思路
事前不对称 隐藏信息 旧车质量、投保人健康、借款人风险 筛选、信号、品牌、机制设计
事后不对称 隐藏行动 员工努力、经理行为、保险后谨慎程度 激励合同、监督、声誉、风险分担

逆向选择

例题:旧车市场 好车卖方价值 20、买方价值 22;坏车卖方价值 10、买方价值 12。买方若只知道好坏各半,最多按平均质量出价。高质量卖方认为价格太低退出,平均质量进一步下降,最终“坏车驱逐好车”。这就是阿克洛夫柠檬市场。
例题:施舍博弈 若真乞丐概率为 q,施舍的期望收益为 10q+(1-q)(-20)=30q-20;不施舍收益为 0。只有 q>2/3 才施舍。真乞丐得不到帮助,未必因为没有善心,而是因为信息不对称。

信号传递

拥有私人信息的一方通过有成本行动显示类型。信号能区分类型的关键是:不同类型发出同一信号的成本不同,且成本差异足够大。

例题:保修作为质量信号 好车故障概率 Q,坏车故障概率 q,且 Q<q,维修成本 C。若高价 P 与无信号价格 p 的价差满足 QC ≤ P-p < qC,则好车愿意提供保修,坏车不愿提供保修,保修成为分离信号。

解决信息不对称的四类机制

  1. 直接获取信息:调查、审计、精算、评级。
  2. 信号传递:教育、保修、广告、债务水平、加班、品牌。
  3. 机制设计:让信息优势方通过自选择说真话。
  4. 声誉机制:长期品牌和重复交易让撒谎变贵。

9. 机制设计与拍卖

机制设计的本质

机制设计问的是:没有信息的一方如何设计规则,让拥有信息的一方愿意暴露真实类型。核心约束是激励相容和参与约束。

激励相容 IC在给定机制下,如实报告或选择符合自己类型的合同是最优策略。
参与约束 IR参与机制的收益不低于外部保留收益,否则参与人会退出。

保险合同的自选择

保险公司可以提供不同价格和保障水平的合同组合,让高风险与低风险投保人自动选择不同方案。可行合同必须同时满足各类型的 IC 与 IR。

拍卖机制

拍卖形式 规则 策略含义
英国式拍卖 公开升价,最后最高者得 信息逐步披露,常有较高效率
荷兰式拍卖 高价开始逐步降价,先接受者得 适合价值随时间下降的商品
第一价格密封拍卖 最高报价者赢,并支付自己的报价 投标者会低于真实估值出价
第二价格密封拍卖 最高报价者赢,但支付第二高价 真实报价是占优策略,又称 Vickrey 拍卖
例题:为什么 Vickrey 拍卖说真话 你是否赢取决于你的报价是否高于别人;但你赢后支付的是第二高价,不是自己的报价。若低报,可能错失本来有正净收益的物品;若高报,可能赢下估值以下本不该赢的物品。真实报价最优。

显示原理与公共产品

显示原理说,若某个结果能由某机制的贝叶斯纳什均衡实现,就能由直接说真话机制实现。VCG 机制把第二价格拍卖思想推广到公共项目,让每个人承担自己报告对他人造成的外部性。

10. 演化博弈

演化博弈不要求参与人一开始就完全理性,而是研究策略如何在群体中通过模仿、学习和适应扩散。收益高的策略更容易生存。

演化稳定策略 ESS

若群体中大多数采用某策略时,少数突变策略无法入侵,该策略就是演化稳定策略。它把均衡理解为长期稳定的行为模式。

若对任意突变策略 x,有 f(E,E) > f(x,E),则 E 是 ESS;若二者相等,还需 f(E,x) > f(x,x)。

单元均衡与多元均衡

  • 单元均衡:稳定状态中只有一种策略存在。
  • 多元均衡:多个策略可同时稳定存在。
  • 路径依赖:初始状态和历史冲击会影响最终均衡。
例题:交通协调 如果多数人靠右走,靠右者更容易避免冲突,靠左者收益低。通过模仿与适应,靠右会逐渐扩散并形成稳定习俗。一旦稳定,个体单独改为靠左反而吃亏。

11. 解题工具箱

看到题目先分类

  1. 参与人是谁?策略有哪些?支付如何写?
  2. 行动是同时还是先后?是否能观察历史?
  3. 有没有私人信息?类型概率和信念是什么?
  4. 是一次博弈还是重复博弈?未来是否重要?
  5. 题目要纯策略、混合策略、SPE、BNE、PBE,还是机制设计约束?

常用方法速查

方法 适用题型 操作
划线法 2×2 或有限静态博弈 逐列找行玩家最优,逐行找列玩家最优,交叉处为均衡
剔除劣势策略 策略较多的静态博弈 反复删除永远不优的策略,注意严格/弱劣势区别
无差异条件 混合策略 令对手被混合的纯策略期望收益相等
逆向归纳 有限动态博弈 从最后节点往前求最优行动,剔除不可置信威胁
贝叶斯更新 不完全信息 写先验、信号概率、后验,再求最优行动
IC / IR 机制设计、合同、信号 先保证愿意参与,再保证愿意说真话或自选择
贴现比较 重复博弈 比较长期合作现值与短期背叛加惩罚现值

高频概念一页背诵

  • 帕累托效率:不存在让至少一人变好且无人变坏的改进。
  • 纳什均衡:给定别人策略,自己无利可图地单边偏离。
  • 子博弈精炼:每个子博弈都构成纳什均衡,剔除不可置信威胁。
  • 贝叶斯纳什均衡:各类型在信念下最大化期望收益。
  • 分离均衡:不同类型发不同信号,接收者能识别类型。
  • 混同均衡:不同类型发同一信号,接收者无法区分类型。
  • 激励相容:参与人按机制希望的方式行动是自己的最优选择。
  • 显示原理:可实现结果可由直接说真话机制实现。
  • ESS:突变策略不能成功入侵的稳定策略。

整理依据:工作区内《博弈论补充讲义(一)》至《博弈论补充讲义(十)》及《博弈论知识点总结.md》。

回到顶部