把一学期博弈论压成一份能从头读到尾的复习讲义。
阅读顺序建议:先看“一张总图”和“解题工具箱”,再按目录复习。例题块给出考试时该怎么想,而不是只给答案。
0. 一张总图
博弈论研究的是互动决策:你的最优选择取决于别人如何选择,而别人也在预测你。考试中先判断博弈属于哪一类,再选均衡概念。
| 行动顺序 / 私人信息 | 无私人信息 | 有私人信息 |
|---|---|---|
| 同时行动 | 完全信息静态博弈:纳什均衡 | 不完全信息静态博弈:贝叶斯纳什均衡 |
| 先后行动 | 完全信息动态博弈:子博弈精炼纳什均衡 | 不完全信息动态博弈:精炼贝叶斯均衡、信号博弈 |
1. 理性、偏好与共同知识
博弈的基本构成
- 参与人:做决策的主体,可以是个人、企业、国家、群体。
- 策略:在所有可能情形下的完整行动计划。动态博弈中,未到达的信息集也要规定行动。
- 支付:参与人关心的结果评价,不限于金钱,也可包含尊严、声誉、公平、风险。
- 信息:参与人知道什么,包括行动历史、类型、支付函数和信念。
- 均衡:每个人在给定他人策略时都没有单方面偏离的动机。
理性人假设
理性人有明确偏好,并在约束条件下最大化自己的偏好满足。偏好通常要求完备性和传递性;约束包括财富、技术、制度、信息等。
不确定性与预期效用
在不确定环境中,选择的价值通常是不同状态下效用的概率加权平均。风险态度分为风险厌恶、风险中立、风险偏好。
共同知识与理性共识
共同知识不是“大家都知道”这么简单,而是大家知道,大家知道大家知道,并无限递归。许多博弈预测与现实偏离,原因正是现实中共同知识不足。
- 零阶:每个人理性
- 一阶:每个人知道别人理性
- 二阶:每个人知道别人知道自己理性
- 无穷阶:共同知识
2. 完全信息静态博弈
标准式表达
完全信息静态博弈可写作参与人集合、策略空间、支付函数。双人有限博弈常用支付矩阵表示。
优势策略与劣势策略
- 严格优势策略:无论对方怎么选,它都比其他策略好。
- 弱优势策略:无论对方怎么选至少不差,且某些情况下更好。
- 劣势策略剔除:反复删除永远不如其他策略的选择,直到剩下可理性化策略。
纳什均衡
纳什均衡是互为最优反应的策略组合。它不一定帕累托最优,也不一定唯一;有限博弈至少存在一个纳什均衡,可能是混合策略均衡。
求解方法
- 画支付矩阵或列出策略组合。
- 固定对手策略,标出自己的最大支付。
- 双方最佳回应交叉处即纯策略纳什均衡。
- 若没有纯均衡,考虑混合策略。
3. 混合策略与不确定性
纯策略是在一个信息情况下选择确定行动;混合策略是按概率随机选择行动。混合的目的不是“随便选”,而是让对手在各纯策略之间无差异,从而无法被针对。
4. 囚徒困境与社会两难
囚徒困境
囚徒困境说明个人理性可能导致集体非理性。每个囚徒都有坦白的占优策略,因此均衡是“都坦白”;但“都不坦白”对两人总体更好。
社会两难
社会两难是存在占优策略均衡,但采用均衡策略的收益比非均衡合作结果差。典型例子包括努力困境、公共地悲剧、政治家增税困境。
合作解与非合作解
非合作博弈强调独立决策与个人理性;合作博弈强调能否达成有约束力的协议与集体理性。两者区别不在于参与人是否“友好”,而在于协议是否可执行。
5. 完全信息动态博弈
扩展式博弈
动态博弈用博弈树表示:节点是决策点,枝是行动,终点给出支付。策略必须规定每个信息集上的行动。
序贯理性与不可置信威胁
动态博弈中,纳什均衡可能包含事后不会执行的威胁。序贯理性要求在每个到达的决策节点都选择最优行动。
子博弈精炼纳什均衡
SPE 要求策略组合不仅在原博弈是纳什均衡,在每个子博弈中也是纳什均衡。有限完美信息博弈通常用逆向归纳求解。
- 从最后一个决策节点开始。
- 求该节点行动者的最优选择。
- 把该子博弈替换为相应支付。
- 逐层向前推到初始节点。
承诺、威胁与法律
承诺是改变未来选择空间或选择成本,使原本不可置信的行动变得可信。订金、抵押物、固定资产、合同、法律都可能是承诺装置。承诺的本质是有时“选择少反而更有利”。
6. 讨价还价
共同利益与利益冲突
讨价还价是正和博弈:达成协议双方都有好处,但双方偏好的分配点不同。核心问题是合作剩余如何分配。
纳什合作解
设总价值为 V,不能达成协议时 A 得 a、B 得 b,合作剩余 S = V-a-b。纳什合作解在帕累托有效等条件下最大化纳什福利函数。
轮流出价与耐心
非合作讨价还价把谈判看成动态博弈。谁先出价、是否有限期、谁更有耐心、拖延成本多大,都会影响分配。
7. 重复博弈与合作
为什么重复能产生合作
一次囚徒困境中合作难以维持;若未来足够重要,今天背叛会失去未来合作收益,合作可成为均衡。重复博弈扩大了策略空间:参与人可以根据历史行动惩罚或奖励对方。
- 冷酷触发策略:先合作;一旦对方背叛,之后永远不合作。
- 一报还一报:先合作;随后复制对方上一期行动,特点是友善、报复、宽恕、一致。
- 有限惩罚:惩罚若干期后恢复合作,在不确定环境中比永久惩罚更稳。
信息、惩罚与声誉
欺骗越难被发现,合作所需贴现因子越高。社会信息传播速度、品牌、声誉、第三方惩罚、联合抵制,都能影响合作。
8. 不对称信息与信号
事前与事后不对称
非对称信息是交易一方拥有而另一方不知道的信息。签约前的隐藏信息导致逆向选择;签约后的隐藏行动导致道德风险。
| 类型 | 别名 | 典型问题 | 解决思路 |
|---|---|---|---|
| 事前不对称 | 隐藏信息 | 旧车质量、投保人健康、借款人风险 | 筛选、信号、品牌、机制设计 |
| 事后不对称 | 隐藏行动 | 员工努力、经理行为、保险后谨慎程度 | 激励合同、监督、声誉、风险分担 |
逆向选择
信号传递
拥有私人信息的一方通过有成本行动显示类型。信号能区分类型的关键是:不同类型发出同一信号的成本不同,且成本差异足够大。
解决信息不对称的四类机制
- 直接获取信息:调查、审计、精算、评级。
- 信号传递:教育、保修、广告、债务水平、加班、品牌。
- 机制设计:让信息优势方通过自选择说真话。
- 声誉机制:长期品牌和重复交易让撒谎变贵。
9. 机制设计与拍卖
机制设计的本质
机制设计问的是:没有信息的一方如何设计规则,让拥有信息的一方愿意暴露真实类型。核心约束是激励相容和参与约束。
保险合同的自选择
保险公司可以提供不同价格和保障水平的合同组合,让高风险与低风险投保人自动选择不同方案。可行合同必须同时满足各类型的 IC 与 IR。
拍卖机制
| 拍卖形式 | 规则 | 策略含义 |
|---|---|---|
| 英国式拍卖 | 公开升价,最后最高者得 | 信息逐步披露,常有较高效率 |
| 荷兰式拍卖 | 高价开始逐步降价,先接受者得 | 适合价值随时间下降的商品 |
| 第一价格密封拍卖 | 最高报价者赢,并支付自己的报价 | 投标者会低于真实估值出价 |
| 第二价格密封拍卖 | 最高报价者赢,但支付第二高价 | 真实报价是占优策略,又称 Vickrey 拍卖 |
显示原理与公共产品
显示原理说,若某个结果能由某机制的贝叶斯纳什均衡实现,就能由直接说真话机制实现。VCG 机制把第二价格拍卖思想推广到公共项目,让每个人承担自己报告对他人造成的外部性。
10. 演化博弈
演化博弈不要求参与人一开始就完全理性,而是研究策略如何在群体中通过模仿、学习和适应扩散。收益高的策略更容易生存。
演化稳定策略 ESS
若群体中大多数采用某策略时,少数突变策略无法入侵,该策略就是演化稳定策略。它把均衡理解为长期稳定的行为模式。
单元均衡与多元均衡
- 单元均衡:稳定状态中只有一种策略存在。
- 多元均衡:多个策略可同时稳定存在。
- 路径依赖:初始状态和历史冲击会影响最终均衡。
11. 解题工具箱
看到题目先分类
- 参与人是谁?策略有哪些?支付如何写?
- 行动是同时还是先后?是否能观察历史?
- 有没有私人信息?类型概率和信念是什么?
- 是一次博弈还是重复博弈?未来是否重要?
- 题目要纯策略、混合策略、SPE、BNE、PBE,还是机制设计约束?
常用方法速查
| 方法 | 适用题型 | 操作 |
|---|---|---|
| 划线法 | 2×2 或有限静态博弈 | 逐列找行玩家最优,逐行找列玩家最优,交叉处为均衡 |
| 剔除劣势策略 | 策略较多的静态博弈 | 反复删除永远不优的策略,注意严格/弱劣势区别 |
| 无差异条件 | 混合策略 | 令对手被混合的纯策略期望收益相等 |
| 逆向归纳 | 有限动态博弈 | 从最后节点往前求最优行动,剔除不可置信威胁 |
| 贝叶斯更新 | 不完全信息 | 写先验、信号概率、后验,再求最优行动 |
| IC / IR | 机制设计、合同、信号 | 先保证愿意参与,再保证愿意说真话或自选择 |
| 贴现比较 | 重复博弈 | 比较长期合作现值与短期背叛加惩罚现值 |
高频概念一页背诵
- 帕累托效率:不存在让至少一人变好且无人变坏的改进。
- 纳什均衡:给定别人策略,自己无利可图地单边偏离。
- 子博弈精炼:每个子博弈都构成纳什均衡,剔除不可置信威胁。
- 贝叶斯纳什均衡:各类型在信念下最大化期望收益。
- 分离均衡:不同类型发不同信号,接收者能识别类型。
- 混同均衡:不同类型发同一信号,接收者无法区分类型。
- 激励相容:参与人按机制希望的方式行动是自己的最优选择。
- 显示原理:可实现结果可由直接说真话机制实现。
- ESS:突变策略不能成功入侵的稳定策略。
整理依据:工作区内《博弈论补充讲义(一)》至《博弈论补充讲义(十)》及《博弈论知识点总结.md》。
回到顶部