云南农业大学经济管理学院主讲：佘迎红

云南农业大学经济管理学院 主讲：佘迎红

第12章博弈论 game theory 12.1 引言 12.2 纳什均衡 Nash Equilibrium 12.3 反应函数法 Method of reaction function 12.4 有限二人零和博弈 Two person finite zero-sum game 12.5 有限二人非零和博弈 Two person finite non-zero-sum game

12.1 引言 12.1.1 博弈论概述博弈论（game theory）亦称对策论，是研究具有对抗或竞争性质现象的数学理论和方法，它既是数学、也是运筹学的一个重要分支。博弈行为是博弈论中一个重要的概念。博弈行为是指具有竞争或对抗性质的行为，在这类行为中，参加斗争或竞争的各方各自具有不同的利益和目标，各方需考虑对手的各种可能的行动方案，如何采取行动以及与对手互动对自己最为有利。

12.1.1 博弈论概述 • 【例12-3】齐威王田忌赛马 • 齐王：上中下 • 田忌：下上中

囚徒2 • 囚徒1 • 坦白 • 抵赖 • 坦白 • （-5，-5） • （-1/4，-10） • 抵赖 • （-10，-1/4） • （-1，-1） 12.1.1 博弈论概述【补充例1】囚徒的困境

12.1.1 博弈论概述 • 博弈： • 是一些个人、团队或其它组织，面对一定的环境条件，在一定的规则下，同时或先后从各自允许的行为或策略中进行选择并加以实施，各自取得相应结果的过程。 • 博弈行为具有的共同特征： • （1）有一定的规则 • （2）有一个明确的结果 • （3）有可供选择的策略 • （4）策略与利益相互依存

12.1.1 博弈论概述 在现实社会、经济生活中很多活动都具有博弈的特征，例如：市场竞争、经营决策、投资分析、价格制定、费用分摊、财政转移支付、投标与拍卖、对抗与追踪、资源利用、谈判、竞选、战争等。又如，三国时代的曹不兴溅墨画蝇、曹操兵败华容道、北宋时期的丁渭挖河修皇宫等都是博弈论成功应用的例子。

12.1.1 博弈论概述 博弈论研究的问题: 参与博弈的各方是否存在最合理的策略以及如何找到合理的策略。博弈论是研究决策主体的行为发生直接相互作用时的决策及这种决策的均衡问题。即它是研究聪明而又理智的决策者在冲突或合作中的策略选择理论。它将成为当代经济管理学科的前沿领城。著名法国经济学家泰勒尔（Jean Tirole ）说：“正如理性预期使宏观经济学发生革命一样，博弈论广泛而深远地改变了经济学家的思维方式”。

12.1.1 博弈论概述 1944年美国普林斯特大学教授冯·诺伊曼、摩根斯坦的著作《博弈论和经济行为》的出版，是博弈论诞生的标志。普林斯特大学对博弈论作出重大贡献的还有塔克、库恩、纳什等。 • 要想在现代社会做一个有文化的人，你必须对博弈论有一个大致的了解。 • ——萨缪尔森

12.1.1 博弈论概述 约翰·纳什(John F. Nash )1928年生于美国,1994年获得诺贝尔经济学奖。在非合作博弈的均衡分析理论方面做出了开创性的贡献，对博弈论和经济学产生了重大影响。 Nash对博弈论的主要贡献有：（1）合作博弈中的讨价还价模型，称为Nash讨价还价解；（2）非合作博弈的均衡分析。

博弈论发展史上的五次诺贝尔经济学奖 1994年，纳什、海萨尼、塞尔顿，非合作博弈理论 12.1.1 博弈论概述

12.1.1 博弈论概述 • 博弈论发展史上的五次诺贝尔经济学奖 • 1996年，莫里斯和维克瑞，不对称信息条件下激励机制问题

12.1.1 博弈论概述 • 博弈论发展史上的五次诺贝尔经济学奖 • 2005年，罗伯特.奥曼，托马斯.谢林，合作博弈理论

12.1.1 博弈论概述 • 博弈论发展史上的五次诺贝尔经济学奖 • 2007年，三名美国经济学家莱昂尼德.赫维奇，埃里克.马斯金，罗杰.迈尔森，“机制设计理论”

12.1.1 博弈论概述 • 博弈论发展史上的五次诺贝尔经济学奖 • 2012年，美国经济学家阿尔文.罗思（Alvin E. Roth）和劳埃德.沙普利（Lloyd S. Shapley），“稳定匹配理论和市场设计实践”。

12.1.2 博弈三要素 博弈模型的3个基本要素：（1）局中人(players)：博弈的参加者，可以是一个人、一个团队、一个企业、交战的一方等。假设每一个局中人都是“理智”的。（2）策略集(strategies)：策略是可供局中人选择的实际可行的完整的行动方案。每个局中人的策略集（S）至少应包括两个策略。（3）得益（赢得）函数(payoffs)：当每个局中人的策略确定后，他们就会得到相应的收益或损失称为局中人的得益，不同的策略会导致不同的得益，因此，得益是策略的函数。

n人博弈 12.1.2 博弈三要素局势：每一个局中人各选择一个策略形成的对局(策略组合)。两人博弈全体局势的集合S可用各局中人的策略集的迪卡尔集表示二人博弈的矩阵型表示: 囚徒2 囚徒 1

12.1.3 博弈的结构和分类

12.1.3 博弈的结构和分类 【例12-2】1943年2月，日本统帅山本五十六大将计划由南太平洋新不列颠群岛的拉包尔出发，3天穿过俾斯麦海，开往新几内亚的莱城，支援困守的日军。有两条路线：北线和南线。盟军统帅麦克阿瑟命令他麾下的太平洋战区空军司令肯尼将军组织空中打击。侦察机重点搜索有两个方案：北线和南线。当时未来3天中：北线阴雨，能见度差；南线晴天，能见度佳。日美双方各自应采用哪种方案。

北线南线

日军盟军北线（）南线 ( ) 北线（） 2 2 南线（） 1 3 12.1.3 博弈的结构和分类【解】局中人：盟军、日军双方策略：北线、南线盟军的赢得矩阵如下：两人有限零和博弈双方选择策略的思路：在最不利中选择最有利的策略。最优局势是：即都选择北线。日军舰队受到重创，但未全歼。

12.1.3 博弈的结构和分类 【补充例2】双寡头削价竞争（两个厂商）两人有限非零和博弈类似地，广告投资、采用新技术等方面，厂商之间常常耗资巨大，但不一定有利可图的争夺战；对公共资源的掠夺式使用等问题。我们的目的是如何利用这种困境达到有利于社会，合理利用和开发公共资源，保护环境。

12.1.3 博弈的结构和分类 多寡头削价竞争（3个厂商：亚贸，中南，中北）中北采用高价中北采用低价

12.1.3 博弈的结构和分类 【补充例3】动态博弈：甲向乙借一万元钱经营，甲许诺经营成功后分给乙总利润（4万）的一半，乙是否借给甲？完全信息动态博弈乙不借借甲 (1，0) 分不分乙 (2，2) 不打打乙 (0，4) (1，0) (－1,0) 有法律保障法律保障不足

12.2 纳什均衡 12.2.1 纳什均衡定义纳什均衡（Nash Equilibrium）: 假定有n个博弈方参加博弈，在给定其他博弈方策略的条件下，每个人选择自己的最优策略（个人最优策略可能依赖也可能不依赖他人策略），从而使自己利益最大化，所有局中人的策略一起构成一个策略组合。而Nash均衡是这样一种策略组合，由所有参与人的最优策略组成，给定别人策略的条件下，没有任何单个参与人有积极性选择其他策略，从而没有任何人有积极性打破这种均衡，Nash均衡是一种“ 僵局”：给定别人不动的情况下，没有人有兴趣动。

12.2 纳什均衡 另一种解释：假定所有博弈方事先达成一项协议，规定每个人的行为规则，在没有外在的强制力约束时，当事人会自觉遵守这个协议，等于说这个协议构成一个纳什均衡：假定别人遵守协议的情况下，没有人有积极性偏离协议规定的自己的行为规则。换句话说，如果一个协议不构成纳什均衡，它就不可能自动实施，因为至少有一个参与人会违背此协议，不满足Nash均衡要求的协议是没有意义的。

12.2 纳什均衡 你正在图书馆枯坐，一位陌生美女主动过来和你搭讪，并要求和你一起玩个数学游戏。美女提议：“让我们各自亮出硬币的一面，或正或反。如果我们都是正面，那么我给你3元，如果我们都是反面，我给你1元，剩下的情况你给我2元就可以了。”那么该不该和这位姑娘玩这个游戏呢？

12.2 纳什均衡 用G表示一个博弈，若一个博弈中有n个局中人，则每个局中人可选策略的集合称为策略集，分别用 S1，S2，…，Sn 表示 sij表示局中人 i 的第 j 个策略，其中 j 可取有限个值（有限策略博弈），也可取无限个值（无限策略博弈）；博弈方i 的得益则用hi 表示；hi 是各博弈方策略的多元函数，n个局中人的博弈G常写成： G={S1，…，Sn；h1，…hn}

12.2 纳什均衡 纯策略纳什均衡【定义12.1】在博弈G={S1,S2…,Sn；h1,h2…hn}中，如果由各个博弈方各选取一个策略组成的某个策略组合（s1*,s2*…,sn*）中，任一博弈方 i 的策略si*，都是对其余局中人策略的组合（s1*,…,s*i-1,s*i+1…,sn*）的最佳选择，即对任意sij∈Si都成立，则称（s1*,…,sn*）为G的一个纯策略“纳什均衡”（Nash Equilibrium）。各选取一个策略组成的某个策略组合构成一个局势，其最优局势称为纯策略意义下的最优局势（纳什均衡）。

12.2 纳什均衡 【例12-1】假设有三个厂商在同一市场上生产销售完全相同的产品，它们各自的产量分别用m1、m2和m3表示，再假设m1、m2和m3只能取1、2、3……等正整数值。市场出清价格一定是市场总产量Q=m1+m2+m3的函数，假设该函数为：不妨先假设三个厂商开始时分别生产3单位，9单位和6单位产量，这时三厂商是否满意各自的产量，要从利润进行分析，由于产量不能超过20，则第i个厂商的利润函数为

12.2 纳什均衡 最稳定的产量组合，是一个纳什均衡可算出在产量组合为（3，9，6）时，市场价格为2，三厂商的利润分别为6，18和12，再作其它产量组合时亦会有不同的结果。表12-2 三厂商离散产量组合对应价格和利润

12.2 纳什均衡 混合策略纳什均衡【定义12.2】在博弈G={S1，…，Sn；h1，…，hn}中，局中人i的策略集为Si={si1，…，sik}，则他以概率分布pi=（pi1，…，pik）随机在其k个可选策略中选择的“策略”称为一个混合策略，其中0≤pij≤1对j＝1，…，k都成立，且pi1+…+pik=1。纯策略是混合策略的特殊情形，只是选择相应纯策略的概率服从（0-1）分布。一个混合策略可理解为：如果进行多局博弈G的话，局中人i分别选取纯策略的频率；若只进行一次博弈，则反映了局中人i对各纯策略的偏爱程度。

12.2 纳什均衡 【定义12.3】如果一个博弈G={S1，…，Sn，h1，…，hn}中，参予者i的策略集为Si={si1，…，sik}，如果由各个博弈方的策略组成策略集合G*={s1*，s2*，…，sn*}，其中都是对其余博弈方策略组合的最佳策略，即 hi(s1*,s2*,…,si-1*,si*, si+1*…sn*)≥hi(s1*,s2*,…,si-1*,sij,si+1*,…sn*) 对任意sij∈Si都成立，则称(s1*,…，sn*)为G的一个混合策略纳什均衡．

12.3 反应函数法 当得益是博弈的多元连续函数时，求出每个博弈方的反应函数，而各个反应函数的交点就是纳什均衡。

q1 q1 12.3 反应函数法【例12-4】设A，B两厂家生产同样产品，厂商A产量为q1，B产量为q2，市场总产量为Q=q1+q2，市场出清价格是市场总产量的函数P＝6－Q。设产品产量的边际成本相等，C1=C2=2。求解两厂商的纳什均衡（假设产量连续可分）。分析：这是一个连续产量的古诺模型，不难看出，该博弈中两厂商各自的利润分别为各自的销售收益减去各自成本，即：

(0,4) R2 (4/3,4/3) （0,2) R1 (2,0) (4,0) 12.3 反应函数法作反应函数纳什均衡：(4/3,4/3)

12.3 反应函数法 【例12-6】设有3个农户一起放牧羊群，现有一可供大家自由放牧的草地，由于草地面积有限，只能供有限只羊群吃饱，否则就会影响到羊群的产出，假设每只羊的产出函数为成本C=8，且每个农户在决定自己放牧羊群数的时候并不知道其它农户的决策，试求出该决策问题的纳什均衡。【解】各农户的得益函数分别为

12.3 反应函数法 反应函数因此该博弈的纳什均衡为（18，18，18）

用反应函数法求纳什均衡的步骤： 1. 建立得益函数； 2. 求反应函数：即对得益函数求偏导数； 3. 解反应函数方程组。反应函数方程组的解即为纳什均衡。 12.3 反应函数法

12.4 二人有限零和博弈 两人有限零和博弈也称矩阵博弈，在众多博弈模型中占有重要地位，也是最简单、理论和算法都比较完善的一类。齐威王田忌赛马，例12-2均为矩阵博弈。

12.4.1 数学模型 模型： S1={α1,α2,…，αm}——局中人Ⅰ的纯策略集 S2={β1,β2,…，βn}——局中人Ⅱ的纯策略集 ai j——局中人Ⅰ在局势（αi ,βj）下的赢得值 ——局中人Ⅰ的得益矩阵 (局中人Ⅱ的得益矩阵为-A) 12.4 二人有限零和博弈 G={S1，S2；A} Ⅰ: Ⅱ:

建立齐王田忌赛马的数学模型 S1={(上中下）,（上下中）,（中上下）,（中下上）,（下上中）,（下中上)} S2={(上中下）,（上下中）,（中上下）,（中下上）,（下上中）,（下中上)} 田忌齐王上中下上下中中上下中下上下上中下中上上中下 3，－3 1，－1 1，－1 1，－1 －1，1 1，－1 上下中 1，－1 3，－3 1，－1 1，－1 1，－1 －1，1 中上下 1，－1 －1，1 3，－3 1，－1 1，－1 1，－1 中下上－1，1 1，－1 1，－1 3，－3 1，－1 1，－1 下上中 1，－1 1，－1 1，－1 －1，1 3，－3 1，－1 下中上 1，－1 1，－1 －1，1 1，－1 1，－1 3，－3 12.4.1 数学模型

12.4.1 数学模型 齐王的赢得矩阵

【例12-7】求解矩阵博弈，其中 12.4.2 纯策略矩阵博弈 S1={α1 , α2 , α3 , α4 } S2={β1 , β2 , β3 } 【解】博弈G的解（纳什均衡）为：局中人Ⅰ的最优策略是α2, 局中人Ⅱ的最优策略是β2

【定义12.4】设G={S1，S2；A}为矩阵博弈，其中 S1={α1，α2，…，αm}，S2={β1，β2，…，βn}，若等式成立，，则称VG为博弈G的值，对应的策略组合称为该博弈的纯策略纳什均衡。 12.4.2 纯策略矩阵博弈

12.4.2 纯策略矩阵博弈 【定理12.1】矩阵博弈G={S1，S2；A}在纯策略意义下有纳什均衡的充要条件是：存在策略组合使得对一切i=1，…，m, j =1，…，n, 均有：意义：当局中人Ⅰ选定纯策略αi*后，局中人Ⅱ为了使其所失最少，只能选择纯策略βj*，否则就可能损失得更多；反之，当局中人Ⅱ选定纯策略βj*后，局中人Ⅰ为了得到最大的赢得也只能选择纯策略αi*，否则就会赢得更少，双方的竞争在局势（αi*,, βj*）下达到了一个平衡状态。即纳什均衡。

则称为函数 f的一个鞍点。 矩阵博弈在纯策略意义下有解且的充要条件是：（αi* ,βj*）是A的鞍点。 12.4.2 纯策略矩阵博弈【定义12.5】设 f(x，y)为一个定义在x∈A及y∈B上的实函数，如果存在x*∈A及y*∈B,使得对一切x∈A及y∈B有

12.4.2 纯策略矩阵博弈 【例12-9】设有矩阵博弈G={ S1，S2；A }，赢得矩阵为 S1={α1 , α2 , α3 , α4 } S2={β1 , β2 , β3 ， β4} 求纳什均衡

12.4.2 纯策略矩阵博弈 β1β2β3 β4 α1 α2 α3 α4 【解】 • 纳什均衡为：(α1 ,β2)， (α1 ,β4) ， (α3 ,β2) ， (α3 ,β4) • 博弈值VG=5 • 局中人Ⅰ的最优纯策略为α1 ，α3 • 局中人Ⅱ的最优纯策略为β2 ，β4 A=

云南农业大学经济管理学院 主讲：佘迎红