tokenpocketapp最新版下载安卓|贝叶斯纳什均衡

作者: tokenpocketapp最新版下载安卓
2024-03-07 22:47:51

不完全信息静态博弈--贝叶斯纳什均衡 - 知乎

不完全信息静态博弈--贝叶斯纳什均衡 - 知乎首发于博弈论(Game Theory)切换模式写文章登录/注册不完全信息静态博弈--贝叶斯纳什均衡该用户已注册上节介绍了重复博弈中的无限次重复博弈这节介绍不完全信息中的贝叶斯纳什均衡一、静态贝叶斯博弈在阐述贝叶斯均衡之前,我们在这里先介绍几个静态贝叶斯博弈的例子。例1、密封拍卖拍卖和招投标是比较典型的不完全信息静态博弈,拍卖和招投标的两个基本功能是示信息和减少代理成本。根据拍卖交易制度的不同,目前有5种主要的拍卖机制:英式拍卖、荷式拍卖、一级密封价格拍卖、二级密封价格拍卖、双方叫价拍卖。在英式拍卖中,投标者按照递增的顺序宣布他们的出价,直到没有人愿意出更高的价格,出价最高的投标者获得拍卖品;在荷式拍卖中,拍卖从一个非常高初始价格标价逐渐降低到有一个买主接受报价;在一级密封价格拍卖中,出价最高的投标者获得拍卖品,并支付自己的出价给卖者;在二级密封价格拍卖中,出价最高的投标者获得拍卖品,但支付次高价格给卖者;在双方叫价拍卖中,所有的买主和卖主同时出价,拍卖商然后选择成交价格出清市场。显然,拍卖或招投标问题属于不完全信息博弈,括不完全信息静态博弈和不完全信息动态博弈。不完全信息博弈的一个常见例子是密封报价拍卖:每一报价方知道自己对所售商品的估价,但不知道任何其他报价方对商品的估价;各方的报价放在密封的信封里上交,从而参与者的行动可以被看作是同时的。密封拍卖一般有这样几个基本特征:(1)各方的报价放在密封的投标里上交;(2)在统一的时间里公证开标;(3)每一个报价方知道自己对标的估价,但不知道其他报价方对标的的估价;(4)一般是标价最高者中标。我们假设卖主不设定成交的最低限价,未中标者没有成本。显然这种暗标拍卖是发生在投标人之间的,在同时开标的情况下(即同时选择)展开的一次性静态博弈,各个博弈方的策略是他们各自提出的标价;中标博弈方的得益是其对标的的估价与成交价格之差未中标博弈方的利益则为0。在密封拍卖中,中标博弈方的利益除了取决于标价以外,还取决于他对拍卖标的物的估价,买价估价是私人信息,因此在密封拍卖博弈中,各个博弈方对其他博弈方中标的实际得益无法确知,只能自己判断,这说明上述暗标拍卖博弈确实是不完全信息博弈,是静态贝叶斯博弈。例2、市场进入博弈设有一个市场已经为某企业A(称为在位企业)所占有,现在有一个潜在的企业B(称为进入者)也想进入这一市场分享一些利润,但都不知在位企业A的成本函数,以及当自己决定进入市场时企业A的反击策略选择(假设企业A有默许和斗争两种策略)。假定在位企业A有高成本和低成本阻止进入两种成本函数,且对应两种成本情况的不同策略组合的得益矩阵如下图所示。在此“市场进入”博弈中,假设在位企业知道进入企业的成本函数,但进入企业对在位企业的成本信息是不完全的,这是一个不完全信息博弈。例3、不完全信息的古诺模型前面我们讨论的古诺模型,是假设企业彼此完全了解对方的产量和成本等信息,产量的市场价格也是统一的,因此博弈方的得益是公共知识。但在现实经济活动中,相互竞争的企业之间一定会保守自己生产和经营的秘密,轻易不会让其他企业了解到自己的真实情况,因此前面的古诺模型中的假设与现实情况并不相符,现实的寡头市场产量博弈模型中各博弈方的得益不可能是公共知识。这样的博弈我们称为“不完全信息的古诺模型”。设有两家企业同时进行产量竞争,市场需求为 P(Q)=a-Q ,其中 Q 为市场总产量,两家企业的产量分别为 q_{1} 和 q_{2} ,且 Q=q_{1}+q_{2} 。仍然假设无固定生产成本,企业1的成本函数为 c_{1}=c_{1}(q_{1}) ,其中 C_{1} 为边际成本,这是两家企业都知道的公共知识。设企业2的成本有高低两种可能,一种是 C_{2}=C_{2}(q_{2})=c_{H}q_{2} ,另一种是 C_{2}=C_{2}(q_{2})=c_{L}q_{2} ,且 c_{H}>c_{L} ,也即边际成本有高低两种情况,企业2知道自己成本的真实类型,企业1只知道企业2属于高成本的概率为 \theta ,属于低成本的概率为 1-\theta 。下面我们就这个静态贝叶斯博弈进行分析。一般来说,企业2在边际成本是较高的 c_{H} 时会选择较低的产量,而在边际成本为较低的 c_{L} 时会选择较高的产量。企业1在决定自己的产量时,肯定会考虑到企业2的这一行为选择特点。设企业1的最佳产量为 q_{1}^{\ast} ,企业2的边际成本为 c_{H} 时的最佳产量选择为 q_{2}^{\ast}(c_{H}) ,边际成本为 c_{L} 时的最佳产量选择为 q_{2}^{\ast}(c_{L}) ,则根据上面的假设, q_{2}^{\ast}(c_{H}) 应满足\max\limits_{q_{2}}\left[ \left( a-q_{1}^{\ast }-q_{2}\right) -c_{H}\right] q_{2}\\ q_{2}^{\ast}(c_{L}) 应满足\max\limits_{q_{2}}\left[ \left( a-q_{1}^{\ast }-q_{2}\right) -c_{L}\right] q_{2}\\ 由于企业1推测企业2为高成本的概率为 \theta ,低成本的概率为 1-\theta ,从而 q_{1}^{\ast} 应满足:\max\limits_{q_{1}}\left\{ \theta \left[ a-q_{1}-q_{2}^{\ast }\left( c_{H}\right) -c_{1}\right] q_{1}+\left( 1-\theta \right) \left[ a-q_{1}-q_{2}^{\ast }\left( c_{L}\right) -c_{1}\right] q_{1}\right\} \\ 上述三个极限问题的一阶条件为:q_{2}^{\ast }\left( c_{H}\right) =\frac{a-q_{1}^{\ast }-c_{H}}{2}\\ q_{2}^{\ast }\left( c_{L}\right) =\frac{a-q_{1}^{\ast }-c_{L}}{2}\\ 及q_{1}^{\ast }=\frac{1}{2}\left\{ \theta \left[ a-q_{2}^{\ast }\left( c_{H}\right) -c_{1}\right] +\left( 1-\theta \right) \left[ a-q_{2}^{\ast }\left( c_{L}\right) -c_{1}\right] \right\} \\ 解此三个方程构成的联立方程组,得q_{2}^{\ast }\left( c_{H}\right) =\frac{a-2c_{H}+c_{1}}{3}+\frac{1-\theta }{6}\left( c_{H}-c_{L}\right)\\ q_{2}^{\ast }\left( c_{L}\right) =\frac{a-2c_{L}+c_{1}}{3}+\frac{\theta }{6} \left( c_{H}-c_{L}\right)\\ q_{1}^{\ast }=\frac{a-2c_{1}+\theta c_{H}+\left( 1-\theta \right) c_{L}}{3}\\ 把这里得到的均衡产量 q_{1}^{\ast} 、 q_{2}^{\ast}(c_{H}) 、 q_{2}^{\ast}(c_{L}) 与前面已经介绍过的完全信息古诺模型中的均衡产量 (a-2c_{1}+c_{2})/3 和 (a-2c_{2}+c_{1})/3 进行比较,可以发现当 c_{2}=c_{H} 时, q_{2}^{\ast}(c_{H}) 大于 q_{2}^{\ast} ;当 c_{2}=c_{L} 时, q_{2}^{\ast}(c_{L}) 小于 q_{2}^{\ast} 。产生上述差异的原因,在于企业2决定自己的产量时,不仅要根据自己的成本调整其产出,而且还必须考虑到企业1不知道企业2的真实成本,无法根据企业2的真实成本进行决策这一情况。例如当企业2实际成本较高时,由于成本较高它应该减少产量,但这时它也要考虑到企业1不知道自己是高成本,因此企业1选择的产量会小于知道企业2是高成本时的最佳产量,时企业2可以适当多生产一些。二、静态贝叶斯博弈的表示在完全信息静态博弈中,博弈方的一个策略就是一次选择或一个行为,如果我们用 a_{i} 表示博弈方 i 的一个行为, A_{i} 表示他的行为空间,则我们又可以把完全信息静态博弈表达为 G=\{A_{1},...,A_{n};u_{1},...,u_{n}\} ,其中 u_{i}=u_{i}(a_{1},...,a_{n}) 是博弈方 i 的得益。当 (a_{1},...,a_{n}) 确定以后, u_{i} 也就随之确定了,因此 u_{i} 是公共知识。但是,在静态贝叶斯博弈中,得益的信息却不是全部公开的。下面我们建立静态贝叶斯博弈的标准表达式。静态贝叶斯博弈中的关键因素是,各博弈方都知道自己的得益函数,但却不能确切了解其他博弈方的得益函数。为此,我们可以这样考虑:虽然一些博弈方(如博弈方 k )不能确定其他博弈方在一定策略组合下的得益,但一般知道其他博弈方(如博弈方 i )的得益有哪些可能的结果,而具体哪种可能的结果会出现则取决于博弈方属于哪种“类型”。这些“类型”是博弈方自己清楚而其他博弈方无法完全清楚的有关私人内部信息如果用 t_{i} 表示博弈方 i 的类型,用 T_{i} 表示博弈方 i 的类型空间, t_{i} \in T_{i} ,则我们可以用 u_{i}=u_{i}(a_{1},...,a_{n},t_{i}) 表示博弈方 i 在策略组合 (a_{1},...,a_{n}) 下的得益,每一类型 t_{i} 都对应着博弈方 i 不同的收益函数的可能情况。其取值是博弈方 i 自己知道而其他博弈方并不清楚的,反映了静态贝叶斯博弈中信息不完全的特征。根据上述思路,静态贝叶斯博弈可一般表达为:G=\{A_{1},...,A_{n};T_{1},...,T_{n};u_{1},...,u_{n}\}\\ 其中 A_{i} 为博弈方 i 的策略空间, T_{i} 是博弈方 i 的类型空间, u_{i}=u_{i}(a_{1},...,a_{n},t_{i}) 为博弈方 i 的得益,它是策略组合 (a_{1},...,a_{n}) 和类型 t_{i} 的函数。通过上述思想和方法,我们就将博弈中一些博弈方对其他博弈方得益的不了解,转化成对这些博弈方“类型”的不了解,这样我们在分析静态贝叶斯博弈的时候,就必须将关注各博弈方的得益转向关注各博弈方的策略组合以及各自的“类型”。回到前面介绍的不完全信息古诺模型的例子。在该静态贝叶斯博弈中,两家企业的行为是它们的产量选择 q_{1} 和 q_{2} 。 q_{1} 的所有可能取值构成企业1的行为空间 A_{1} , q_{2} 的所有可能取值构成企业2的行为空间 A_{2} 。企业1在一定策略组合下的得益,即利润 u_{1} ,是双方产量 q_{1} 和 q_{2} 自己成本的函数。显然,由于企业1的边际成本是双方都清楚的确定值 c_{1} ,因此它的得益实际上只取决于双方产量 q_{1} 和 q_{2} ,即 \pi_{1}(q_{1},q_{2};c)=[(a-q_{1}-q_{2}-c)]q_{1} ,企业2的得益也取决于双方的产量和自己的成本,然而由于企业2的边际成本有高成本 c_{H} 和低成本 c_{L} 两种可能,从而有两种可能的利润函数:\pi _{2}\left( q_{1},q_{2};c_{L}\right) =\left[ \left( a-q_{1}-q_{2}\right) -c_{L}\right] q_{2}\\ 和\pi _{2}\left( q_{1},q_{2};c_{H}\right) =\left[ \left( a-q_{1}-q_{2}\right) -c_{L}\right] q_{2}\\ 而且企业1不知道是其中的哪一种,因此企业1不可能有关于企业2得益的完全信息。根据上面介绍的思想和方法,我们将这种信息的不完全性解释成企业1不了解企业2的“类型”,而这个“类型”就是企业2的边际成本。如果我们用 t_{2} 表示企业2的类型,则 t_{2} 有 c_{H} 和 c_{L} 两种可能性,如果用 T_{2} 表示其类型空间,则 T_{2}=\{c_{H},c_{L}\} 。对于企业1,虽然它只有一种成本 c_{1} ,我们也可以将该成本看作它的类型 t_{1} ,只不过说其类型空间 T_{1} 只有 c_{1} 一个元素而已。至此,我们就可以用 G=\{A_{1},...,A_{n};T_{1},...,T_{n};u_{1},...,u_{n}\} 表示上述不完全信息的古诺模型,其中 A_{1}=\{q_{1}\} , A_{2}=\{q_{2}\} , T_{1}=\{c_{1}\} , T_{1}=\{c_{H},c_{L}\} , u_{1}=\pi_{1}(q_{1},q_{2},t_{1}) , u_{2}=\pi_{2}(q_{1},q_{2},t_{2}) 。在上面的分析中,我们可以看到,对“类型”的了解是解决静态贝叶斯博弈问题的一个关键,因为在不完全信息静态博弈中,如果一些博弈方对其他博弈方的“类型”完全不了解,就完全失去了进行决策的依据。因此,这些博弈方至少应该了解其他博弈方各种“类型”出现机会的相对大小,即对每种“类型”出现的概率分布有一个基本判断,这样才可能根据其他博弈方各种可能的得益,推导出自己的选择,并对相应的期望利益进行估计。如果我们用 p_{i}=p_{i}\{t_{-i}|t_{i}\} 表示博弈方 i 在自己的实际型为 t_{i} 的前提下,对其他博弈方类型 t_{-i} 的推断,即在确知自己的类型是 t_{i} 的条件下,推断其他博弈方的类型或类型组合 t_{-i}=(t_{1},...,t_{i-1},t_{i+1},...,t_{n}) 出现的条件概率,那么我们可用 G=\{A_{1},...,A_{n};T_{1},...,T_{n};p_{1},...,p_{n};u_{1},...,u_{n}\} 来表示不完全信息静态博弈,这样我们就可以顺利地解决不完全信息静态贝叶斯博弈问题。现在,我们对静态贝叶斯一般表示法进行一下归纳。定义1:一个静态贝叶斯博弈的一般表述包括:博弈者的行为空间 A_{1},...,A_{n} ,类型空间 T_{1},...,T_{n} ,博弈方的推断 p_{1},...,p_{n} 以及函数 u_{1},...,u_{n} 。博弈者 i 的类型作为博弈者 i 的私人信息,决定了博弈 i 的收益函数 u_{i}(a_{1},...,a_{n},t_{i}) 。博弈者 i 的推断 p_{i}=p_{i}\{t_{-i}|t_{i}\} 描述了 i 在给定自己的类型 t_{i} 时,对其他 n-1 个参与者可能的类型 t_{-i} 的不确定性。我们用 G=\{A_{1},...,A_{n};T_{1},...,T_{n};p_{1},...,p_{n};u_{1},...,u_{n}\} 表示这一博弈。三、海萨尼转换上面我们分析了如何将对得益的不了解转化为对类型的不了解,在这一思路的基础上,海萨尼提出了一种进一步将不完全信息静态博弈转化为完全但不完美信息动态博弈进行分析的思路,被称为“海萨尼转换”。海萨尼转换的具体方法是:(1)引进一个虚拟的博弈方“自然”或者说“上帝",可称为“博弈方0”,它为每个实际博弈方按随机方式抽取各自的类型,即随机地赋予博弈各方的类型,这些类型构成类型向量 t=(t_{1},...,t_{n}) ,其中 t_{i} \in T_{i} , i=1,...,n ;(2)“自然”只让每个博弈方知道自己的类型,却不让其他博弈方知道。(3)所有的博弈方同时选择行动,即各个实际博弈方同时从各自的行为空间中选择动方案 a_{1},...,a_{n} ;(4)除了博弈方0,即“自然”以外,其余博弈方各自取得得益 u_{i}(a_{1},...,a_{n},t_{i}) ,其中 i=1,...,n 。我们不难发现,经过上述转换的博是一个完全但不完美信息的动态博弈,但它本质上与原来的静态贝叶斯博弈是相同的。这样我们就可以使用标准的分析技术分析这一博弈。事实上,海萨尼转换已成为处理不完全信息博弈的标准方法。上述经过转换的博弈是一个动态博弈,因为这个博弈有明显的时间顺序,即有两个阶段的选择:首先是虚拟博弈方“自然”的选择;然后是博弈方 1,...,n 的同时选择。对于“自然”在第一阶段为其他博弈方选择的类型的结果,至少有一部分博弈方不完全了解。因此这是一个不完美信息的动态博弈,当采用“自然”的选择方向代表实际博弈方的类型以后,则在各博弈方策略组合 (a_{1},...,a_{n},t_{i}) 下,各博弈方的得益 u_{i}(a_{1},...,a_{n},t_{i}) 就是确定的和各博弈方所知道的,显然这是一个完全信息博弈,这时原来的不完全信息博弈变成了完全信息博弈。海萨尼转换是处理不完全信息博弈的标准方法。同时,我们还可以看出,海萨尼转换所描述的博弈问题的实质仍然是一般静态贝叶斯博弈 G=\{A_{1},...,A_{n};T_{1},...,T_{n};u_{1},...,u_{n}\} 。通过(1)和(2)引进的虚拟博弈方“自然”对各个实际博弈方类型的随机选择,我们就把一个静态贝叶斯博弈转化成一个完全但不完美信息的动态博弈问题,而这是我们可以通过标准的分析方法,如逆向归纳法进行分析的。在“市场进入”博弈中,假设在位企业A知道进入企业B的成本函数类型,但进入企业对在位企业的成本信息是不完全的。从得益矩阵中可以看出,在在位企业A是高成本的情况下,如果企业B决定进入,此时在位企业A的选择是“默许”。当在位企业A是低成本的情况时,如果进入企业B决定“进入”,显然在位企业A的选择应该是“斗争”,因此在信息完全情况下,如果企业B决定“进入”,显然在位企业A的选择应该是“斗争”。因此在信息完全情况下,如果在位者是高成本,企业B的最佳策略选择是“进入”,如果在位企业A是低成本,进入者的最优选择是“不进入”。如果企业B并不知道在位企业A的成本类型,企业B此时的最优选择就依赖于它在多大程度上认为在位企业A是高成本或低成本的。现在假定企业B认为在位企业A是高成本的概率为 p ,低成本的概率为 1-p ,通过海萨尼转换,我们可以把上述不完全信息的“市场进入”静态博弈转换为完全但不完美的动态博弈,如下图所示此时,“自然”首先随机选择在位企业A成本的类型,然后我们就可以使用标准的动态分析中的“逆向归纳法”来分析该完全但不完美动态博弈。与完全信息博弈之间在策略和策略空间方面的相同。四、贝叶斯纳什均衡的定义由于静态贝叶斯博弈可以看作是先由“自然”选择各博弈方的类型,然后再由各博弈方同时进行策略选择的动态博弈,因此静态贝叶斯博弈中各博弈方的一个策略,就是他们针对自己各种可能的类型如何进行选择的完整计划,即对于静态贝叶斯博弈 G=\{A_{1},...,A_{n};T_{1},...,T_{n};p_{1},...,p_{n};u_{1},...,u_{n}\} ,博弈方 i 的一个策略,都是关于自己的各种可能类型 t_{i}(t_{i}\in T_{i}) 的一个函数 S_{i}(t_{i}) 。也就是对于“自然”在 T_{i} 中为博弈方 i 抽取的各种类型 t_{i} , S_{i}(t_{i}) 包含了博弈方 i 从自己的行为空间 A_{i} 中所相应选择的行动 a_{i} 。可见,静态贝叶斯博弈中博弈方的策略是关于类型空间和行为空间的函数,所有这种函数构成博弈方的策略空间,即博弈方 i 的可行的策略集 S_{i}(t_{i}) 是定义域为 T_{i} 、值域为 A_{i} 的所有可能的函数集。由于集合之间的函数关系是很多的,因此如果不加限制,静态贝叶斯博弈中博弈方的策略空间往往是很大的,有许多甚至无限多的元素。根据策略函数 S_{i}(t_{i}) 的不同情况,它们为不同的类型所确定的行动 a_{i} 既可以各不相同,也可能是相同的。对于静态贝叶斯博弈策略的上述定义,也许有人认为,既然“自然”选定了博弈方的类型,并告诉他之后,博弈方 i 对自己的实际类型t就是完全清楚的,因此博弈方 i 只要根据自己的实际类型选择行动即可,没有必要对每种可能的类型 t_{i} \in T_{i} 都设定行动。其实,这样做的原因在于博弈方相互之间并不知道“自然”为其他博弈方抽取的实际类型是什么。对于博弈方来说,他必须考虑到其他博弈方的行动选择,而对其他博弈方来说,博弈方 i 类型空间中的每一种类型都是有可能被抽到的,他必须是在考虑博弈方 i 的所有各种可能类型时作的选择,并把这些因素纳入他们自己的决策选择之中。同样,其他博弈方的推断反过来也会对博弈方 i 的选择产生影响。可见,在静态贝叶斯博弈中,每个博弈方针对自己策略空间中每种类型都设定相应的行动方案是非常必要的。再次回到不完全信息古诺模型。在不完全信息的古诺模型中,企业1只有一种类型 c_{1} ,因此其策略就是一种行动选择。企业2有两种类型 c_{H} 和 c_{L} , (q_{2}^{\ast}(c_{H}),q_{2}^{\ast}(c_{L})) 就是企业2的策略空间。对企业2来说,它完全清楚自己的实际类型究竟是 c_{H} 还是 c_{L} ,假设就是 c_{L} 。从给定条件来看,企业2似乎只要针对自己成本为 c_{L} 的情况选择最优产量 q_{2}^{\ast}(c_{L}) 即可,而不必考虑成本为 c_{H} 的情况选择最优产量 q_{2}^{\ast}(c_{H}) 。然而,如果不给定企业2在成本为 c_{H} 时的最优产量 q_{2}^{\ast}(c_{H}) ,那么企业1的最优产量选择 q_{1}^{\ast}=q_{1}^{\ast}(c_{1}) 就无法作出,因为企业1不知道企业2的实际类型,它只能对 q_{2}^{\ast}(c_{L}) 和 q_{2}^{\ast}(c_{H}) 出现的概率大小进行选择。因此,在该博弈中,如果博弈的均衡要求企业1的策略是对企业2的最优反应,则企业2的策略必须是一对产量 q_{2}^{\ast}(c_{L}) 和 q_{2}^{\ast}(c_{H}) ,否则企业1就无法知道它的策略选择是不是对企业2策略的优反应,就会给该博弈的分析造成困难,最终使得我们无法得出分析结论。利用函数关系式,上述论证也可以简洁地表示为q_{2}^{\ast }\left( c_{L}\right) =q_{2}^{\ast }\left( c_{L},q_{1}^{\ast }\right) =q_{2}^{\ast }\left\{ c_{L},q_{1}^{\ast }\left[ c_{1},q_{2}^{\ast }\left( c_{H}\right) ,q_{2}^{\ast }\left( c_{L}\right) \right] \right\}\\ 即 q_{2}^{\ast }\left( c_{L}\right) 最终也取决于 q_{2}^{\ast }\left( c_{H}\right) ,显然,如果不考虑厂商2对 q_{2}^{\ast }\left( c_{H}\right) 的设定,依据上式我们根本无法对这种博弈进行分析。给出了静态贝叶斯博弈中博弈方策略的定义之后,现在我们就可以定义贝叶斯纳什均衡。定义2:贝叶斯纳什均衡:在静态贝叶斯博弈 G=\{A_{1},...,A_{n};T_{1},...,T_{n};p_{1},...,p_{n};u_{1},...,u_{n}\} ,如果对任意博弈方 i 和其每一种可能的类型 t_{i} \in T_{i} , S_{i}^{\ast}(t_{i}) 所选择的行动 a_{i} 都能满足:\max\limits_{a_{i}\in A_{i}}\sum\limits_{t_{-i}}\left\{ u_{i}\left[ S_{1}^{\ast }\left( t_{1}\right) ,...,S_{i-1}^{\ast },a_{i},S_{i+1}^{\ast }\left( t_{i+1}\right) ,...,S_{n}^{\ast }\left( t_{n}\right) ,t_{i}\right] p\left( t_{-i}\mid t_{i}\right) \right\}\\ 则称博弈的策略组合 S^{\ast}=(S_{1}^{\ast},...,S_{n}^{\ast}) 为 G 的一个纯策略贝叶斯纳什均衡。该定义表明,当静态贝叶斯博弈中博弈方的一个策略组合是贝叶斯纳什均衡时,任何一个博弈方都不想改变自己策略,哪怕只是一种类型下的一个行动,这与纳什均衡的内涵是完全一致的。贝叶斯纳什均衡是我们分析静态贝叶斯博弈的核心概念。在一个有限静态贝叶斯博弈(即博弈方 n 为有限数,( A_{1},...,A_{n} )和 (T_{1},...,T_{n}) 为有限集)中,存在贝叶斯纳什均衡,同完全信息静态博弈一样,也可能还存在混合策略。依据贝叶斯纳什均衡的概念,在不完全信息静态博弈中,博弈方的行动同时发生,没有先后顺序,因此,没有任何博弈方能够有机会观察其他博弈方的选择。在给定其他博弈方的策略条件下,每个博弈方的最优策略依赖于自己的类型。如果每个博弈方虽然不知道其他博弈方实际选择什么策略,但是,只要知道其他博弈方有关类型的概率分布,他就能够正确地预测其他博弈方的选择与其各自的有关类型之间的关系。因此,该博弈方选择的依据就是在给定自己的类型,以及其他博弈方的类型与策略选择之间关系的条件下,使得自己的期望收益最大化。就“市场进入”博弈而言,对于进入企业B来说,虽然不知道在位企业A究竟选择低成本阻止还是高成本阻止,但它知道企业A只能有这两种策略选择以及相应策略选择的概率分布。若企业A属于高成本阻止的概率为 p ,则企A属于低成本阻止的概率就为 1-p 。如果企业A的阻止成本高,则A将默许企业B进入市场;如果企业A的阻止成本低,则企业A将阻止企业B的进入。在以上两种情况下,对照本节最上面的收益矩阵图,企业B的收益分别为30和-10。所以,B选择进人的期望收益为 30p+(-10)(1-p) ;选择不进人的期望收益为0。显然,只要企业B选择进入的期望收益大于不进入的期望收益,B就应该选择进入;否则,企业B选择不进入。也就是说,企业B的选择取决于 30p+(-10)(1-p)\geq0 ,即只要企业A高阻止成本的概率大于25%时,企业选择进入是其最优策略。这时的贝叶斯纳什均衡为:企业B选择进入,高成本在位企业A选择默许,而低成本在位企业A选择阻止。来自:博弈论(范如国)发布于 2021-12-26 13:41纳什均衡 (Nash Equilibrium)博弈论(书籍)博弈与信息(书籍)​赞同 103​​2 条评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录博弈论(Game Theory)博弈论知识分享

博弈 | 精炼贝叶斯纳什均衡 - 知乎

博弈 | 精炼贝叶斯纳什均衡 - 知乎切换模式写文章登录/注册博弈 | 精炼贝叶斯纳什均衡正羊羊精炼贝叶斯纳什均衡是博弈论中的一个重要概念。为使逻辑表述方便,我们取二人博弈来讲解。在一般情况下,博弈的双方都有一套属于自己的策略集,像是剪刀石头布一样,博弈双方作为局中人,是不知道在接下来的猜拳中,对方会出哪种手势,但如果知道对方出各种手势的概率,那么自己可以针对对方出各种手势的概率来定出自出哪种手势赢的概率大,如果可以量化的话,可以认为这是使自己的期望收益最大化。下图是本文框架:在讲解贝叶斯纳什均衡之前,我们先来看贝叶斯公式和纳什均衡分别是啥。【贝叶斯公式】在概率论中,条件概率P(A|B)表示在事件B发生的情况下事件A发生的概率,而先验概率P(A)和P(B)表示事件A、B本身发生的概率。为了方便理解,我们回想下我们日常生活中是如何判别一个人是好人还是坏人的。在纯理性的情况下,我们先认定,坏人做好事、好人做好事的概率各为0.5。那么现在提出一个问题:如果我们看到街上有一个人做了好事,他是好人的概率是多少?如果按照目前的判断,这个概率应该是50%。但是,日常生活经验告诉我们,好人自然是一定会做好事的,那么我们就有了一个条件概率:下标B和A对应着公式中的概率P(B|A)此时我们依然认为坏人做好事的概率为0.5现在再设定,我们在大街上遇到好人的概率和遇到坏人的概率各为0.5那么,一个人做了好事的概率P(B)应该为多少呢?我们可以通过把好人做好事的概率加上坏人做好事的概率来计算P(B)即依据贝叶斯公式,我们现在得到,如果看到一个人做好事,这人是好人的概率为:显然2/3要大于0.5,说明,当我们加入了日常生活经验后,判定一个做了好事的人是好人的概率就增加了,这个2/3的概率也被称为后验概率。简单而不严谨地总结下这里贝叶斯公式的作用:当被研究对象的信息点增加后,可以用贝叶斯公式去修正先验概率,从而获得更加准确的后验概率。有一点很值得我们注意,在贝叶斯公式里,等号左边的概率P(A|B)是P(A)的后验概率,表示对P(A)这个概率的修正!这点对后面的精炼贝叶斯纳什均衡起到关键的作用。贝叶斯公式的另一种形式【纳什均衡】在博弈时,对阵双方均有自己的策略集合,每个策略集合都对应着自己的利益得失,以博弈论中最常见的一个囚徒困境为例:两名囚徒(共犯)被警察蜀黍捉住,分别被关在两件刑讯室里,如果两名囚徒均认罪,则两人都被关3年有期徒刑;如果两人不认罪,则两人都被关1年;如果一方认罪,一方不认罪,则认罪那方获得释放,而不认罪那方要被关5年。囚徒的收益矩阵见下表:其中的“认罪”和“不认罪”是囚犯的策略集,各个数字表示囚犯在每种策略组合下要被判刑的年数。逗号左边对应B的判刑年数,右边对应A的判刑年数。我们通过求纳什均衡的方法来理解何为纳什均衡吧。求纳什均衡的常用办法是划线法。首先看囚徒A,当囚徒B选择“认罪”时,A会选择“认罪”,这时A只被判3年(在A认罪的“3”处划线);当囚徒B选择“不认罪”时,A还是会选择“认罪”,这时A会被释放(在A的认罪的“0”处划线)。囚徒B与囚徒A的选择是一样的,不论A是“认罪”还是“不认罪”,B选“认罪”被判的年数都会少于选择“不认罪”的年数,相应的,在B认罪的“3”和“0”处划线。我们把上面两个表合在一起:只有策略集(认罪,认罪)是都有划线的,那么这个策略集就是纳什均衡。我们可以发现,对囚徒A或B,不论对方选择哪种策略,划线的都是对自己最有利的那个策略,而满足使两方收益都最大的策略集,就是纳什均衡。如果任何一方改变自己的策略,这都会使自己的利益受损。纳什均衡的定义如下:在一场博弈中,局中每个参与者的均衡策略都是为了达到自己期望收益的最大值,且每个理性的参与者都不会有单独改变策略而增加自己收益的动机。由所有参与人的最优策略组成的策略组合,称为纳什均衡。【贝叶斯纳什均衡】在前面的囚徒困境中,囚徒A和囚徒B都是知道对方的策略集和收益情况的,这种博弈成为完全信息博弈,但是,在一些情况下,对方选择两个策略的可能性是不确定的,我们举个栗子在一个寡头市场中,厂商A具有垄断市场的地位,而厂商B想进入这个市场。厂商A会有两种选择,一是阻扰,而是允许。A选择哪种,取决于A分别要为这两种方案付出的成本高低。如果阻扰成本高,则A会允许B进入市场;如果阻扰成本低,则A会阻止B进入市场。相应的,假定当A让B进入市场,B收益为40亿元,而当A阻扰B进入市场,B会亏损10亿元。在这种情况下,因为厂商B不知道厂商A各个方案的成本,所以B无法判定A会选择哪种方案。但现在如果加入了概率这一变量的话,厂商B就可以做出相应的决策了。设厂商A阻扰成本高的概率为x,阻扰成本低的概率为(1-x),那么,厂商B的收益期望为:当E(x)=0时,x的值为0.2,显然,厂商A阻扰成本高的概率大于0.2时,厂商B的收益就为正,在不考虑其他因素的情况下,厂商B会选择进入市场。在这个例子中,厂商B是没有足够充分的理由去考虑厂商A选择每一个方案时自己应当选择怎样的策略,其仅仅是通过分析对方的概率分布来确定自己的最佳策略,目的是让自己的期望收益最大化。不像囚徒困境,两个囚徒都知道对方的策略以及相应的收益,从而能判定不管对方选择“认罪”还是“不认罪”,自己的最佳方案也都是“认罪”。厂商A和B的这种博弈成为不完全信息博弈。这种博弈是指参与者对其他人的特征、策略、收益信息了解得不够准确,博弈参与者对于对手的收益函数没有完全信息。贝叶斯纳什均衡就是指在这种不完全信息博弈中,在给定自己和其他参与者类型(“阻扰”/“允许”)的概率分布下,每个参与者的期望效用达到了最大化,从而没有参与者愿意改变自己的行为或策略。【精炼贝叶斯纳什均衡】贝叶斯纳什均衡是不完全信息静态博弈的策略组合,对于不完全信息的动态博弈,就需要精炼贝叶斯纳什均衡了。前面所讲的博弈均是静态博弈,是指博弈中参与者同时行动,或者参与者行动有先后,但是后行动者不知道前行动者采取了怎样的行动。动态博弈就是这后参与者知道前参与者的行动,可以依此来做出更适合的策略选择。在这种情况下,前行动者的行动会更新后行动者的选择空间,相应的,前一轮的最优决策在这一轮可能不再是最优了。参与者的每个行动依赖于其所属的类型,就像是前面“好人做好事”的例子,一个人做好事(行动)和其是不是好人(类型)是有关系的。后行动者希望通过前行动者的行为来推测其属于哪种类型,并由此做出利己的决策。当然,后行动者只能获得概率上的推算了。那么,后行动者的方案选择概率是如何更新的呢?答案就是,用贝叶斯法则从前行动者的行为中获取到后验概率,得到更新后方案的概率分布。在贝叶斯公式里用符号来表示概率的更新就是现在我们取前面厂商的例子,厂商A是这个寡头市场的在位者,厂商B是进入者。在博弈的过程中,B是想知道A的类型究竟是高成本还是低成本,也就是A高成本的概率有多大。在第一轮博弈之前,假定B对A的类型与行为的概率初步判断如下:数字表示发生的概率,注意阻扰的概率是基于高低成本已发生才确认出来的由此我们可以推算B受阻扰的概率为这个阻扰概率是在博弈之前推算的,属于先验概率。第一轮博弈后,B收到了阻扰,这时,B受阻扰的概率就可以更新了,我们可以算出在阻扰的情况下,A高成本的概率为:这时,B原本认为A属于高成本的概率就会从0.7变为0.32(更新了)。此时的概率情况如下所示我们观察下所用的贝叶斯计算等式,可以发现,公式里起到更新作用的(新加进来的),正是阻扰的概率P(阻扰),这是基于第一轮B受阻扰这一事实而提出来的。现在进行第二轮博弈,B还是受到了阻扰,所以,B受阻的概率为:相应的,在受阻扰的前提下,B认为A属于高成本的概率又得到了更新:结果:在先后两轮博弈中,B认为A属于高成本的概率由0.7变为0.32再变为0.086,那么可以认为,A是不属于高成本类型的厂商,理智的B应当选择不进入市场。精炼贝叶斯纳什均衡的博弈就是这样的一个动态过程,由于有多轮博弈,行动者会根据其他参与人的行动来更新自己各项策略的概率分布,让自己做出是收益期望最大化的决策。精炼贝叶斯纳什均衡定义如下:精炼贝叶斯均衡是所有参与人策略和信念的一种结合。它满足如下条件:第一,在给定每个参与人有关其他参与人类型的信念的条件下,该参与人的战略选择是最优的。第二,每个参与人关于其他参与人所属类型的信念,都是使用贝叶斯法则从所观察到的行为中获得的。 对于精炼贝叶斯纳什均衡的讲解就到这啦,更多文章欢迎关注公众号“正羊羊部落”查看哦!发布于 2019-05-05 15:03贝叶斯概率纳什均衡 (Nash Equilibrium)博弈论​赞同 269​​20 条评论​分享​喜欢​收藏​申请

谁能用易懂的语言解释精炼贝叶斯均衡? - 知乎

谁能用易懂的语言解释精炼贝叶斯均衡? - 知乎首页知乎知学堂发现等你来答​切换模式登录/注册经济学大学教育贝叶斯统计纳什均衡 (Nash Equilibrium)谁能用易懂的语言解释精炼贝叶斯均衡?老师上课用的辅助教材是吉本斯的博弈论基础,但里面精炼贝叶斯均衡的部分真的看不懂。。。关注者265被浏览114,694关注问题​写回答​邀请回答​好问题 5​添加评论​分享​10 个回答默认排序司马懿​​2016 年度新知答主​ 关注谢谢 @刘玄 邀请,其实 @ShiraishiMai 已经说的很详细了,我来试着牺牲一点严谨度科普向一下。先从纳什均衡说起吧,纳什均衡是什么?是一个博弈中的任何玩家都不想单方面偏离当前均衡策略的点。贝叶斯均衡则在纳什均衡的基础上加上了玩家的“信念”,因为信息不对称了,所以玩家并不知道其他人是什么情况,从而只能依赖于自己的主观预期(当然这个预期是理性的)。每个玩家根据自己的主观预期,选择对自己最有利的策略。为什么贝叶斯均衡里面,玩家通常会有不同的类型呢? 因为如果玩家的类型一样,那么贝叶斯均衡就退化成了纳什均衡——我可以完全的根据自己的想法来完美的模拟对手的想法,我和对手是一样的,还有什么信息不对称呢?贝叶斯博弈,名为博弈,其实永远是一个自己和自己玩的游戏,因为你观察不到对方是什么类型,你就无法让自己的反应建立在对方的类型的基础上,所以你的策略只能和你自己的类型以及你对其他人的预期有关。比如拍卖的时候,你的拍卖出价策略,只是你自己的类型的一个函数。在贝叶斯均衡里面,给定一个信念的分布,就能够推出一个均衡解。加上精炼两个字之后,变成动态博弈,又多了一个约束,这个约束就是信念的一致性。怎么个一致法呢?我们用经典的自我实现的歧视模型来做个例子:有A和B两种可以从外貌上区分的人,比如男女,比如黑白,其天然的生产率一样。现在“信念”是强行认为A类人生产率比较低,B类人比较高。那么当A和B类人采用如下的行为策略时:如果我是A类人,我就不努力;如果我是B类人,我就努力;那么这个行为策略直接导致了A类人确实比B类人生产率低。于是反过来验证了雇主的信念,雇主会给A类人开一个低工资,B类人开一个高工资。而两类人的行为策略也变成了最优的选择:因为A类人工资低,所有A类人理性的就应该选择不努力。歧视被自我实现了。这就是一个典型精炼贝叶斯均衡:信念和最优策略集紧紧的耦合在一起,没有任何一方能够单方面偏离:首先给定工资低,被歧视,A类人是没有动机提高努力的,因为自己的努力不足以获得足够的报酬;而雇主也没有动机单方面的扭转自己的信念,因为A类人的策略是不努力,所以雇主为什么要不同工同酬呢?反过来,如果雇主持着一视同仁的信念,A类人和B类人也付出同样的努力的话,同样是一个精炼贝叶斯均衡:因为A类人和B类人的边际报酬相等,并且他们先天无差异,那么A和B就会付出相同的努力,达到相同的生产率,这也同样验证了雇主一视同仁的信念。所以我们的这个例子有两个精炼贝叶斯均衡,但是一视同仁的均衡是有效率的,而歧视的均衡是相对无效率的。---------------------我自己将精炼贝叶斯均衡理解成是信念和策略之间的一种类似纳什均衡的存在——这俩个东西耦合在一起互相验证对方,谁都没有动机先偏离。 你对我的策略有一个信念,我执行我的行动策略之后,你观察到我的行动,更新你的信念,然后你做出你的最优反应策略,而你的反应策略本身又恰恰证明了我当初的行动策略也是最优的,而我采用的这个最优行动策略也恰恰的符合了你当初的信念——换句话说,你的信念确实完美的推测了我的行为策略。这个时候信念和策略都不会单方面做出改变:1.如果策略变了,意味着如果信念不变,改变策略的人收益会减少。2.如果信念变了,而策略没有变,改变信念的人的收益同样会减少。发布于 2017-01-13 07:09​赞同 332​​16 条评论​分享​收藏​喜欢收起​ShiraishiMaiPost PhDepression​ 关注首先声明此回答中英文夹杂,非科普向,不是一个好答案,慎入。事实上PBE即使在博士级别的微观课程里也算一个难点,本身就不是一个特别简单的概念,想看中文请百度。%----------------------------------------------------------------------------------------------------------------------%说说我对PBE的个人的理解吧,不一定精确但差不多就那么回事儿。什么是PBE呢?首先它得是一个贝叶斯均衡。什么是贝叶斯均衡呢(这里以pure strategy为例)?Game中每个player都有type吧,这个均衡就是每个player的一个type-contingent strategy(就是说对一个player来说对应自己不同type他会选相应的strategy),使得对于每个player任意给定的其type和他对其对手的type概率分布的belief,在该策略下他的期望效用至少不小于他的其他任何可能策略。这点上其实和普通的纳什均衡一回事儿,就是给定了别人的均衡strategy你没有incentive to deviate from your optimal strategy(best response)。不同之处无非是多了type(不完全信息,然后type有一个概率分布)之后你的效用变成个期望值了。PBE无非是dynamic game里,上面的BE加上一套对各player type的beliefs (system of beliefs)。注意BE不一定是PBE,但PBE一定是BE(这是句废话),差别就在后面会提的system of beliefs是否consistent with the strategies。举例来说就是某个player先move,然后在他之后move的这个player会根据先move的人的action通过bayes rule更新他对先move人的type概率分布的beliefs。很重要的一点是在PBE里这些个beliefs要求在每个player的每个information set里,他play a best response to these beliefs。至于PBE里的Pooling equilibrium就是不管自己type是什么我总play一种strategy,Separating顾名思义对自己不同的type我play不同的strategy。Hybrid就是对于自己不同的type,我在这种type下play mixed strategy。上面是我对PBE的个人的理解,Gibbons的定义我没看过,但其实无论是MWG还是Fudenberg&Tirole上的数学定义看起来都不太intuitive,尤其是MWG这部分写的挺糟的。但我这么说了你可能还是迷糊。所以建议把Gibbons书上的例子多看几遍!多看几遍!多看几遍!你慢慢就能理解了。编辑于 2017-02-01 23:23​赞同 115​​3 条评论​分享​收藏​喜欢

贝叶斯纳什均衡 - MBA智库百科

贝叶斯纳什均衡 - MBA智库百科

全球专业中文经管百科,由121,994位网友共同编写而成,共计435,710个条目

查看

条目讨论编辑 收藏

简体中文繁体中文

工具箱▼

链入页面

链出更改

上传文件 特殊页面 可打印版

永久链接

贝叶斯纳什均衡

用手机看条目

扫一扫,手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

贝叶斯纳什均衡(Bayesian-Nash equilibrium; Bayesian Nash equilibrium)

目录

1 贝叶斯纳什均衡的概述

2 相关条目

[编辑] 贝叶斯纳什均衡的概述

  所谓贝叶斯纳什均衡是指这样一组策略组合:在给定自己的特征和其他局中人特征的概率分布的情况下,每个局中人选择策略使自己的期望支付达到最大化,也就是说,没有人有积极性选择其他策略。

  纳什均衡(Nash Equilibrium)和子博弈完美纳什均衡(Subgame perfect Nash equilibrium)所反映的博弈都包括了一个基本假设:即博弈的结构、博弈的规则、所有局中人的策略空间和支付函数(payoffs)都是共同知识(common knowledge)。满足这样一个假设的博弈称为“完全信息博弈”(games of complete information)。但在现实生活中这一假设往往得不到满足。在非合作博弈论中,局中人对博弈的结构以及其他局中人的特征并没有准确的知识的情况叫“不完全信息博弈”(games of incomplete information)。在1967年以前,博弈论专家对不完全信息博弈是束手无策的。

Harsanyi(1967—1968)的贡献解决了这个问题,填补了博弈论乃至经济学的一大空白,他也因此而获得了诺贝尔经济奖。John C.Harsanyi引入了一个虚拟的局中人——自然(nature)。与一般的局中人不同,“自然”没有自己的支付和目标函数,即所有结果对它而言是无差异的。自然首先行动,决定局中人的特征。被选择的局中人知道自己的真实特征,而其他局中人并不清楚这个被选择的局中人的真实特征,仅知道各种可能特征的概率分布。另外,被选择的局中人也知道其他局中人心目中的这个分布函数,也就是说,分布函数是一种共同知识(common knowledge)。John C.Harsanyi的这项工作被为“Harsanyi转移”(the Harsanyi transformation),通过这个转换,John C. Harsanyi把“不完全信息博弈”转换成“完全但不完善信息博弈”(complete but imperfect information)。这里“完全但不完美信息” 指的是,自然作出了它的选择,但其他局中人并不知道它人具体选择是什么,仅知道各种选择的概率分布。这样一来,不完全信息博弈就变得可以进行分析了。在这个基础上,John C.Harsanyi定义了贝叶斯纳什均衡(Bayesian-Nash equilibrium)。

[编辑] 相关条目

完美贝叶斯纳什均衡

来自"https://wiki.mbalib.com/wiki/%E8%B4%9D%E5%8F%B6%E6%96%AF%E7%BA%B3%E4%BB%80%E5%9D%87%E8%A1%A1"

打开MBA智库App, 阅读完整内容

打开App

本条目对我有帮助68

MBA智库APP

扫一扫,下载MBA智库APP

分享到:

温馨提示

复制该内容请前往MBA智库App

立即前往App

  如果您认为本条目还有待完善,需要补充新内容或修改错误内容,请编辑条目或投诉举报。

本条目相关文档

 不完全信息下贝叶斯纳什均衡的转化 6页 基于贝叶斯纳什均衡分析的我国稀土出口定价形成机制 5页 金融挤兑的一种博弈论模型描述与贝叶斯纳什均衡的唯一性 7页 金融挤兑的一种博弈论模型描述与贝叶斯纳什均衡的唯一性 18页 博弈论与信息经济学讲义5不完全信息动态博弈-精练贝叶斯纳什均衡 54页 估算转换成本的纳什——伯特兰均衡模型 4页 “纳什均衡”的启示 3页 进化稳定均衡与纳什均衡 20页 纳什均衡的效率及选择 4页 博弈论与纳什均衡 4页 更多相关文档

本条目相关课程

本条目由以下用户参与贡献

Dan,Zfj3000,Vulture,Yixi. 页面分类: 博弈论

评论(共2条)提示:评论内容为网友针对条目"贝叶斯纳什均衡"展开的讨论,与本站观点立场无关。

智库 (Talk | 贡献) 在 2013年9月21日 09:54 发表

没有很清楚精炼的表达清楚含义,求解

回复评论

发表评论请文明上网,理性发言并遵守有关规定。

59.56.82.* 在 2019年4月12日 02:19 发表

现在很火的大逃杀游戏就是典型的贝叶斯纳什均衡的例子

回复评论

发表评论请文明上网,理性发言并遵守有关规定。

发表评论请文明上网,理性发言并遵守有关规定。

首页

文档

百科

课堂

商学院

资讯

知识点

国际MBA

商城

企业服务

问答

首页

专题

管理

营销

经济

金融

人力资源

咨询

财务

品牌

证券

物流

贸易

商学院

法律

人物

分类索引

 

百科VIP

百科VIP会员权益

无广告阅读

免验证复制

开通/续费百科VIP

登录

消息

昵称未设置

百科VIP

未开通

收藏夹

账号安全中心

我的页面

我的贡献

我的讨论页

我的设置

退出登录

打开APP

导航

最新资讯

最新评论

最新推荐

热门推荐

编辑实验

使用帮助

创建条目

随便看看

本周推荐

最多推荐

生产线包装印刷宗庆后消费经济纪梵希第一性原理智能卡批发食品软预算约束

奶头乐理论蘑菇管理定律猴子管理法则情绪ABC理论垃圾人定律100个最流行的管理词汇破窗效应INFPSWOT分析模型21天效应

以上内容根据网友推荐自动排序生成

下载APP

此页面最后修订:15:19,2011年6月2日.

智库首页 -

百科首页 -

关于百科 -

客户端 -

人才招聘 -

广告合作 -

权利通知 -

联系我们 -

免责声明

- 友情链接

©2024 MBAlib.com, All rights reserved.

闽公网安备 35020302032707号

意见反馈

问题分类

类型

反馈内容

添加图片(选填)0/9

联系方式

取消

提交

提交成功

反馈结果请前往 MBA智库App 查看 (我的 > 帮助与反馈 > 我的反馈)

知道了

博弈论06:贝叶斯博弈及其应用 - 知乎

博弈论06:贝叶斯博弈及其应用 - 知乎首发于读书笔记专栏切换模式写文章登录/注册博弈论06:贝叶斯博弈及其应用Mr Figurant​​中央财经大学 金融学博士在读前情回顾引言上节讨论了重复博弈的有限重复(不可合作)和无限重复(可合作)的两种情况。本节讨论贝叶斯博弈及其应用。在之前的学习中,我们介绍了完美信息条件下的标准形式博弈和扩展式博弈,每个玩家都知道其他玩家的行动集和收益。现在需要放松这个条件。如果信息是对称不完美的,即任何未知的东西对每个人来说都是未知的,可以只计算每个人的预期收益。但如果信息是不对称的,有些事情玩家A知道,玩家B不知道拥有这些信息的玩家A可以根据这些私人信息选择行动但是玩家B不能根据他不知道的信息做出选择本节主要关注:贝叶斯博弈:信息不对称下的博弈模型贝叶斯纳什均衡:提供一个合适的解决方案纯策略预期收益事前标准形式求解博弈中的贝叶斯纳什均衡贝叶斯博弈我们以性别之战(Battle of the Sexes)为例。夫妇分别为玩家1和玩家2,对于打发周末的时间,玩家1喜欢看拳击(Boxing),玩家2喜欢看歌剧(Opera)。以此为背景列出这对夫妇的博弈矩阵:1\2 B O 1\2 B O

B 9;3 0;0 B 3;0 0;3

O 0;0 3;9 O 0;3 3;0

2高兴,概率α 2难过,概率1-α 妻子(玩家2)可能高兴也可能难过。如果高兴,会和丈夫(玩家1)一起打发周末;如果难过,就不会和丈夫一起。由于“女人心,海底针”,玩家2知道自己的情绪状态,但丈夫由于很迟钝所以不知道,但是他假设妻子高兴的概率为 α 。假设 \alpha 是已知的,这样的博弈就是贝叶斯博弈(Bayesian Game)。严格来说,我们要区分:贝叶斯博弈:\alpha 已知不完全信息博弈:\alpha 未知但是有的文献会把两种情形都视为贝叶斯博弈。贝叶斯博弈的要素如下:玩家集:博弈都有谁在行动集:玩家 i 可采取的行动集为 A_i 类型集:玩家 i 类型的集合为 T_i 类型是指玩家拥有的私人信息类型列表 t=(t_1,...,t_N) 表示每个玩家的类型收益函数:根据类型组合和行动组合为玩家分配收益先验(Prior):所有可能的类型分布的概率分布,记为 p 先验列表 p(t) = p(t_1,...,t_N) 玩家1有类型 t_1 的概率,……,玩家 N 有类型 t_N 的概率类型可以相关对于性别之战,要素可以整理为:玩家集:夫妇(夫=玩家1,妇=玩家2)行动集:每人都可以选择任意活动, A_i = \{ 看拳击,看歌剧\} 类型集:玩家1没有类型 T_1 = \{*\} ,玩家2的类型为 T_2 = \{ 高兴,难过\} 收益函数:列于矩阵中先验:玩家2高兴的概率为 \alpha , Pr[玩家2高兴] = \alpha 纯策略假设这对夫妇晚上外出,妻子(玩家2)的情绪取决于下午发生的事情。但是早上的时候一觉醒来睡眼惺忪,就连妻子自己也不知道自己是高兴还是难过,只知道自己有 \alpha 的概率会高兴。在丈夫的眼中,早上的妻子和晚上的妻子是一样的,丈夫不知道妻子的心情,但知道妻子高兴的概率是 \alpha 。吃早餐的时候,妻子决定考虑晚上应该看拳击(B)还是看歌剧(O),因为妻子也不知道自己是否会高兴,所以需要制定应急计划(contingent plans)。4种可能的应急计划如下: 高兴时 难过时

1 看拳击 看拳击

2 看拳击 看歌剧

3 看歌剧 看拳击

4 看歌剧 看歌剧玩家的纯策略是一种偶然的行动计划,将行动分配给每种可能的类型。在包含完整信息的扩展式博弈中,要注意行动和策略之间的区别。在性别之战的例子中,玩家1的策略是B, O,而玩家2的策略是(B, B), (B,O), (O, B), (O, O)。如果玩家1选择B,玩家2选择(B, B),则二人的预期收益为:U1(B; BB) = α9 + (1-α)3U2(B; BB) = α3 + (1-α)0如果玩家1选择B,玩家2选择(B, O),则二人的预期收益为:U1(B;BO) = α9 + (1-α)0U2(B;BO) = α3 + (1-α)3同样可以求出其他策略的预期收益。贝叶斯纳什均衡之前我们介绍了如何求解标准形式博弈中的纳什均衡,同样也可以求解与贝叶斯博弈相关的事前标准形式(Ex-ante Normal Form)博弈。定义:贝叶斯博弈的贝叶斯-纳什均衡,是其相关的事前标准形式博弈的纳什均衡。设定修正后的性别之战的博弈矩阵如下:1\2 BB BO OB OO

B 7;2 6;3 1;0 0;1

O 0;1 1;0 2;7 3;6纯策略贝叶斯-纳什均衡可以很容易看出是(B;BO), (O;OB)。为了求解其他的贝叶斯-纳什均衡,设玩家1去看拳击(B)的概率为 p ,应用“预期效用比较法”(可以复习博弈论02:纳什均衡),绘制图象:注:该图的取点采用博弈矩阵中的右侧数。例如BB曲线取B=2,O=1,连接起来。如上图,BB从来都不是最优的(因为均位于其他直线之下),所以它永远不会处于均衡状态。但玩家2的BO的概率必须严格在0到1之间,否则玩家1就不愿意混合博弈了。这在 p=3/4 时,玩家2才混合BO和OO。1\2 BB BO OB OO

B 7;2 6;3 1;0 0;1

O 0;1 1;0 2;7 3;6再假设玩家2选择BO的概率为 q ,选择OO的概率为 1-q 。对于玩家1就愿意混合的情况,有:6q = q + 3(1 - q) ,解得 q = 3/8 因此这个博弈有三个贝叶斯-纳什均衡:(B;BO), (O;OB),以及((3/4, 1/4); (0, 3/8, 0, 5/8))。贝叶斯的应用1. 银行挤兑设挤兑为R。设银行状况好的概率为0.4,差的概率为0.6,可以列出:1\2 W R 1\2 W R

W 50; 50 100; 0 W 50; 50 100; 0

R 0 ; 100 150; 150 R 0; 100 0; 0

好的概率为0.4 差的概率为0.6与该贝叶斯博弈相关的事前标准形式:1\2 WW RW WR RR

W 50; 50 70; 30 80; 20 100; 0

R 0; 100 60; 120 0; 40 60; 602. 未知概率与含参考虑以下贝叶斯博弈,两名玩家都不知道状况的概率,设参数 \epsilon \in (0,0.5) ,贝叶斯纳什均衡为(B, L)。该博弈的标准形式为两个表的平均:1\2 L M R

T 1,2ε 1,1.5ε 1,1.5ε

B 2,2 0,1.5 0,1.5现在改变这个博弈的条件,玩家2被告知状态。则:贝叶斯纳什均衡为(T; (R;M))玩家2的收益为:2 vs 3ε3. 二级价格拍卖二级价格拍卖(Second-Price Sealed-Bid Auction)是指,每个投标人都提交一份密封的投标书,价高者得,赢者支付的成本(这里叫losing bid)最高。假设有一个古董(不可分割),N个风险中性的投标人。投标人 i 有关于自己的报价的私人信息, v_i \in [0,1] v_i 按照概率密度函数 f(·) 独立同分布,对于所有 v_i \in [0,1] 都满足 f(v_i)>0 对应的累积分布函数为 F(·) 如果投标人 i 的报价是 v_i ,以成本 c_i 得到古董,则效用为 v_i-c_i ;如果投标人 i 没有得到古董还支付了成本 c_i ,则效用为 -c_i 。注意,在具有独立私人报价的第二价格拍卖中,每个玩家以自己的真实价值出价是弱支配策略(weakly dominant strategy)(可以复习博弈论01:标准形式博弈),这一结论可证,本文暂略。证明并不依赖于独立性或对称性,但需要私人报价。每个人都报出自己的真实价值,这是一个均衡策略。当然,可能还有其他的平衡,例如两人的拍卖中 F 是[0,1]的均匀分布。关于拍卖的更多细节和变式,见后文的例题和练习。例题选讲基本概念例1001T:一个贝叶斯博弈中每个玩家都有 K 种类型,每种类型都有 M 种动作。计算这个博弈中每个玩家的策略数量,参考贝叶斯博弈中策略的定义进行解释。解析:数量为 M^K 。在贝叶斯博弈中,玩家的策略由每种类型的玩家的一个行动组成。也就是说,一个玩家的策略是一个函数 s: \{ t_1,...,t_K \} \rightarrow \{ a_1,...,a_M \} ,因此存在 M^K 个策略。例1002T:我们知道,贝叶斯博弈的纯策略贝叶斯纳什均衡集合,就是相关的事前标准形式博弈的纯策略纳什均衡集合。试判断说法:“每个贝叶斯博弈都有一个纯策略贝叶斯纳什均衡。”解析:说法错误。以匹配硬币博弈为例,每个玩家只有一种类型,先验概率分配给每个玩家的都是1。求解纳什均衡例R01非常重要!例R01:考虑以下博弈,列出所有的贝叶斯纳什均衡:【 】 1\2 L R 1\2 L R

U 3;3 6;0 U 3;3 6;0

D 0;0 9;9 D 0;6 0;0

概率2/3 概率1/3 解析:根据贝叶斯纳什均衡的解法,可以列出: q 1-q 0 0

1\2 LL RL LR RR

p U 3;3 5;1 4;2 6;0

1-p D 0;2 6;8 0;0 6;0其中,5 = 6*2/3 + 3*1/3。注意,LR和RR的情况对于玩家2而言,都是LL的强受控,所以被舍弃。设U的概率为p,LL的概率为q。根据纳什均衡可列出:对于LL和RL的逗号左侧,3q + 5(1-q) = 0q + 6(1-q),解得q* = 1/4对于LL和RL的逗号右侧,3p + 2(1-p) = 1p + 8(1-p),解得p* = 3/4因此这个博弈有三个贝叶斯-纳什均衡,包括两个纯策略。细分市场博弈例0901T:细分市场博弈。在两个细分市场中有两家公司。公司1(玩家1)是高端市场中的老牌公司。公司2(玩家2)长期以来一直在向低端市场销售产品。最近,公司1正在决定是大促销(行动B)还是小促销(行动S)。与此同时,公司2正在决定是进入高端市场(行动H)还是留在低端市场(行动L)。在做出自己的决定时,两家公司都不知道对方的选择。然而,结果也取决于公司1是否有强大的财政支持。公司1知道自己是强是弱。公司2只知道1强的概率是1/3,弱的概率是2/3。收益矩阵如下:1\2 H L 1\2 H L

B 3;-6 6;0 B 6;-3 3;0

S 0;-3 9;0 S 0;6 6;0

概率1/3 概率2/3 问:① 绘制与这个贝叶斯博弈相关的事前标准形式。② 求解唯一的贝叶斯-纳什均衡。③ 假设已知公司1强,求对应博弈的纳什均衡;假设已知公司1弱,求对应博弈的纳什均衡。④ 一个神秘UP主向公司2提出建议,该UP主可以获得公司1的秘密财务文件并将其公布于大众。公司2愿意为UP主支付多少?解析:① 事前标准形式如下。玩家1的策略中,第一个字母为强时的行动,第二个字母为弱时的行动;星号表示最佳对策。例如,U1(BB;H) = 1/3*3 + 2/3*6 = 5,U2(BB;H) = 1/3*(-6) + 2/3*(-3) = -4,以此类推。 H L

BB 5*,-4 4,0*

BS 1 ,2 6,0

SB 4 ,-3 5,0*

SS 0 ,3 7,0② 根据事前标准形式,该博弈不存在纯策略贝叶斯-纳什均衡(没有两个星号在一起的情况)。而对于混合策略贝叶斯-纳什均衡,令q为玩家2选择行动H的概率,则玩家1的纯策略预期收益可以分别表示为:U1(BB; q) = 5q + 4(1-q)U1(BS; q) = q + 6(1-q)U1(SB; q) = 4q + 5(1-q)U1(SS; q) = 7(1-q)绘制预期收益图象如下:由图可知,BS从来不是最佳对策(从未出现在最高处),所以玩家1在任何均衡中都不会选择BS。如果没有BS,玩家1必须混合SS和另一种策略,以便玩家2愿意混合。这是因为,如果玩家1从不选择SS,玩家2就只会选择L;如果玩家1总是选择SS,玩家2就只会选择H。因此玩家1选择SS的概率必须严格在0到1之间。如果玩家1要混合SS和另一种策略,只会混合SS和SB,发生在q=1/3处。设p是玩家1选SB的概率,1-p是选SS的概率。要让玩家2对选择H和选择L效果等价,可以列出-3p + 3(1-p) = 0,解得p=1/2。因此,唯一的贝叶斯-纳什均衡是玩家1选择BB和BS的概率为0,选择SB和SS的概率均为1/2,而玩家2选择H的概率为1/3,选择L的概率为2/3。可以表示为:((0, 0, 1/2, 1/2), (1/3, 2/3))。③ 若公司1强,玩家2的支配策略是L。假设玩家2选择L,玩家1的最佳对策是S,因此唯一的纳什均衡是(S,L)。若公司1弱,不存在纯策略纳什均衡。设p为玩家1选择B的概率,q是玩家2选择H的概率。可以列出:-3p + 6(1-p) = 0,解得p=2/36q + 3(1-q) = 6(1-q),解得q=1/3因此,唯一的纳什均衡是,玩家1选择B的概率为2/3、S的概率为1/3,而玩家2选择H的概率为1/3、L的概率为2/3。④ 在②的贝叶斯-纳什均衡中,玩家2的均衡收益为0。注意玩家2在H和L之间是无所谓的,L总是给玩家2的收益为0。如果众所周知,公司1是强的,玩家2的均衡收益是0,也就是(S,L)的收益。如果众所周知公司1是弱的,玩家2的均衡收益也是0,因为玩家2在H和L之间混合,而L总是给玩家2的收益为0。不管公司1的财务实力是否已知,公司2的均衡收益总是0。所以公司2没有动力去购买公司1的财务优势信息,公司2愿意为UP主支付的金额是0。新品发布博弈例0902T:新品发布博弈。已知两个竞争的公司,公司1(玩家1)和公司2(玩家2)同时决定在哪里发布他们的最新产品。每个玩家都可以选择在R市(行动R)或B市(行动B)推出他们的产品。R市可能有一项促进B市经济发展的新政策,这将影响公司的收益。公司1只知道有1/4的概率执行该政策。另一方面,公司2拥有内部信息,并确切地知道是否会有一个政策。收益矩阵如下:1\2 R B 1\2 R B

R 0,0 4,4 R 8,8 12,4

B 4,4 0,0 B 4,12 0,0

概率3/4 概率1/4 问:① 绘制与这个贝叶斯博弈相关的事前标准形式。② 列出所有存在的受控策略。③ 求解所有的贝叶斯-纳什均衡。解析:① 和例0901T思路一致,如下: RR RB BR BB

R 2 ,2 3*,1 5*,5* 6*,4

B 4*,6* 3*,3 1 ,3 0 ,0② 玩家1没有任何受控策略。对于玩家2,RB被RR强受控、被BR弱受控,而BB被BR强受控。③ 首先可以直接得到①中的两个纯策略贝叶斯-纳什均衡:(R,BR)、(B,RR)。为寻找混合策略贝叶斯-纳什均衡,设p为参与人1选择R的概率,q为玩家2选择RR的概率(1-q为玩家2选择BR的概率,其他两种策略都是强受控策略因此概率为0)。列出:2p + 6(1-p) = 5p + 3(1-p),解得p=1/22q + 5(1-q) = 4q + (1-q),解得q=2/3因此,存在一个混合策略贝叶斯-纳什均衡,其中参与人1在R和B之间进行对半分的混合,而参与人2选择RR的概率为2/3,RB的概率为0,BR的概率为1/3,BB的概率为0。可以表示为:((1/2, 1/2), (2/3, 0, 1/3, 0))。贡献不贡献例1003T:Alice(玩家1)和Bob(玩家2)进行以下贝叶斯博弈。Alice只有一种类型,Bob有两种类型H和L。Alice和Bob在Bob知道自己的类型之前,都为每种类型分配0.5的概率。在做决定之前,Bob知道自己的类型和Alice的类型,但是Alice不知道Bob的类型。每个Alice有两个动作:(贡献,不贡献);每种类型的Bob都有两个动作:(贡献,不贡献)。如果Bob的类型是H,那么二者的收益如下:如果双方都有贡献,则为2如果双方都没有贡献,则为0如果自己有贡献而对方没有贡献,则为1如果Bob的类型是L,那么二者的收益如下:如果双方都有贡献,则为1如果双方都没有贡献,则为0如果自己有贡献而对方没有贡献,则为-4记贡献为C,不贡献为N。问:① 绘制该贝叶斯博弈的收益矩阵。② 求解所有的贝叶斯-纳什均衡。解析:① 如下所示:1\2 C N 1\2 C N

C 2,2 1,0 C 1,1 4,0

N 0,1 0,0 N 0,4 0,0

P(H)=1/2 P(L)=1/2② 事前预期效用如下所示:1\2 (C,C) (C,N) (N,C) (N,N)

C 1.5;1.5 -1;1 1;0.5 -1.5;0

N 0;-1.5 0;0.5 0;-2 0;0可以发现,该博弈有两个纯策略贝叶斯-纳什均衡(C, (C,C))、(N, (C, N))。对于玩家2,(N,C)和(N,N)都强受控于(C,N),因此不参与纳什均衡的考虑范围。设p是玩家1选择C的概率,q是玩家2选择(C,C)的概率。列出:1.5p-1.5(1-p) = p+0.5(1-p)1.5q-(1-q) = 0解得混合策略贝叶斯-纳什均衡为(p, q) = (0.8, 0.4)。非对称离散古诺例1004T:非对称信息贝叶斯离散古诺双寡头。公司1只有一种类型,但公司2有低成本或高成本,概率相等。公司2知道自己的成本水平,但公司1不知道公司2的成本水平。每个公司每种类型选择是生产高产出(记为H或 Q_h )还是低产出(记为L或 Q_\ell )。列表如下,求解所有的贝叶斯-纳什均衡。1\2 H L 1\2 H L

H 2,2 2,0 H 2,2 2,1

L 0,2 0,0 L 0,3 6,6

高成本概率0.5 低成本概率0.5解析:列出事前预期效用1\2 HH HL LH LL

H 0;0 0;-0.5 2;1 2;0.5

L 0;2.5 3;4 0;1.5 3;3其中,HH强受控于LL,因此HH被消去。可以看出两个纯策略贝叶斯-纳什均衡为(H, (L,H))、(L, (H,L))。注意,当玩家1不混合时,玩家2也不混合。因此,为了找到混合策略贝叶斯-纳什均衡,设p是玩家1选择H的概率,绘制玩家2的期望效用对p的函数图象:考虑三种可能性(图中HL为黑色,LL为红色,LH为蓝色):混合HL和LH:不是最优。因为黑线和蓝线的交点位于红线之下混合HL和LL:无法持续。因为玩家2这样做会导致玩家1只选择L混合LH和LL:是可持续均衡。因此,玩家2的预期效用可得:p + 1.5(1-p) = 0.5p + 3(1-p),解得p=3/4假设玩家2在最后两种策略上只分配正概率,设q为玩家2选择(L, H)的概率,(1-q)为玩家人2选择(L, L)的概率,给其他两种策略分配的概率为零。列出:2 = 3(1-q),解得q = 1/3因此混合策略贝叶斯-纳什均衡为(p, q) = (0.75, 1/3)。综合练习※贝叶斯纳什均衡根据材料1,回答1~3题。材料1:贝叶斯纳什均衡问题。市场上竞争的两家公司进行博弈,参与人1为公司1,参与人2为公司2。公司1的或强或弱,公司1知道它是强还是弱。公司2只知道公司1是强的概率是1/3,弱的概率是2/3。两家公司都可以选择高价H或低价L。收益如下:1\2 H L 1\2 H L

H 3,-6 6,0 H 6,-3 3,0

L 0,-3 9,0 L 0,6 6,0

强的概率是1/3 弱的概率是2/3问1:根据材料1,下列哪一项为该贝叶斯博弈相关的事前标准形式博弈?答:选A。过程如下:HH,L的逗号左边数字,6*1/3+3*2/3 = 2+2 = 4,排除D项。HL,L的逗号左边数字,6*1/3+6*2/3 = 2+4 = 6,排除B、C项。问2:根据材料1,下列哪一项为该博弈的贝叶斯-纳什均衡?A. 公司1选HH和HL的概率均为1/2;公司2选H和L的概率为1/2。B. 公司1选LH的概率为1/3,选LL的概率为2/3;公司2选H的概率为1/3,选择L的概率为2/3。C. 公司1选LH和LL的概率均为1/2;公司2选H的概率为1/2,选择L的概率为1/2。D. 公司1选LH和LL的概率均为1/2;公司2选H的概率为1/3,选择L的概率为2/3。答:选D。采用代入法。先从公司2的角度来看(乘以逗号左边的数字):A:(1/2)×(5) + (1/2)×(4) = 9/2,(1/2)×(1) + (1/2)×(6) = 7/2,不相等B:(1/3)×(4) + (2/3)×(5) = 14/3,(1/3)×(0) + (2/3)×(7) = 14/3,相等,因此从BD里面选再从公司1的角度来看(乘以逗号右边的数字):B:(1/3)×(-3) + (2/3)×(3) = 5/9,0,不相等D:(1/2)×(-3) + (1/2)×(3) = 0,0,相等,故选D问3:根据材料1,公司2愿意支付多少钱来发现公司1是弱公司还是强公司?(提示:结果的概率是1/3,即已知公司1为强时博弈的纳什均衡,概率是2/3,即已知公司1为弱时博弈的纳什均衡。)答:0。解析:分析如下:1\2 H L 1\2 H L

H 3,-6 6,0 H 6,-3 3,0

L 0,-3 9,0 L 0,6 6,0

强的概率是1/3 弱的概率是2/3强的情况:L是参与人2的优势策略。假设公司2选择参与人L,参与人1的最佳对策是L。因此,唯一的纳什均衡是(L,L),参与人2的支付为0。弱的情况:不存在纯策略纳什均衡。通过求解可以得到唯一的纳什均衡是参与人1选择概率为2/3的H和概率为1/3的L,而参与人2选择概率为1/3的H和概率为2/3的L。参与人2的均衡支付是0。因此,如果公司2知道状态,他的支付为0,这和他知道状态时一样。因此公司2愿意支付的金额是0。根据材料2,回答11~13题。材料2:贝叶斯纳什均衡问题。两个竞争对手,公司1(玩家1)和公司2(玩家2)同时决定在哪里发布他们的最新产品。他们每个人都可以选择在红省(行动R)或蓝省(行动B)推出他们的产品。一个促进红省经济发展的新举措可能会发生,这将改变公司的收益。公司2只知道有1/2的概率执行这个计划。另一方面,公司1拥有内部信息,并确切地知道是否会有一个倡议。收益如下:1\2 R B 1\2 R B

R 0,0 0,4 R 6,6 6,4

B 4,0 2,2 B 4,6 2,2

强的概率是1/2 弱的概率是1/2 问11:根据材料2,下列哪一项为该贝叶斯博弈相关的事前标准形式博弈?答:选B。过程如下:RB,R的逗号左边数字,0*1/2+4*1/2 = 2,排除A、C项。BR,R的逗号左边数字,4*1/2+6*1/2 = 5,排除D项。问12:根据材料2,下列说法错误的是?A. 该博弈的贝叶斯-纳什均衡为(BR, R)B. 该博弈的贝叶斯-纳什均衡为(RB, R)C. 这个博弈存在贝叶斯-纳什均衡,参与人2在R和B之间随机选择(即,两者都有正概率)D. 不存在参与人1以正概率选择BB的贝叶斯-纳什均衡。答:选B。根据问11的B项所示,从玩家1(逗号左边的数)的角度来看,BR行的5、4是最优策略,玩家1必选该策略,而玩家2在R和B是无差异的,因此均衡点必然出现在BR处,而不是RB处。问13:公司2愿意付多少钱来发现红省是否有新举措?提示:通过发现,当已知公司1是强公司时,结果的概率是博弈纳什均衡的1/2,当已知公司1是弱公司时,结果的概率是博弈纳什均衡的1/2。答:1.0。解析:分析思路和问3相同。假设公司1肯定很强,求出公司2在纳什均衡的收益。假设公司1肯定很弱,求出纳什均衡下公司2的收益。知道公司1状态的公司2的期望收益等于上述情形的收益乘以相应的概率。将其与公司2在贝叶斯纳什均衡下的事前正常形式的收益进行比较。1\2 R B 1\2 R B

R 0,0 0,4 R 6,6 6,4

B 4,0 2,2 B 4,6 2,2

强的概率是1/2 弱的概率是1/2 强的情况:玩家2必选B,从而玩家1必选B,玩家2的收益为2,期望收益为2×(1/2) = 1弱的情况:玩家2必选R,从而玩家1必选R,玩家2的收益为6,期望收益为6×(1/2) = 3,因此和为4根据问12给出的事前标准形式博弈,贝叶斯-纳什均衡为(BR, R),玩家2的收益为3因此愿意付出的差额为1柠檬市场模型柠檬市场中,二手车的质量信息不对称。卖家知道他们出售的汽车的质量,但买家不知道它的质量。有很多二手车卖家,每个卖家都只有一辆二手车要卖。二手车的质量θ在0到1之间均匀分布。卖家:以p价格出售质量为θ的汽车,效用是U(p,θ)。不卖的效用是0。买家:以p价格购买质量为θ的汽车,其效用为θ-p;不买的效用是0。对于此类问题,需要按以下步骤进行求解二手车的最高均衡市场价格:令 U(p,θ)=0 ,解得 \theta=f(p) 令 f(p)=2p ,解得最高均衡市场价格 p^* (根据均匀分布的数学期望性质)(1)若U(p,θ)=p-θ^2,求二手车的最高均衡市场价格p*。答:0.25。第1步得 θ=p^{0.5} ,第2步得 p^{0.5}=2p ,解得p = 0.25。(2)若U(p,θ)=p-(θ^0.5)/2,求二手车的最高均衡市场价格p*。答:0.5。第1步得 θ=4p^{2} ,第2步得 4p^{2}=2p,解得p = 0.5。二级拍卖:两动以下问题均考虑有两个竞标者、同一件物品的二级价格拍卖。假设竞标者有独立的私有值,在区间[0,1]中均匀分布。各题均无支配策略。假设卖方设定底价p;也就是说,只有p以上的竞价才能胜出。如果一个出价人的出价高于p,而另一个出价低于p,那么第一个出价人赢了,并支付价格p。如果两个出价都高于p,那么出价最高的人赢了,并支付第二高的价格。这种类型的模型有三种问法:商品不卖的概率是 p^2 商品刚好以底价 p 出售的概率是 2p(1-p) 卖方的预期收益是 2p^2(1-p) + (1-p)^2[p+(1-p)/3] (1)若p = 0.5,则商品不卖的概率是多少?答:0.25。解析:如果两个竞标者的出价都低于底价p =0.5,该拍品就不卖。在无支配策略的贝叶斯均衡中,竞标者出价自己的价值。因此,该物品不被出售的概率等于两个竞标者的价值都低于0.5的概率。假设两个投标人的价值分布是均匀分布,则一个投标人的价值低于0.5的概率为0.5。因此,两者值都低于0.5的概率是0.5*0.5=0.25。(2)若p = 0.4,商品以p =0.4的价格出售的概率是多少?答:0.48。如果拍卖品以保留价出售,则必须满足一个竞买人的出价高于保留价,而另一个竞买人的出价低于或等于保留价。因此,问15的答案是一个投标人高于保留价格(1-p)的概率乘以一个投标人低于或等于保留价格p的概率,然而,我们需要将这个概率翻倍。(3)若p = 0.4,卖方的预期收益是多少?答:2×0.4^2×0.6 + 0.6^2×(0.4+0.6/3) = 0.408。解析:在无支配策略的贝叶斯均衡中,竞标者出价自己的价值。有三种可能:首先,两个竞标者的价值都可能低于0.4,在这种情况下,收入为零。第二,一个竞标者的价格可能低于0.4,而另一个竞标者的价格可能高于0.4,在这种情况下,收入为0.4,即底价。第二组事件的概率等于两个概率的和。第一个是竞标者A的值低于0.4的概率,即0.4,乘以竞标者B的值高于0.4的概率,即0.6;也就是说,0.4*0.6 = 0.24。第二个是出价方A的值高于0.4的概率,乘以出价方B的值低于0.4的概率,也是0.24。因此,收入为0.4的概率为0.48。第三,两个竞标者的价格都可能高于0.4,这种情况发生的概率为0.6*0.6 =0.36。这组事件中的价格是两个投标人的最低价值,其价值均匀分布在[0.4,1].。均匀分布的阶统计量是等间隔的,因此[0.4,1]中两个值中最小的值的期望值为0.4+0.6/3=0.6。总而言之,收入为0.4的概率为0.48,为0.6的概率为0.36。因此,预期收益为0.4*0.48+0.6*0.36=0.408。(4)若p = 0.1,卖方的预期收益是多少?答:0.1*0.1*0.9*2 + 0.9*0.9*(0.1+0.9/3) = 0.018 + 0.81*0.4 = 0.018+0.324 = 0.342。二级拍卖:一动\displaystyle E(π) = \frac{q^2}{2}+(1-q)q = q\left( 1-\frac{q}{2}\right) 以下问题均考虑有两个竞标者、同一件物品的二级价格拍卖。假设竞标者1的值在区间[0,1]中均匀分布,而竞标者2的值为q。各题均无支配策略。(1)若q=0.5,卖方的预期收益是多少?答:0.5*0.5/2+0.5*0.5 = 0.375,或 0.5*0.75 = 0.375。解析:投标人1的值低于0.5,因此投标人2胜出。此事件发生的概率为0.5,如果此事件发生,价格平均为0.25(这是投标人1的平均价值,条件是价值低于0.5)。投标人1的价值在0.5以上,因此赢得了拍卖。该事件发生的概率为0.5,如果该事件发生,价格为0.5(投标人2的价值)。(2)若q=0.4,卖方的预期收益是多少?答:0.4*0.4/2+0.6*0.4 = 0.32,或 0.4*0.8 = 0.32。一级拍卖一级拍卖的场景是,考虑一个有n个竞标者的单件物品的首价拍卖。假设竞标者有独立的私有值,在区间[0,1]中均匀分布。投标者出价,出价最高者赢得该物品。\displaystyle B(v) = 1 - \frac{1}{n} (1)若n=2,下列说法正确的是?A. 每个竞标者都要出价自己价值的1/3B. 每个竞标者都要出价自己价值C. 每个竞标者都要出价自己价值的1/2D. 每个竞标者都要出价自己价值的2/3答:选C。B(v) = (n-1) / n = 1 / 2。(2)若n=3,下列说法正确的是?A. 每个竞标者都要出价自己价值的3/4B. 每个竞标者都要出价自己价值C. 每个竞标者都要出价自己价值的1/2D. 每个竞标者都要出价自己价值的2/3答:选D。B(v) = (n-1) / n = 2 / 3。继续学习参考文献A. Heifetz: Game Theory: Interactive Strategies in Economics and Management, (1st edition), Cambridge University Press 2012.(完)编辑于 2023-02-04 09:46・IP 属地贵州博弈论(书籍)博弈论贝叶斯理论​赞同 30​​2 条评论​分享​喜欢​收藏​申请转载​文章被以下专栏收录读书笔记专栏Read articles & bo

贝叶斯纳什均衡与完美贝叶斯纳什均衡的关系是什么? - 知乎

贝叶斯纳什均衡与完美贝叶斯纳什均衡的关系是什么? - 知乎首页知乎知学堂发现等你来答​切换模式登录/注册贝叶斯统计贝叶斯理论纳什均衡 (Nash Equilibrium)贝叶斯纳什均衡与完美贝叶斯纳什均衡的关系是什么?博弈论显示全部 ​关注者10被浏览34,558关注问题​写回答​邀请回答​好问题 1​添加评论​分享​3 个回答默认排序子不语D​三尺微命,一介书生,百无一用,不足挂齿​ 关注补充一下关于wPBE概念的引出,来自Games and Information, by Eric Rasmusen。wPBE的引出承自Harasanyi的思路,从共同先验入手,先验信念确定了自然在博弈开始时选择参与人的类型的概率。拥有私人信息的参与者观察到了自然的行动,据此修正了自己的先验信念;其他参与者观察不到自然的行动,因而只能根据有私人信息的参与者的行动进行推断,并修正自己的信念。参与人依据贝叶斯法则修正自己信念,而作出推断所依据的基础则是均衡策略所确定的行动,当其修正信念时假设其他参与人也会采取相应的均衡策略。但是不难看出,参与人的策略本身也依赖于自身的信念[1],因而仅采用策略定义均衡并不完整,还需要加上参与人的信念。关于非均衡路径的信念问题。在均衡路径上,参与人可以根据先验概率和贝叶斯法则修正信念,但在非均衡路径上,由于 Prob(非均衡路径上的行动)=0 ,依照贝叶斯法则进行修正时,分母为0,后验概率没有定义,因而贝叶斯法则无法用于计算后验信念。综上,可以给出一个比较自然的均衡定义:给定服从贝叶斯法则的均衡信念,均衡的策略组合由参与人的最优策略组成;非均衡路径上的信念服从某个特定的模式,这个模式与贝叶斯法则不相矛盾。”唔 初学者尝试回答一下,可能有点错漏,还请各位dalao批评指正,献丑了。这里完美贝叶斯均衡应该指的是弱完美贝叶斯均衡(wPBE)?emmm先按照这个吧...PBE是更强的一个概念,在和BE比较的时候wPBE和PBE好像是类似的,不过和SPNE比较的时候应该就不一样了总的来说:wPBE一定是贝叶斯纳什均衡(BE),但是BE不一定是wPBE先放直接的吧,之后有时间再详细补充其他背景/概念。BE:贝叶斯博弈 [I, S_{i}, u_i, \Theta, F(·)] 的一个决策规则组合 (s_1(·), ···, s_I(·)) 是BE是当且仅当对于所有 i\in I 以及所有以正概率发生的 \theta_i \in \Theta_i E_{\theta_{-i}}[u_i(s_i(\bar{\theta}_{i}),s_{-i}(\bar{\theta}_{-i} ), \bar{\theta}_{i})|\bar{\theta}_{i}]\geq E_{\theta_{-i}}[u_i(s^{,}_i(\bar{\theta}_{i}),s_{-i}(\bar{\theta}_{-i} ), \bar{\theta}_{i})|\bar{\theta}_{i}] 对于所有 s_i^{,}\in S_i 成立。在MWG里面这个实际上是一个命题而非定义...不过我看也有教材那它当定义,再加上好理解一点所以就姑且用它了...简单说,一个BE要求每个参与人选择一个type-contingent strategy s_i(·) ,使得在给定其某一类型 \theta_i \in \Theta_i 和他关于其对手策略s_{-i}(·) 的信念时, 他从中得到的期望支付至少和从其任一策略中得到的一样大。wPBE:给定一个BE策略组合 \sigma 及其信念系统 \mu , (\sigma, \mu) 构成一个wPBE当且仅当(1)给定信念系统 \mu,\sigma 是序贯理性的(2)对于 Prob(H|\sigma)>0 的任何信息集H,必定有: \mu(x)=\frac{Prob(x|\sigma)}{Prob(H|\sigma)} 其中,x表示博弈树的节点注意,wPBE对非均衡路径上的信念没有要求,可以任意指定,但是处于均衡路径上的信息集上的信念必须与贝叶斯法则相一致。(实际上这里还可以继续加强,通过不同的思路得到PBE或者序贯均衡这两个不同的solution concept,不过有些情况下二者是等价的)综合定义,个人理解wPBE是BE的一个拓展,有点类似将序贯理性原理应用于NE获得SPNE,在不完全信息博弈或者说更一般的extensive form game中,wPBE是通过引入【信念系统】对序贯理性原理进行拓展,在BE中嵌入一个认知模式(不知道该怎么描述...),使得由该模式生成的策略在均衡路径上是“一致”的,最终获得solution concept。BE和wPBE之间的关系也给了一种寻找wPBE的方法:如果想要找到一个wPBE,可以首先找到博弈的BE,然后再逐个(可能存在不止一个BE)检验是否存在信念系统,使得其可以一起构成一个wPBE。在概念理解上,司马懿老师的这个答案司马懿:谁能用易懂的语言解释精炼贝叶斯均衡?可能会帮到你参考^这里出现了一点循环的感觉编辑于 2021-05-05 18:06​赞同 15​​10 条评论​分享​收藏​喜欢收起​oecumene​ 关注完美贝叶斯纳什均衡[在信息不充分的动态博弈下, 有顺序]首先理解贯序理性 (sequential rationality) 的概念还要有proper subgame: subgame on a strictly smaller set of nodesis 就是能画出小的节子博弈SPE: 子博弈精炼纳什均衡: 它必须是每子博弈的纳什均衡但是在很多情况下, 没有合适的子博弈 (proper subgame), 因为信息的不完全. 所以在一个information set下, 选择者不知道前人选了什么, 没法做出判断. 于是引出belief, 他相信上一个人选了什么 (即自己处在什么位置), 根据这个system of belief, 他做出的选择如果是best response, 那就是复合了贯序理性. 即这一概念增强和完善了贯序理性. 那么他分配给不同选择的概率, 就形成了条件概率和贝叶斯.http://www.econ.uiuc.edu/~hrtdmrt2/Teaching/GT_2015_19/L9.pdf贝叶斯纳什均衡[在信息不充分的静态博弈下]举例, 设1有两种类型, 每种类型的收益和他自己是什么类型自己知道. 对于2, 他知道1有两种类型, 知道各个类型的概率, 但是不知道具体是哪种. 所以在这里他会把两种类型分别考虑. 然后画出总结的形式, 在这种形式下再分析, 可以得到新的纳什均衡. 这个就是贝叶斯纳什均衡.http://www.econ.uiuc.edu/~hrtdmrt2/Teaching/GT_2015_19/L16.pdf之后的具体再写, 贴了两个UIUC的课件, 感觉讲的挺详细的. 可供参考发布于 2022-06-22 23:26​赞同 1​​添加评论​分享​收藏​喜欢收起​​

贝叶斯博弈是怎样一个过程? - 知乎

贝叶斯博弈是怎样一个过程? - 知乎首页知乎知学堂发现等你来答​切换模式登录/注册数学博弈论贝叶斯统计贝叶斯博弈是怎样一个过程?对于贝叶斯博弈的开端,为什么不同文献的说法有很大差别,最准确的说法是什么? 1.Nature assigns a random variable to…显示全部 ​关注者59被浏览36,130关注问题​写回答​邀请回答​好问题 1​添加评论​分享​2 个回答默认排序咋咋哈哈​信息经济学​ 关注贝叶斯博弈(Bayesian Game)就是不完全信息静态/动态博弈。在不对称信息博弈中,纳什均衡的概念将有一些特别的表达方式。由于参与人的策略选择是类型依存的,而参与人不知道别人的类型,因此也不知道别人的策略选择。参与人在这种情况下的策略选择就类似于混合策略情形中的策略选择,自然就想到可以用平均值的方法来度量参与人最大化的目标。参与人通过估计别的参与人类型的概率(称为“先验概率”,意思是在博弈进行之前就获得的有关其他参与人类型的不完全信息),并因此预测其他参与人选择的策略,通过计算给定自己选择的策略情况下获得的平均支付,来决定自己的策略选择——他会选择最大化这个平均支付来决定自己的策略选择。如果所有参与人都是这样选择自己的策略,给定其他参与人的策略,每一个参与人的策略都是这种意义上的最优策略。我们就称为“贝叶斯纳什均衡”。信息不对称与信息不完全是不同的概念,一些教科书在这方面存在着混淆。信息不对称指不同参与人获得的信息是不一样的,而信息不完全指获得的信息是有限的,也许所有参与人获得的信息是一样的,尽管都是不完全的。公式太多。。。需要的话我可以给你详细的word文本,看一些案例就会懂。编辑于 2019-05-27 13:05​赞同 68​​37 条评论​分享​收藏​喜欢收起​阿楚​臣之所好者道也 进乎技矣​ 关注1&3大意接近,和2的区别大概是 1&3说type的分布是自然决定的。2说自然根据给定的type分布来决定type。乍看被决定的东西好像不同。但从整个贝叶斯博弈去理解,两者是同义的。都是在说“由某种分布去随机确定type”。因为在贝叶斯博弈里,type的分布函数是player所共识的(我知道你的type怎么分布,我知道你知道我的type怎么分布……=,=),而对方的type到底会是哪个呢,player不知道。所谓Nature randomly chooses a type相当于每次试验按下了一个随机键吧。。1&3可能带来的误导是,会以为分布函数是random的。事实上分布函数是共识,也是模型一般会给出的信息(这么说也可以形容成“nature assigned”呀因为出题人就是万能的主呀么么哒)综上,第二条感觉会易于理解些。这也是题主的course选这个说法作为解释的原因吧。么么哒。------------------这么短的答案,写得我一身汗啊。删删改改,发现无颜以对上学期才学的博弈论T T有什么说得不对的做得不好的请毫不留情地指正(反正你打不着我,液)发布于 2014-07-01 23:44​赞同 5​​添加评论​分享​收藏​喜欢收起​​

贝叶斯纳什均衡 - 搜狗百科

什均衡 - 搜狗百科定义 贝叶斯纳什均衡(Bayesian Nash equilibrium)为博弈论中的相关概念。不完全信息静态博弈的均衡称为贝叶斯纳什均衡。网页微信知乎图片视频医疗汉语问问百科更多»登录帮助首页任务任务中心公益百科积分商城个人中心贝叶斯纳什均衡编辑词条添加义项同义词收藏分享分享到QQ空间新浪微博定义贝叶斯纳什均衡(Bayesian Nash equilibrium)为博弈论中的相关概念。不完全信息静态博弈的均衡称为贝叶斯纳什均衡。中文名贝叶斯纳什均衡展开属于博弈论中的相关概念展开外文名Bayesian Nash equilibrium展开定义不完全信息静态博弈的均衡展开词条标签:科学学科免责声明搜狗百科词条内容由用户共同创建和维护,不代表搜狗百科立场。如果您需要医学、法律、投资理财等专业领域的建议,我们强烈建议您独自对内容的可信性进行评估,并咨询相关专业人士。词条信息词条浏览:9377次最近更新:22.08.02编辑次数:9次创建者:程俊突出贡献者:新手指引了解百科编辑规范用户体系商城兑换问题解答关于审核关于编辑关于创建常见问题意见反馈及投诉举报与质疑举报非法用户未通过申诉反馈侵权信息对外合作邮件合作任务领取官方微博微信公众号搜索词条编辑词条 收藏 查看我的收藏分享分享到QQ空间新浪微博投诉登录企业推广免责声明用户协议隐私政策编辑帮助意见反馈及投诉© SOGOU.COM 京ICP备11001839号-1 京公网安备110000020000

纳什均衡_百度百科

_百度百科 网页新闻贴吧知道网盘图片视频地图文库资讯采购百科百度首页登录注册进入词条全站搜索帮助首页秒懂百科特色百科知识专题加入百科百科团队权威合作下载百科APP个人中心纳什均衡播报讨论上传视频博弈论中一种解的概念收藏查看我的收藏0有用+10纳什均衡是博弈论中一种解的概念,它是指满足下面性质的策略组合:任何一位玩家在此策略组合下单方面改变自己的策略(其他玩家策略不变)都不会提高自身的收益。中文名纳什均衡外文名Nash equilibrium别    名非合作博弈均衡解    释策略组合目录1简介2历史背景3分类4经典案例▪囚徒困境▪硬币正反5重要影响简介播报编辑纳什均衡(Nash equilibrium),又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名。在一个博弈过程中,无论对方的策略选择如何,当事人一方都会选择某个确定的策略,则该策略被称作支配性策略。如果任意一位参与者在其他所有参与者的策略确定的情况下,其选择的策略是最优的,那么这个组合就被定义为纳什均衡。一个策略组合被称为纳什均衡,当每个博弈者的均衡策略都是为了达到自己期望收益的最大值,与此同时,其他所有博弈者也遵循这样的策略。历史背景播报编辑关于纳什均衡的普遍意义和存在性定理的证明等奠定非合作博弈理论发展基础的重要成果,是约翰·纳什在普林斯顿大学攻读博士学位时完成的。实际上,博弈论的研究起始于1944年约翰·冯·诺依曼(Von Neumann)和奥斯卡·摩根斯特恩(Oscar Morgenstern)合著的《博弈论和经济行为》。然而却是纳什首先用严密的数学语言和简明的文字准确地定义了纳什均衡这个概念,并在包含“混合策略(mixed strategies)”的情况下,证明了纳什均衡在n人有限博弈中的普遍存在性 [1],从而开创了与诺依曼和摩根斯坦框架路线均完全不同的“非合作博弈(Non-cooperative Game)”理论,进而对“合作博弈(Cooperative Game)”和“非合作博弈”做了明确的区分和定义。阿尔伯特·塔克(Albert tucker)教授评价其论文,“这是对博弈理论的高度原创性和重要的贡献。它发展了本身很有意义的n人有限非合作博弈的概念和性质。并且它很可能开拓出许多在两人零和问题以外的,至今尚未涉及的问题。在概念和方法两方面,该论文都是作者的独立创造。”分类播报编辑纳什均衡可以分成两类:“纯策略纳什均衡”和“混合策略纳什均衡”。要说明纯策略纳什均衡和混合策略纳什均衡,要先说明纯策略和混合策略。所谓纯策略是提供给玩家要如何进行博弈的一个完整的定义。特别地是,纯策略决定在任何一种情况下要做的移动。策略集合是由玩家能够施行的纯策略所组成的集合。而混合策略是对每个纯策略分配一个概率而形成的策略。混合策略允许玩家随机选择一个纯策略。混合策略博弈均衡中要用概率计算,因为每一种策略都是随机的,达到某一概率时,可以实现收益最优。因为概率是连续的,所以即使策略集合是有限的,也会有无限多个混合策略。当然,严格来说,每个纯策略都是一个“退化”的混合策略,某一特定纯策略的概率为1,其他的则为0。故“纯策略纳什均衡”,即参与之中的所有玩家都使用纯策略;而相应的“混合策略纳什均衡”,之中至少有一位玩家使用混合策略。并不是每个博弈都会有纯策略纳什均衡,例如“钱币问题"就只有混合策略纳什均衡,而没有纯策略纳什均衡。不过,还是有许多博弈有纯策略纳什均衡(如协调博弈,囚徒困境和猎鹿博弈)。甚至,有些博弈能同时有纯策略和混合策略均衡。 [3]经典案例播报编辑囚徒困境(1950年,数学家塔克任斯坦福大学客座教授,在给一些心理学家作讲演时,讲到两个囚犯的故事。) [2]假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;如果另一个犯罪嫌疑人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。囚徒困境博弈A╲B坦白抵赖坦白-8,-80,-10抵赖-10,0-1,-1关于案例,显然最好的策略是双方都抵赖,结果是大家都只被判1年。但是由于两人处于隔离的情况,首先应该是从心理学的角度来看,当事双方都会怀疑对方会出卖自己以求自保、其次才是亚当·斯密的理论,假设每个人都是“理性的经济人”,都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程:假如他坦白,如果我抵赖,得坐10年监狱,如果我坦白最多才8年;假如他要是抵赖,如果我也抵赖,我就会被判一年,如果我坦白就可以被释放,而他会坐10年牢。综合以上几种情况考虑,不管他坦白与否,对我而言都是坦白了划算。两个人都会动这样的脑筋,最终,两个人都选择了坦白,结果都被判8年刑期。基于经济学中“理性的经济人”的前提假设,两个囚犯符合自己利益的选择是坦白招供,原本对双方都有利的策略不招供从而均被判处一年就不会出现。这样两人都选择坦白的策略以及因此被判8年的结局,纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战:按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。但是我们可以从“纳什均衡”中引出“看不见的手”原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。硬币正反你正在图书馆枯坐,一位陌生美女主动过来和你搭讪,并要求和你一起玩个数学游戏。美女提议:“让我们各自亮出硬币的一面,或正或反。如果我们都是正面,那么我给你3元,如果我们都是反面,我给你1元,剩下的情况你给我2元就可以了。”那么该不该和这位姑娘玩这个游戏呢?这基本是废话,当然该。问题是,这个游戏公平吗?每一种游戏依具其规则的不同会存在两种纳什均衡,一种是纯策略纳什均衡,也就是说玩家都能够采取固定的策略(比如一直出正面或者一直出反面),使得每人都赚得最多或亏得最少;或者是混合策略纳什均衡,而在这个游戏中,便应该采用混合策略纳什均衡。你\美女美女出正面美女出反面你出正面+3,-3-2,+2你出反面-2,+2+1,-1假设我们出正面的概率是x,反面的概率是1-x,美女出正面的概率是y,反面的概率是1-y。为了使利益最大化,应该在对手出什么的时候我们的收益都相等(不然在这个游戏中,对方可以改变正反面出现的概率让我们的期望收入减少),由此列出方程就是纳什均衡解方程得y=3/8。同样,美女的收益,列方程解得x也等于3/8,而美女每次的期望收益则是元。这告诉我们,在双方都采取最优策略的情况下,平均每次美女赢1/8元。其实只要美女采取了(3/8,5/8)这个方案,不论你再采用什么方案,都是不能改变局面的。重要影响播报编辑纳什均衡理论奠定了现代主流博弈理论和经济理论的根本基础,正如克瑞普斯(Kreps,1990)在《博弈论和经济建模》一书的引言中所说,“在过去的一二十年内,经济学在方法论以及语言、概念等方面,经历了一场温和的革命,非合作博弈理论已经成为范式的中心……在经济学或者与经济学原理相关的金融、会计、营销和政治科学等学科中,现在人们已经很难找到不懂纳什均衡能够‘消费’近期文献的领域。”纳什均衡的重要影响可以概括为以下六个方面1.改变了经济学的体系和结构。非合作博弈论的概念、内容、模型和分析工具等,均已渗透到微观经济学、宏观经济学、劳动经济学、国际经济学、环境经济学等经济学科的绝大部分学科领域,改变了这些学科领域的内容和结构,成为这些学科领域的基本研究范式和理论分析工具,从而改变了原有经济学理论体系中各分支学科的内涵。2.扩展了经济学研究经济问题的范围。原有经济学缺乏将不确定性因素、变动环境因素以及经济个体之间的交互作用模式化的有效办法,因而不能进行微观层次经济问题的解剖分析。纳什均衡及相关模型分析方法,包括扩展型博弈法、逆推归纳法、子博弈完美纳什均衡等概念方法,为经济学家们提供了深入的分析工具。3.加强了经济学研究的深度。纳什均衡理论不回避经济个体之间直接的交互作用,不满足于对经济个体之间复杂经济关系的简单化处理,分析问题时不只停留在宏观层面上而是深入分析表象背后深层次的原因和规律,强调从微观个体行为规律的角度发现问题的根源,因而可以更深刻准确地理解和解释经济问题。4.形成了基于经典博弈的研究范式体系。即可以将各种问题或经济关系,按照经典博弈的类型或特征进行分类,并根据相应的经典博弈的分析方法和模型进行研究,将一个领域所取得的经验方便地移植到另一个领域。5.扩大和加强了经济学与其他社会科学、自然科学的联系。纳什均衡之所以伟大,就因为它普通,而且普通到几乎无处不在。纳什均衡理论既适用于人类的行为规律,也适合于人类以外的其他生物的生存、运动和发展的规律。纳什均衡和博弈论的桥梁作用,使经济学与其他社会科学、自然科学的联系更加紧密,形成了经济学与其他学科相互促进的良性循环。6.改变了经济学的语言和表达方法。在进化博弈论方面相当有造诣的日本经济学家神取道宏(Kandori Michihiro,1997)对保罗·萨缪尔森(Paul Samuelson)的名言“你甚至可以使一只鹦鹉变成一个训练有素的经济学家,因为它必须学习的只有两个词,那就是‘供给’和‘需求’”,曾做过一个幽默的引申,他说,“现在这只鹦鹉需要再学两个词,那就是‘纳什均衡’”。新手上路成长任务编辑入门编辑规则本人编辑我有疑问内容质疑在线客服官方贴吧意见反馈投诉建议举报不良信息未通过词条申诉投诉侵权信息封禁查询与解封©2024 Baidu 使用百度前必读 | 百科协议 | 隐私政策 | 百度百科合作平台 | 京ICP证030173号 京公网安备110000020000

贝叶斯纳什均衡-抖音百科

什均衡-抖