博弈论教学课件作者 姚国庆 论0-5章电子讲义博弈论-第五章.doc

博弈论教学课件作者 姚国庆 论0-5章电子讲义博弈论-第五章.doc

ID:50308311

大小:624.00 KB

页数:78页

时间:2020-03-07

博弈论教学课件作者 姚国庆 论0-5章电子讲义博弈论-第五章.doc_第1页
博弈论教学课件作者 姚国庆 论0-5章电子讲义博弈论-第五章.doc_第2页
博弈论教学课件作者 姚国庆 论0-5章电子讲义博弈论-第五章.doc_第3页
博弈论教学课件作者 姚国庆 论0-5章电子讲义博弈论-第五章.doc_第4页
博弈论教学课件作者 姚国庆 论0-5章电子讲义博弈论-第五章.doc_第5页
资源描述:

《博弈论教学课件作者 姚国庆 论0-5章电子讲义博弈论-第五章.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第五章重复博弈在这一章中,我们将围绕着人类的合作为什么产生这一命题来展开。人与人之间合作生产的一个原因(从经济学的角度来看)是这种做法对于参与者双方而言是一个有利可图的事,为什么说明这一点我们将用到重复博弈。另一个解释合作生产的方法就是引入信息不对称,在这种情况下,一个人装作是好人是有利可图的(因为好名声能够给他带来收益),这在信息不对称中会加以介绍。第一节重复博弈的定义及扩展式给出重复博弈定义之前,需要做若干准备,一个准备就是由于重复博弈有可能会进行一个很长的时期,甚至是无穷期,因而必须考虑收益的时间价值。相应的表达偏好的收益函

2、数也需要给出一定的限制。一、贴现因子与偏好明天的一元钱和今天的一元钱价值是不一样的,最简单的理由是今天的一元钱如果存入银行那么在明天会变成1+r,所以明天的一元钱只相当于今天的1/(1+r)元钱,1/(1+r)实际上就是经济学中的贴现率。如果假设未来没有不确定性,定义,未来存在收益流R1,R2,R3,…,那么这个未来收益流的贴现值之和就为V=(5-1)其中称为贴现因子(Discountfactor)。严格讲,贴现因子并不等于贴现率,但贴现因子与贴现率一定是同方向变动的。例如,我们考虑一个特殊的重复博弈,其结束之前重复进行的次数是随

3、机的,即在博弈的每一阶段完成之后,都要通过抛若干枚(加权的)硬币的方式来决定博弈是否结束,如果硬币朝上那么博弈结束(即概率为p),如果是其他情况,那么博弈继续(即概率为1–p)。如果下一阶段能得到的收益为R1,那么在当前阶段硬币未抛之前的价值(即贴现后的期望值)为(1–p)R1/(1+r);如果下两阶段能得到的收益为R2,在当前阶段硬币未抛之前的价值为(1–p)2R2/(1+r)2;下三阶段、四阶段等等的收益,照此类推。令,则贴现因子既包含了货币的时间价值(贴现率1/(1+r)),又包含了博弈结束的可能性(1–p)。有了贴现因子的

4、概念,我们就可以非常方便地比较无穷重复博弈中的不同收益值,从而对不同的策略进行优劣判断。考虑一个无穷期的情况,如果t期的收益为Rt,贴现因子为,那么收益流的贴现值为<,其中Rmax=max{R1,R2,R3,…},即Rmax为收益流中的最大值。同理,>,其中Rmin={{R1,R2,R3,…},即Rmin为收益流中的最小值。就这意味着,存在一个R使得=。R就被称为收益流(R1,R2,R3,…)的贴现平均收益值。对于不同的策略,显然对应着不同的贴现平均收益值,通过比较平均收益值就能非常方便地知道什么是最优策略。定义5.1设贴现因子为

5、,收益流(R1,R2,R3,…)的贴现平均收益值为。由于平均收益值等于贴现值之和V的倍,使贴现平均收益值最大化就等同于使贴现值之和最大化。使用平均收益的另一个优点,就是我们可以利用它直接和阶段博弈中的收益进行比较,从而更容易知道哪一个策略要优。对于重复博弈中参与者的偏好,同学们可能认为只要照搬前面的收益函数就可以了,而这实际上是不对的。为什么呢?我们知道在确定性下,表达相同偏好的收益函数并不唯一,而是满足单调变换性,即只要f是一个单调递增函数,那么与就表示同一个偏好。但在(无穷)重复博弈中,整个博弈的收益函数为v=(5-2)它实际

6、上为阶段博弈G的收益函数u(s)的一个贴现和,我们把u(s)也称为伯努利收益函数,因为它也像v-N-M偏好一样,要求u(s)必须满足线形变换,即只有当f=a+bu(s),b>0时,f和u才表示相同的重复博弈偏好。因为这时的v实际上是预期收益函数。容易证明,,,那么,即公式(5-2)中的系数(两边同时除以)实际上是一个概率分布。因而,重复博弈与普通完全信息动态博弈的第二个不同点,就是收益函数为伯努利收益函数,而不是普通的收益函数。二、重复博弈的定义及扩展式定义5.2对于策略式博弈G={N,S,u},其中N={1,2,…,n}为参与者

7、集合,S={S1,…,Sn}为所有参与者的策略空间(策略实际上就是行动),u={u1,…,un}为所有参与者的收益函数。如果G在时间中(或程序上)不断重复,并且在下一次博弈G开始前,所有以前博弈的历史都被观察到,那么它构成的动态博弈就称之为重复博弈,G就为重复博弈中的阶段博弈。如果G重复进行T次,那么G(T)就表示重复进行T次的有限重复博弈。如果T=∞,那么G(T)就表示无限重复博弈。重复博弈G(T)中参与者i的偏好用收益函数vi表示,即(5-3)其中u(st)为伯努利收益函数,st为重复博弈t阶段的行动组合(T>t>1),为贴现

8、因子,Ri为参与者i的贴现平均收益值,等于。实际上对于重复博弈中的阶段博弈G,其不仅可以为完全信息静态博弈,也可以是完全信息动态博弈;不仅可以为完全信息博弈,也可以为非完全信息博弈。相应的重复博弈G(T)的扩展式定义如下:定义5.3重复博弈的扩展式

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。