1 / 27

共同进化博弈

共同进化博弈. 周歆辰 程亮喜 时丹 2010 年 3 月 20 日. 内容提要. 问题的引出 博弈的结构 演化规则和过程 程序实现 结果分析与讨论 结论和未来的工作. 问题的引出. 空间博弈

Download Presentation

共同进化博弈

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 共同进化博弈 周歆辰 程亮喜 时丹 2010年3月20日

  2. 内容提要 • 问题的引出 • 博弈的结构 • 演化规则和过程 • 程序实现 • 结果分析与讨论 • 结论和未来的工作

  3. 问题的引出 空间博弈 经典博弈论主要研究的是博弈的进程随着时间的发展如何演化,而空间的效应仍然是个空白。这个空白在1992年被Nowak和May填补。他们设想了一个元胞自动机,每个方格代表一个博弈者,他和相邻的博弈者进行博弈(比如摩尔邻居或者冯·诺依曼邻居),然后计算博弈之后,所有方格中的博弈者的支付,每个博弈者以一定的规则继承邻居中支付最高的那一个,然后进行下一轮博弈。这样的演化规则将使我们看到在一个空间里,博弈者相互影响,相互学习的状况,从而可以进行一系列有关讨论。

  4. 问题的引出 从简单的方格(元胞自动机)到复杂网络博弈,是近期的研究热点。这种转变更加接近现实,并且可能会呈现出与普通网格不一样的结果。没有距离概念的网络,已经被证实是支持合作的产生的。随后,在对集群网络,或者无网络结构也有大量的研究。博弈类型、记忆、环境等多方面的因素也被考虑到空间博弈当中没,例如小世界等多种形式。另外,不同拓扑结构的相互影响以及不同支付矩阵的共存,成为了超出博弈理论以外的影响因素。

  5. 问题的引出 演化规则: • 亲属性的演化法则 • 自愿参加 • 社会复杂性 • 连接之间的非对称影响及非对称的进化 • 不同的学习规则 理论上的研究: • 演化动力学 • 有限人口 • 噪音和更多的不确定性

  6. 问题的引出 目前的绝大多数研究都只考虑在每一轮中的一个静态博弈,即博弈者并无先后顺序,每个博弈者都不知道在本轮中对方的决定。 我们的研究是基于这种有先后的动态博弈的基础上,通过一定的空间结构来观察博弈者的策略演化情况。这种演化是基于记忆效应的。我们用有限状态机表现这种记忆效应。

  7. 博弈的结构 考虑多轮次的多人博弈,在每一轮中,一些博弈者将进行2人动态博弈。为了观察这些动态博弈的进展,对于一类特殊的矩阵,假想了一套“承诺和威胁”体系。在一组二人博弈中,B博弈者先给A发送一个可达到帕累托效率解的信息,然后A做出选择(即是否相信),随后B做出是否遵守诺言的选择。这样,博弈的结果唯一确定,并且B和A的一种类似声望的因素被其他博弈者们观察到,这个声望也会对随后与A或B进行的博弈产生影响。

  8. 一个可能的支付矩阵 在左图中,承诺和威胁是可以成立的。B先给A发送一个我会合作的信号,即不论怎样B都会选择向右(图中虚线)。如果A相信了,他会选择右,否则他会选择左。如果B守信,他会选择右,否则选择左。这个威胁如果只运用在单次博弈中就是不可置信的,显然图中深实线表示了该博弈的子博弈完美纳什均衡,也是演化稳定策略。但是在多人博弈中,这个威胁就可能起到效果,因为这可能影响到A或B的声誉。 博弈的结构

  9. 博弈的结构 承诺或者威胁能在多人博弈中起到作用的支付矩阵满足的条件:

  10. 演化规则和过程 为了研究这个博弈,我们的想法是考虑一个空间博弈,这个博弈建立在方格上,右图是这个一部分博弈空间的示意:

  11. 演化规则和过程 在每一轮博弈,博弈者以1/4的概率挑选一个邻居(诺依曼邻居)博弈一次。当所有的博弈者都进行完一次博弈后,他们将在这一轮获得一个支付。连同之前的支付,将有一个支付总值。在学习的过程中,他们总可以以如下方式继承四角的同类博弈者的策略: 这里以A为例,记周围同类邻居为Ai(i=1,2,3,4),在这一轮过后Ai的支付总值为Fi,Pi为继承该博弈者周围同类邻居Ai的概率,则:

  12. 演化规则和过程 什么是策略? 策略是一个有限状态机,状态栏表示博弈的对手在过去M个记忆深度的下的行为,即守信程度或者相信程度,策略栏表示自己在这一次所做的行为,如果是A型,就是相信或者不相信,如果是B型,就是守信或者不守信。

  13. 演化规则和过程 A的一个可能的有限状态机如右图。守信程度栏中表示B的守信历史,0代表守信,1代表不守信;在策略栏中是A的策略,0代表相信,1代表不相信。记忆深度m=3。

  14. 演化规则和过程 B的可能的一个有限状态机表如右图,其中状态栏的第一列表示A在本轮是否相信,如果相信则为0,不相信则为1;第二列表示在记忆深度m=3时A的相信状况,编码规则同上;策略栏中是B的相应的策略,0表示守信,1表示不守信。

  15. 演化规则和过程 注意到这样一个博弈中,相信与守信恰好能够与左或者右进行一一映射,于是这种博弈结构能够推广到更加一般的情形。这个映射如下表所示(上图为原矩阵,下图为象矩阵):

  16. 程序实现 程序输出的数据: • 每个个体每次博弈的收益值即适应度函数fitness • 每个个体每一次博弈的选择即history数组 • 每个个体的策略串strategy • 每次博弈中守信个体的数目

  17. 程序实现 系统中的个体分A型和B型两种,大小为偶数*偶数的矩阵,这样就可以使两种类型的个体依次间隔开来。 A型与B型的不同之处有: • 记忆深度(即记忆博弈对象的历史记录与得益值的步数); • 历史记录的长度(个体的历史记录的长度取决于它的博弈对象的记忆深度); • 策略串的大小(策略串的大小取决于个体的记忆深度与类型。A型个体的策略串的长度等于其记忆深度加1,B型个体的策略串等于其记忆深度加1的两倍)。

  18. 结果分析与讨论 程序对100*100大小(即10000个个体,5000个A型,5000个B型)的系统,进行了500步博弈模拟。 将要讨论的一些结果: • 系统中合作者的数目随博弈次数的变化情况 • 各博弈者在每一步的选择情况,即是否合作 • 各博弈者的策略随步数的变化情况 可能对其产生影响的一些因素: • 支付矩阵 • 记忆深度 • 选择、学习、变异的方式 • 其它因素 在下面的讨论中,主要考虑记忆深度和支付矩阵的影响,选择、学习的方式都如前所述, 不再改变,且暂不考虑变异和其它因素。但是由于以后研究的需要,仍将其列出。

  19. 首先考虑系统中合作者的数目随博弈次数的变化情况。首先考虑系统中合作者的数目随博弈次数的变化情况。 右图是在如前所述的博弈矩阵下进行的结果,记忆深度为m=2,4,6,8的情形。其中横坐标表示步数,总坐标表示合作者的人数。下同。 结果分析与讨论

  20. 结果分析与讨论 我们进行了很多次实验,发现如下几个现象: • 合作者的比例总是先升高再下降,最终减至零。这个结果并没有出现动态平衡,这与我们最初的想法有出入,可以说结果不是很理想,但是这与用遗传算法求解演化稳定策略具有一定的相似之处。 • 当记忆深度越大时,合作者趋于零的速度总体越慢,但是即使是同一个记忆深度,趋于零的速度也是有不同的,这个主要是演化机制中的随机性导致的。这里统计的只是按照同一个记忆深度下,概率密度最大者的趋近速度。

  21. 在另一个更具有一般性的支付矩阵下,我们做了同样的实验,其结果如右图。在另一个更具有一般性的支付矩阵下,我们做了同样的实验,其结果如右图。 这个支付矩阵是{1,2,2,1,1,2,2,1},它所得到的结果将不再是简单地减少至零的,这可能是由于它有多个演化稳定策略。我们让其记忆深度m=3,运行1500步,可以发现其仍有波动,但稳定在3000左右。 结果分析与讨论

  22. 结果分析与讨论 再来观察博弈者在每一步的选择情况。我们用截屏(snapshots)的方式来阐述这一过程。仍以前述的支付矩阵为例,记忆深度m=3。白色表示合作,黑色表示背叛。下面8幅图中,步数分别为1,50,100,150,200,250,300,350。当进行到400步时,已经完全演化成背叛。从这些图中看出,背叛着以一种聚类或者簇(cluster)的方式演化,这一点在静态共同演化博弈中也曾出现过。

  23. 结果分析与讨论 再观察每个博弈者的策略演化情况,具体数据由于比较复杂,在此略去,总体上到稳定阶段时,策略的种类由开始时的多种多样到单调的3到4种,这里仍以上述的支付矩阵和m=3的记忆深度为例。

  24. 结论和未来的工作 结论: • 合作者的数目或者比例最终会由支付矩阵的演化稳定策略决定。如果演化稳定策略是唯一的,那么结果将收敛到这一策略,其它情况还不是很明显。 • 记忆深度一定程度上决定了收敛的速度,总体呈现“深度越大,越难收敛”的特点。 • 背叛者以聚类的方式扩散,最终到达稳定状态。 • 策略(有限状态机)的种类数量随着步数减少至很少的数目。

  25. 结论和未来的工作 未来的工作: • 改变支付矩阵,使其满足更加一般的条件。可能用到的手段是穷举支付矩阵。 • 改变学习的方式,例如引进费米狄拉克函数进行学习,或者更加直接地,simple the best。 • 增加变异的环节。我们曾经发现加入变异后,合作者人数或者比例可能并不严格地依赖于矩阵本身,最终仍有可能趋向于一个稳定值,并且达到动态平衡,构成复杂系统。这点还需更加深入的研究 • 考虑更多别的因素,正如在“问题的引出”中所提到的那样。

  26. 结束语 我们将在接下来的时间里继续研究这个课题,也希望老师们能给我们更多指导,谢谢大家!

  27. 参考文献 • (美)格若赫姆·罗珀 著. 柯华庆 闫静怡 译. 博弈论导引及其应用. 中国政法大学出版社. 2005 • Selten, R. Reexamination of the Perfectness Concept for Equilibrium Points in Extensive Games. Int J. Game Theory 4, 25-55. 1975 • Drew Fudenberg and Jean Tirole. Perfect Bayesian equilibrium and sequential equilibrium. Journal of Economic Theory. Volume 53, Issue 2, April 1991. Pages 236-260 • William M. Tracy. Paradox Lost: The Evolution of Strategies in Selten's Chain Store Game. 2008 • Steven Hamblin and Peter L. Hurd. Genetic algorithms and non-ESS solitions to game theory models. Animal Behavior. 2007,74. Page 1005-1008 • Maynard Smith, J. Evolution and Theory of Games. Cambridge: Cambrige University Press. 1982 • Challet D. and Zhang Yicheng. Emergence of cooperation and organization in an evolutionary game. Physica A. 1997.3 • Ricardo M. Ara´ujo and Lu´ıs C. Lamb. Towards Understanding the Role of Learning Models in the Dynamics of the Minority Game. Proc. of 16th IEEE ICTAI 2004. 2004 • Wei-Song Yang, Bing-Hong Wang, Yi-Lin Wu and Yan-Bo Xie. Searching good strategies in evolutionary minority game using variable length genetic algorithm. Physica A: Statistical Mechanics and its Applications. Volume 339, Issues 3-4, 15 August 2004. Pages 583-590 • Nowak, M. A. and May, R. M. Evolutionary games and spatial chaos. Nature 359. 1992. 826–829 • Matjaˇz Perca and Attila Szolnokib. Coevolutionary games—A mini review. BioSystems. BIO-3020; No. of Pages17. 2009 • H. Fort. A minimal model for the evolution of cooperation through evolving heterogeneous games. EPL,81. 2008 • Kristian Lindgren. Evolutionary Dynamics in Game-Theoretic Models. Talk presented at the workshop "The economy as an evolving complex system II". Santa Fe Institute. Aug. 26 - Sept. 1. 1995 • Oliver Kirchkamp. Spatial evolution of automata in the prisoners’ dilemma. Journal of Economic Behavior & Organization. Vol. 43 (2000) 239–262. 2000

More Related