西西河

主题:【原创】新年政治经济展望之二:中美博弈(一) -- 井底望天

共:💬536 🌺3054 新:
全看分页树展 · 主题 跟帖
家园 一报还一报过后的宽容

美国密执根大学的Robert Axelrod为了研究有关合作的问题,在1979年组织了一场特殊的计算机比赛。这场比赛的设计非常简单:要求每个参赛的博奕论专家根据“囚徒困境博弈”规则,各自设计一种计算机程序,然后用单循环赛的方式将参赛程序两两博弈,以找出得分最高的策略。Axelrod在比赛开始之前,先设定了两个前提:每个人都是自私的;没有权威干预个人决策。也就是说,个人可以完全按照自己最大化利益进行决策。他要研究的主要问题是:人为什么要合作?人什么时候合作,什么时候不合作?如何使别人与自己合作?第一轮博弈有14个程序参加,再加上Axelrod自己的一个随机程序(即以50%的概率选取合作或不合作),运转了300次。结果得分最高的是加拿大学者Anatol Rapoport编写的“一报还一报”(Tit for Tat)程序。这个程序的特点是,第一次对局采取合作的策略,以后每一次对局都采用和对手上一次相同的策略,即对手上一次合作,我这次就合作,对手上一次不合作,我这次就不合作。Axelrod发现,得分排在前面的程序有三个特点:“善良的”(be nice),即不首先背叛;“反击的”(be reactive),对于对方的背叛行为一定要报复,也搞一次背叛;“宽恕的”(forgive),不怀恨在心,只要对手以后改为合作,我们也要与之合作。

  为了进一步验证上述结论,Axelrod决定邀请更多的人再进行一次比赛。第二次他征集到了62个程序,加上他自己的随机程序,一共是63个程序。比赛结果获冠军的仍是“一报还一报”程序。

Axelrod总结这次比赛的结论是:“一报还一报”仍是最优策略;前面提到的三个特点仍然有效。除此之外,Axelrod认为占优的策略还必须具有的一个特点是“不过于‘聪明’”,也就是说要“简单”,以便对手能够理解,可以使对方很快就发现规律,从而与你采取合作的态度。

具有讽刺意味的是,除了“随机程序”以外,得分最差的一个程序恰恰是设计得最复杂的一种程序。15种战略中,有8种是首先选择“合作”,被列为“善战略”,另外7种战略是首先选择“背叛”,而且总想诱使对方受骗,被列为“恶”战略。最后,“善战略”总分均高于“恶战略”。

“一报还一报”不仅善良,而且不刻意追求高分,又能宽容(一开始虽然报复对方,但对方态度变好了,就不再记仇)。宽容心差,就容易陷入双方老是“彼此背叛”的状态。“一报还一报”是15种战略中最简易又最善良的一种,它最后得分最高,是许多人所未想到的。“一报还一报”的特点:一是“善良”,决不首先“背叛”。二是“反应快”,对方若“背叛”,马上就以“背叛”还击,决不犹豫。三是“宽容”,对方若是态度变为“合作”,就不记前仇,立即回应以“合作”。四是“无忌妒之心”,不因对方玩弄心计一时得分高而自己也玩弄心计。五是“简便易行”,始终坚持“一报还一报”,易于坚持到底,态度明朗,对方明白了也会照样做。

阿克塞尔罗德总结了第一轮比赛的结果,宣布举行第二轮比赛。这次参赛的程序有63个,其中包括那个“随机程序”,还有约翰·史密斯提出的一种更宽厚的“一报还两报”,即遭到对方两次“背叛”后才予以还击。这一轮的场次不加限制,阿克塞尔罗德在他于1984年出版的《合作的进化》一书中指出这样做是因为对未来的关注可以促进合作。有些人读了阿克塞尔罗德对第一轮比赛的分析以后,研究了怎样利用那些“善战略”和“宽容战略”的方案,提出了一些新的“恶战略”,但最后还是输了。拉波波特的“一报还一报”再次获胜。得分最高的前15名中,有14名都是“善”的,而得分最少的15名当中,则有14名都是“恶”的。“一报还两报”的战略未能获胜,因为许多“恶战略”都费尽了心机来利用对方的宽容。

这一事实导致一个重要的发现:一种战略的成功取决于它与之较量的那些战略的性质。理查德·道金斯在他那本深受读者欢迎的《自私的基因》(1974年初版,1990年、2006年再版)一书中指出,阿克塞尔罗德举办的比赛是像橄榄球联赛一样采用了循环赛制。参赛的每一战略都需要跟别的战略交锋,全赢者才胜出。“一报还两报”若在第一轮推出,可能胜出,但是它在第二轮推出就不行了,因为第二轮“善”者比例低于第一轮。“一报还一报”能胜出,是因为“善”者在第二轮毕竟也还多于“恶”者,否则它也会败。循环制不同于道金斯所说的“进化上的稳定策略”(ESS),道金斯说,凡是种群的大部分成员采用某种策略,而这种策略的好处为其他策略所比不上的,这种策略便是进化上的稳定策略。

阿克塞尔罗德仍然用第二轮参赛的63种战略进行了第三轮比赛,以寻找一种能反映达尔文学说“自然选择”原则的“进化稳定策略”。在这新的一轮比赛中,63种电脑程序被列为“第一代”。“第一代”比赛结束时,记录下每一种电脑程序及其“后裔”的百分比。几代之后,有些程序比例减少,到了“第200代”,多数“恶战略”已遭淘汰,别的战略继续比赛。到了“第1000代”左右时,每一战略在总数中所占百分比停止变化,终于达到了稳定状态。在6场比赛中,“一报还一报”胜了5场。另5种类似的战略成绩也不错,其中一种在第六场获胜。有一种叫做“哈林顿”的“恶战略”熬过了“第200代”,但随后一些“善”的和“宽容”的战略败出了比赛以后,这一“恶战略”找不到它易于击败的靶子,终于在接近“第1000代”时败亡。

  

通宝推:jungleford,西望长安,
全看分页树展 · 主题 跟帖


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河