主题：【原创】新年政治经济展望之二：中美博弈（一） -- 井底望天

共:💬536 🌺3054 新:

观点时事

一报还一报过后的宽容

美国密执根大学的Robert Axelrod为了研究有关合作的问题，在1979年组织了一场特殊的计算机比赛。这场比赛的设计非常简单：要求每个参赛的博奕论专家根据“囚徒困境博弈”规则，各自设计一种计算机程序，然后用单循环赛的方式将参赛程序两两博弈，以找出得分最高的策略。Axelrod在比赛开始之前，先设定了两个前提：每个人都是自私的；没有权威干预个人决策。也就是说，个人可以完全按照自己最大化利益进行决策。他要研究的主要问题是：人为什么要合作？人什么时候合作，什么时候不合作？如何使别人与自己合作？第一轮博弈有14个程序参加，再加上Axelrod自己的一个随机程序（即以50%的概率选取合作或不合作），运转了300次。结果得分最高的是加拿大学者Anatol Rapoport编写的“一报还一报”（Tit for Tat）程序。这个程序的特点是，第一次对局采取合作的策略，以后每一次对局都采用和对手上一次相同的策略，即对手上一次合作，我这次就合作，对手上一次不合作，我这次就不合作。Axelrod发现，得分排在前面的程序有三个特点：“善良的”（be nice），即不首先背叛；“反击的”（be reactive），对于对方的背叛行为一定要报复，也搞一次背叛；“宽恕的”（forgive），不怀恨在心，只要对手以后改为合作，我们也要与之合作。

　　为了进一步验证上述结论，Axelrod决定邀请更多的人再进行一次比赛。第二次他征集到了62个程序，加上他自己的随机程序，一共是63个程序。比赛结果获冠军的仍是“一报还一报”程序。

Axelrod总结这次比赛的结论是：“一报还一报”仍是最优策略；前面提到的三个特点仍然有效。除此之外，Axelrod认为占优的策略还必须具有的一个特点是“不过于‘聪明’”，也就是说要“简单”，以便对手能够理解，可以使对方很快就发现规律，从而与你采取合作的态度。

具有讽刺意味的是，除了“随机程序”以外，得分最差的一个程序恰恰是设计得最复杂的一种程序。15种战略中，有8种是首先选择“合作”，被列为“善战略”，另外7种战略是首先选择“背叛”，而且总想诱使对方受骗，被列为“恶”战略。最后，“善战略”总分均高于“恶战略”。

“一报还一报”不仅善良，而且不刻意追求高分，又能宽容（一开始虽然报复对方，但对方态度变好了，就不再记仇）。宽容心差，就容易陷入双方老是“彼此背叛”的状态。“一报还一报”是15种战略中最简易又最善良的一种，它最后得分最高，是许多人所未想到的。“一报还一报”的特点：一是“善良”，决不首先“背叛”。二是“反应快”，对方若“背叛”，马上就以“背叛”还击，决不犹豫。三是“宽容”，对方若是态度变为“合作”，就不记前仇，立即回应以“合作”。四是“无忌妒之心”，不因对方玩弄心计一时得分高而自己也玩弄心计。五是“简便易行”，始终坚持“一报还一报”，易于坚持到底，态度明朗，对方明白了也会照样做。

阿克塞尔罗德总结了第一轮比赛的结果，宣布举行第二轮比赛。这次参赛的程序有63个，其中包括那个“随机程序”，还有约翰·史密斯提出的一种更宽厚的“一报还两报”，即遭到对方两次“背叛”后才予以还击。这一轮的场次不加限制，阿克塞尔罗德在他于1984年出版的《合作的进化》一书中指出这样做是因为对未来的关注可以促进合作。有些人读了阿克塞尔罗德对第一轮比赛的分析以后，研究了怎样利用那些“善战略”和“宽容战略”的方案，提出了一些新的“恶战略”，但最后还是输了。拉波波特的“一报还一报”再次获胜。得分最高的前15名中，有14名都是“善”的，而得分最少的15名当中，则有14名都是“恶”的。“一报还两报”的战略未能获胜，因为许多“恶战略”都费尽了心机来利用对方的宽容。

这一事实导致一个重要的发现：一种战略的成功取决于它与之较量的那些战略的性质。理查德·道金斯在他那本深受读者欢迎的《自私的基因》（1974年初版，1990年、2006年再版）一书中指出，阿克塞尔罗德举办的比赛是像橄榄球联赛一样采用了循环赛制。参赛的每一战略都需要跟别的战略交锋，全赢者才胜出。“一报还两报”若在第一轮推出，可能胜出，但是它在第二轮推出就不行了，因为第二轮“善”者比例低于第一轮。“一报还一报”能胜出，是因为“善”者在第二轮毕竟也还多于“恶”者，否则它也会败。循环制不同于道金斯所说的“进化上的稳定策略”（ESS），道金斯说，凡是种群的大部分成员采用某种策略，而这种策略的好处为其他策略所比不上的，这种策略便是进化上的稳定策略。

阿克塞尔罗德仍然用第二轮参赛的63种战略进行了第三轮比赛，以寻找一种能反映达尔文学说“自然选择”原则的“进化稳定策略”。在这新的一轮比赛中，63种电脑程序被列为“第一代”。“第一代”比赛结束时，记录下每一种电脑程序及其“后裔”的百分比。几代之后，有些程序比例减少，到了“第200代”，多数“恶战略”已遭淘汰，别的战略继续比赛。到了“第1000代”左右时，每一战略在总数中所占百分比停止变化，终于达到了稳定状态。在6场比赛中，“一报还一报”胜了5场。另5种类似的战略成绩也不错，其中一种在第六场获胜。有一种叫做“哈林顿”的“恶战略”熬过了“第200代”，但随后一些“善”的和“宽容”的战略败出了比赛以后，这一“恶战略”找不到它易于击败的靶子，终于在接近“第1000代”时败亡。

通宝推：jungleford,西望长安,

全看分页树展 · 主题跟帖

相关回复上下关系8
- - 🙂呵呵有意思！黄河清字38 2010-01-22 01:37:24
  - 🙂最近风云变幻，好文不断…… 雪之駅字38 2010-01-22 01:34:36
  - 🙂通宝馅上咪铛字201 2010-01-21 22:31:31
  - 🙂一报还一报过后的宽容
    🙂【讨论】想起太祖的反摩擦战略 13 不懂怪怪字552 2010-01-22 21:42:23
    🙂以德报怨，何以报德? 冬天的绿茶字0 2010-01-26 23:42:54
    🙂这让我想起太祖的名言 3 飒勒青字75 2010-01-22 05:24:23
  - 🙂哈哈瓜瓜虎字161 2010-01-21 21:47:50

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明