主题:【原创】雷锋是这样死掉的 -- 淮夷

2013-01-03 05:23:14淮夷
【原创】雷锋是这样死掉的

点看全图

外链图片需谨慎,可能会被源头改

最近坐火车往肇庆,途中读一本书《Paradigms Regained》,作者John Casti是加州大学的数学家。作者讲到自然界存在大量“利他主义”现象,很多动物互利合作,令人难解。

例如有一种鸟叫阿拉伯鸫鹛(babbler),形如麻雀。它们喜欢无私奉献,帮同类搓澡、照看病鸟、给别人家幼鸟喂食,等等。甚至,它们为争夺主动奉献的机会而发生冲突。称它们是“雷锋式”小鸟也不为过。

事实上,吸血蝠、猿猴、獴类、荆鱼、海象、甚至病毒,都在某种程度上呈现出类似的利他行为。你很难把这些行为归结于动物的高风亮节或者利益计算,因为动物既不知何为道德,也不懂成本效益分析。

在进化论学者看来,这种模式完全是自然选择的结果。遗传基因中含有“合作和付出”的因素,我给它起了个也许不太贴切的名字叫“雷锋基因”。相比自私行为,雷锋基因使某些动物在演化中获得优势,所以自然选择会朝着有利它们的方向发展,使这种遗传类型得到传递。

那么,人类也有雷锋基因的吧?

我想应该是有的。在我读的一些书中,我发现很多历史事件皆可借此解释。

譬如一战时期,欧洲西线出现壕沟对峙,英军德军躲在各自的战壕后面,战局长期僵持。对于英德壕沟之战,描述最多的词汇是“惨烈”,10%士兵战死,伤者不计其数。但是历史学家Tony Ashworth写过一本书《Trench Warfare》,披露了另外一面。

他写道(大意):英德壕沟战普遍存在一种“表演”的性质,交战士兵定期互相开枪开炮,假装很忙。这种假打不仅蒙骗了自己的上级,而且向敌人表露出合作的意图。

双方显然都在发扬某种“雷锋式”精神。比如,绝不袭击对方开到壕沟边的运饭车,尽管打掉运饭车一点都不难,但大家都主动给对方留出吃饭时间。再比如,督战的英国军官发现,德国士兵就在英军射程范围来回走动,而英军对射击敌人的大好机会往往无动于衷。

这种离奇的现象在1914年的圣诞节达到顶峰,英德士兵甚至走出战壕,互致问候,还踢了一场球赛,史称“圣诞停战事件”。类似的事件在一战时的法德战场和东线战场也曾相继上演。

在博弈论看来,阿拉伯小鸟和英德大兵面对的都是经典“囚徒困境问题”。意即,当你的对手做雷锋时,你的最优策略其实就是欺骗他、利用他、攻击他。当然,对方也不傻,也会同样选择。是以,最终的均衡解只能是:欺骗vs欺骗。

现实中,小鸟和士兵并没陷入双输之局,而是选择合作vs合作的策略。这是因为双方面对重复次数的“非零和博弈”。在这种设定下,发挥雷锋精神是很有好处的。

针对此种类型的博弈,密歇根大学的Robert Axelrod在70年代组织过两次大赛,目的是寻找到最优策略。

第一轮大赛中,人们提交了一些复杂策略,这些策略捉对厮杀,最终胜者是一个超级简单的策略tit-for-tat,只有4行程序组成,由多伦多大学的数学家Anatol Rapoport设计。

第二轮大赛吸引了62名学者,涵盖经济学、物理学、数学、计算机、进化生物学各个领域,tit-for-tat继续胜出。

字面上,tit-for-tat的意思是“以牙还牙”,这个策略的全部规则只有两条:1)第一轮主动合作,2)此后的所有轮次,均跟随对手上一轮的策略。

这个策略有何特别呢?简单的说,它是一种“先礼后兵”的策略,既有合作意愿(雷锋基因),又不容许别人沾光。你若合作我也合作;你若欺骗我也绝不饶恕。这像圣经旧约讲的“以眼还眼,以牙还牙”,而非圣经新约所讲“左脸被打,右脸送上”。

一战时英德壕沟对峙其实便是一种真实世界的tit-for-tat。双方假装打枪,彼此大增活命概率。可如果一方突然来下真的,敌人也必全力报复。

在密歇根大赛一枝独秀的tit-for-tat,是否也是真实世界的最优策略呢?

其实你很难在真实世界寻到答案。小到一个人的处事待人,大到两国外交纷争,都要大量重复性的可控实验才能证明出,tit-for-tat是否最管用的一招。此种大规模社会实验显然很难落实。

不过,计算机程序模拟出一些有趣的演化博弈,给人们寻找最优策略提供了新思路。

1997年,瑞典物理学家Kristian Lindgren创设了一个“丛林博弈程序”。这个程序类似于“大糖帝国”,在一个128X128的棋盘上展开。

点看全图

外链图片需谨慎,可能会被源头改

棋盘上有16,384个单元格,一个单元格代表一个独立决策的个体(agent),不妨想象为社会中的每个人。

规则是这样的:

1)每个格子与相邻格进行一对一的囚徒困境博弈,意即人人都有“欺骗”动机,但是合则两利,骗则双输。

2)平均获益最高的格子成为赢家,它用的策略在下一轮扩充到相邻格。从进化论角度来说,该策略得到了成功的繁殖。

不难想象,这就像是一个达尔文式的丛林,人们使用着不同的竞争策略,而目标都是一样的:追求个体最大获益和最终的生存繁衍。

Lindgren的模型用00、01、10、11指代四种不同策略。程序初始,单元格被随机性分配其中的一个策略,这包括1) tit-for-tat;2)anti-tit-for-tat (反跟随,对手合作我就欺骗,对手欺骗我就合作);3)永远合作;4)永远欺骗。

为了模拟真实世界的复杂性,Lindgren为这些彼此竞争的策略设计了一些类似基因进化的特性。比如,某个单元格可偶然犯错,背离当前的最佳策略。再比如,01可进化为011(基因复制),意味着记忆力提升,可以分析历史上的交手步数来决定如何行事。再比如,一个策略也许已进化为011011000110001的复杂度,但是它也可能突然拦腰折断为011011(基因变异),这意味着记忆力大减。

Lindgren按动启动键,于是这些获得生命的单元格按照各自策略,厮杀起来。

那么,tit-for-tat又赢了吗?

下面是程序模拟了26,000轮之后的结果。

点看全图

外链图片需谨慎,可能会被源头改

横轴是时间,纵轴是不同策略的人口分布占比。占比越高,这策略越成功。

一个明显的结果就是:在这个复杂性的进化系统里,不存在所谓的“最优策略”。

某些简单策略最初也曾大占优势(例如01),随着时间演进,一些复杂策略(例如1101)开始进化出来,晋身市场主流。而在模拟的最后阶段,更复杂的策略例如1001000101011001异军突起,搞掉了大部分曾经很成功的策略。

你可以重启程序无数次,每一次模拟结果都看到不同的细节,但大趋势上,结论是类似的:没有任何单一策略可以长期管用。你若喜欢用tit-for-tat行事,也许能成功一时,但是终究别人会弄出更聪明的策略,把你搞死。

其实观察这个模型的结果,和观察自然丛林中的物种进化,得到的启发是差不多的:任一时点上,活下来的物种,都可称是一个赢者,因为别的物种都被淘汰掉了。

既然没有永远的最佳策略,不妨回到一个直面人性的问题:我现在该怎样行事?做一个雷锋,还是做一个恶人?

也许下面的一个实验,可以给人一些选择上的启发。

1992年,牛津大学数学家Martin Nowak和Robert May合作设计出一个著名的空间博弈。

游戏规则类似于Lindgren的丛林程序:相邻单元格进行一对一的囚徒困境博弈,得分最高策略得到繁衍。不同在于,现在你只有两个策略可选:合作或欺骗。每个格子可在两个策略之间随意转圜。

这等于是说,你要么做一个善人,要么做一个恶人。而且,你可以在善恶之间跳来跳去。你相信“人性本善”还是“人性本恶”呢?考验的时候到了。

在初始设定中,人群中的善恶比例是50:50,随机的撒布在棋盘上,就像下图显示(蓝格代表合作策略或曰善人,红色代表欺骗策略或曰恶人)。

点看全图

外链图片需谨慎,可能会被源头改

随着模拟轮次的推进,善恶边界不断变化,逐渐演化成下面模样。

点看全图

外链图片需谨慎,可能会被源头改

这个图基本算是一个善恶共处的国度。顽固的欺骗者(红色)与顽固的合作者(蓝色)皆有各自生存空间。夹在二者之间的黄绿二色,代表“变节者”,它们由善转恶或由恶转善。

一个值得注意的现象是,善恶分布已从最初的随机撒播,演化为岛屿状的各自群聚。

譬如图中有很多蓝色小岛,岛上居民都是坚定的善人,不妨称它为雷锋岛。雷锋岛居民彼此合作,获得了高于彼此欺骗的获益,这使他们的合作策略得以占有一块地盘,集体防御了欺骗者。与此类似,若把一个善人丢进红色小岛,它很快就被周围的欺骗策略吞噬,合作策略无法生存到下一轮。

现在,一个有趣的问题是,假如把初始设定改一下,大幅提高好人的比重,结果会不会更好?

这个问题并没有固定答案。实际上,这最终取决于在博弈程序的payoff matrix中,你如何设定合作策略与欺骗策略的获益参数。当欺骗带来获益高过一个门槛值时,你会看到下面的结果。

在下面的初始设定里,超过99%的人口都是活雷锋,只有零星的欺骗者。你不妨想象这是一个人性本善的“好社会”。

点看全图

外链图片需谨慎,可能会被源头改

下面显示,程序执行了1000轮的演化之后,欺骗者可以不断的从大片雷锋人口中获益。这种获益很高,欺骗作为一个管用的策略开始繁衍和扩大地盘。

点看全图

外链图片需谨慎,可能会被源头改

模拟到5000轮的样子:

点看全图

外链图片需谨慎,可能会被源头改

模拟到1万轮,雷锋已经所剩无几:

点看全图

外链图片需谨慎,可能会被源头改

最终结果你大概已经猜到了:

点看全图

外链图片需谨慎,可能会被源头改

在这个版本的虚拟世界,欺骗策略最终大获全胜,所有的雷锋都死掉了。

回顾Lindgren和Nowak的模拟程序,人们看到“好”社会和“坏”社会的兴与衰,它们此起彼伏,无法预料。每个身在局中的人,都很难寻得一个稳定的最优策略。最要命的是,你根本无从得知,你如今身在第1000轮的乌托邦,还是在第1万轮的黑暗社会?

我觉得人和许多动物一样,都具有合作利他的基因,但是,此类基因能否得到成功繁衍,不单纯是发扬雷锋精神那么简单,而是取决于其他人的选择、善恶的奖惩机制、以及每个人所处的局部环境。

因之,18大之后提倡“学雷锋活动要常态化”,我觉得这算是一个政治正确的号召,尽管这句口号也许完全抓错了重点。

通宝推:马哥,sixue,左手拈花,钓者任公子,bluesknight,az09,王小棉她妈,玉垒关2,猪啊猪,切地雷,曲道自然,dashanji,平淡是真,tt086071,王敏,混天球,猪头大将,天涯睡客,西瓜子,等明天,东张西望,franky9,上古神兵,山远空寒,文化体制,龙城,月下,咦咦咦,联储主席,
主题:3831143
帖内引用