西西河

主题:【原创】醉汉的漫步 -- 淮夷

共:💬56 🌺677 新:
分页树展主题 · 全看 下页
  • 家园 【原创】醉汉的漫步

    点看全图

    外链图片需谨慎,可能会被源头改

    最近忙于一个A股IPO的项目,每天读招股书,读到要吐为止。中文招股书的逻辑普遍不太好,又爱堆砌大量套话,读来更像一份政府工作报告而非一份招股文件,不明白证监会的老爷们为何喜欢这样的调调。

    为了不被招股书恶心死,抽空读了一本有趣的闲书,换换眼睛。此书是2008年出版的畅销书《The Drunkard’s Walk》(醉汉的漫步),作者是美国物理学家Leonard Mlodinow。

    我近几年读到最好的社会科学作品似乎全都是物理学家写的,此书也不例外。作者利用统计学的知识揭示了很多社会现象中隐藏的规律,其中一个重要的规律,就是无所不在的随机性。

    随机性在作者看来是人生的常态。小到一个人的生活轨迹、大到历史事件的次第展开,尽管人们试图用“后见之明”去倒究原因,可那些事件的轨迹也许不存在什么必然理由。

    此书名字“醉汉的漫步”本身是一个生动的比喻,在统计模型中这种现象也称作Markov chain (马尔可夫过程)。如果用计算机做一个马尔可夫过程的运算,去模拟一个醉汉的步伐路线,你会得到类似下面的结果:

    点看全图

    外链图片需谨慎,可能会被源头改

    图中看得到,从起点到终点的行进路径毫无规律。历史和未来是缺乏关联的,无法用已发生的历史事件对未来的走向进行有效的预测。这种特性也称作“memorylessness”。

    这话题本身,其实不只是一个统计问题,更像是一个哲学问题。

    哲学上,有一种观点叫“决定论”,意思是,世间万物存在必然的因果关系,倘若知道全部的层层细节或曰原因,你一准儿能测知结果。

    这个观点最有名的代表是法国数学家拉普拉斯(Laplace)。1814年,在牛顿物理学达到顶峰时,拉普拉斯写过一段话(大意):“如果一个智慧生物知道运动的规律,且知道影响这些规律的力量,那么,大到天体运行小到原子活动,都是可预知的。对智慧生物来说,没什么是不确定的,未来与过去都如在眼前。”

    他所说的智慧生物,听起来好像是帝哥的感觉。

    拉普拉斯的“有因必有果,万物皆可知”的观点,在科学家眼中似乎有它的道理。譬如你随手扔出一个石子,若能充分的计算投掷的角度、力度、风速、石子形状、地面摩擦等因素,理论上可以精准预测它终将停于何方。

    基于这样的理念,一些科学家热衷于创设各种模型用来模拟历史再现,或是用于预测未来。科幻小说中关于“创世模型”的情景可谓比比皆是。现实世界中,芝加哥大学化学家Stanley Miller也曾做过一个著名的实验,在烧瓶里添加化学气体并制造人为闪电,模拟早期地球的大气环境,观察地球生命最初是如何起源的。

    尽管有这么多的尝试在前,可是自然世界的复杂性绝非任何计算机模型有能力模拟出来的。某些细小之极的差异,有可能在一个复杂性系统里被放大,导致面目全非之果。这方面亦有一个很知名的例子,60年代美国数学家Edward Lorenz用计算机做了一个气象模拟实验。他的前提是,若输入同样的气象参数,且告诉计算机这些气象参数如何相互影响,理论上,计算机能重复“制造”出一模一样的气象结果。

    如果这个模型足够稳定,那么人们也许可用它预测未来的气象风云了。

    Lorenz很意外的发现,尽管每次都输入同样的参数,但模型输出的结果每次都不同。换言之,该模型无法很好的预测未来气象。Lorenz后来发现了原因,原来计算机存储数据时,保留到小数点后6位,而Lorenz只输入了前三位。比如某个参数的初始值是0.293416,Lorenz输入了0.293,于是,这个细小的初始差异造成了下面的结果:

    点看全图

    外链图片需谨慎,可能会被源头改

    在图中,系统的某个初始值只发生了极微小的变异,这种差异的来源可能是完全随机的、无法预料的。起初,两次模拟的拟合度很高,几乎是重叠的线路,但是慢慢的开始分叉了,到最后,人们看到迥异的路径结果。

    在自然界尤其是人类社会这些复杂性系统之中,随机性因素引致的蝴蝶效应,对机械式的“决定论”提出了很大的质疑。但是,人们总是对随机现象视而不见,人们更愿相信,一件事的发生肯定有它的模式,肯定有一些“背后的理由”。

    这方面我最近读到一个很有趣的例子是二战时期,1944年,德国新研制的V-2火箭对伦敦进行大范围的袭击。这种火箭的速度极快,是音速五倍,还没听到火箭的呼啸声,火箭已击中目标了。

    V-2火箭在伦敦市民中制造了广泛恐慌。伦敦的报纸发布了火箭的落点地图:

    点看全图

    外链图片需谨慎,可能会被源头改

    这个火箭落点图看起来似乎有点规律。市民的猜测是,没有被火箭炸到的地方,也许是德国间谍活动的区域。军方的猜测则是,德国的轰炸重点是关键性的军事目标。

    1946年,二战结束之后,英国统计学家 Clarke对V-2火箭的落点做了一个研究。他把伦敦地图分割为576个小块,每块边长半公里。在这些小块里,有229个块区完全没遇到任何轰炸,而有8个块区被轰炸了4次以上。他的统计分析结论是,这份轰炸地图其实是遵循了随机性分布的原则,换言之,不存在任何有意义的轰炸模式。V-2火箭没炸到的229个块区并没有德国间谍,而被重复炸了4次的块区也不是什么重要的军事目标。

    与V-2火箭相仿的关于 “随机vs模式”的例子,是英国数学家George Spencer-Brown提出的一个模型。这个模型是一个计算机随机生成的数字序列,序列只有0和1 两个数字,类似于01001101010010111010……这样的没有任何规律的序列。

    但是,如果这个随机序列足够的长,例如数字的个数多达10的1百万次方,那在这个超长序列里,你至少将有机会看到10次漫长的0的出现,每一次漫长的0都有1百万个,连绵不断。

    想象一下你漫步于0和1的无规律交替的数字序列之中,突然间你遇到了1百万个连续的0,是什么感觉?

    你的第一印象很可能是,计算机程序搞错了吧,怎能出现这般有规律的分布?实际上计算机模拟的随机序列并没有出错,此间的关键点在于:一个完全随机的过程,在概率上是完全可能产生出“看来”极有规律的结果。

    当这种“有规律”的结果屡屡出现于人类生活各个层面,人们用各种理论和原因对这些现象进行事后解释,并且以为找到了因果律。人们总是遗漏一个简单的事实:某些规律只是随机性制造出来的幻觉,您以为看到了精妙的“凌波微步”,而真相也许只是踉跄的“醉汉漫步”。

    明白这个道理可帮我们看清一些社会问题。

    譬如在体育比赛中有一个有名的“热手效应”(hot hand effect),指某个运动员连续性的发挥优异。比如,在一场篮球赛里,某人连投连中,这时他的状态就被称作”hot hand”。

    人们普遍相信存在所谓的热手效应,这效应本身亦符合人类的常识:打球时突然感觉来了,怎么打怎么有,听来也属合理。况且,一个人发挥越好,同伴更愿传球给他,他的得分机会就会越大。

    1985年,美国的认知心理学家Tversky研究了棒球赛的球员得分序列,发现那些被称作“热手”的球员,其得分规律在统计上,与抛硬币产生的随机序列并无实质的差异。

    这个统计分析并不复杂,需要计算的是一个条件概率。这意思是,球员出现一次成功得分之后,下一次得分的概率有多高。该条件概率必须高于该球员的整体得分概率,才能证实热手效应。而Tversky的研究证明,尽管人们给热手效应赋予了许多看似合理的解释,实际上,这个效应只是一种假象。

    在金融和经济领域,亦有众多类似的热手假象。这些假象已经被许多的实证研究揭破。以股票基金的投资业绩为例,1991-1995年美国800家股票基金按相对获利能力排名,可以绘成如下表格。

    点看全图

    外链图片需谨慎,可能会被源头改

    此表取800个基金的平均收益率为横轴(0),左侧是高业绩基金,业绩高于均值。右侧是低业绩基金。

    时光回到91-95年间,高业绩基金的经理就像体育赛事的“热手“运动员,他们肯定能讲出许多成功之道,比如选股策略好、行业研究水平高、财务模型更准确、等等。

    同样800家基金,针对它们未来五年的真实业绩(1996-2000年),再绘一个图表,就变成这个面目皆非的样子。

    点看全图

    外链图片需谨慎,可能会被源头改

    显然,用基金的历史业绩预测它们的未来,一准儿要大面积的测错。大量的明星基金在未来五年的业绩很低,而曾经很差的基金,未来不乏成功者。简言之,历史上的高下秩序在未来的时空全部土崩瓦解,基金的业绩不存在统计意义上的规律,看来更像是一个醉汉的漫步,或曰一个随机的噪音。

    除了上面的社会现象,在微观个体的层面,一个人的生平际遇,也充满了随机性。下面这些文艺界大拿的怪事儿,个个都很寸,但这样的事情也同样会发生在普通人身上:

    - 乔治奥威尔的《动物庄园》成为世界名著之前,被美国出版商拒绝,理由是“美国没有人感兴趣买一本动物故事的书”。

    - JK Rowling的《哈利波特》第一部,被出版商拒绝了9次。

    - 美国法律小说大腕John Grisham的《A Time to Kill》成为畅销书之前被拒绝27次。

    - John Kennedy Toole写的《A Confederacy of Dunces》被拒N次之后,看不到前途,选择了自杀。书稿被他母亲保留11年后出版,获得普利策奖,卖出了2百万册。

    我最近常听到一句话是“人最重要的是向前看”,一个人不能总被过去的生活困扰。我们的一生遭际可能更像一个醉汉踉踉跄跄的步伐,无从预测踩在何方。历史的轨迹也并没有我们想的那么重要,一个人的过去不管如何曲折变幻,对未来的生活都没有指导意义。

    人生到处知何似,应似飞鸿踏雪泥。--- 东坡先生早就看透了。

    通宝推:上善若水,逐水而行,柠檬籽儿,胡丹青,混天球,上古神兵,铁手,阿辉1,玉垒关2,伏波将军,方恨少,muilho,shuzhu,渡泸,弦音醉舸,all4fun,仲明,旷野风,bluesknight,舍瓦,钓者任公子,amazon,切地雷,夜如何其,短刀,从头开始,冰雪迎梅,山有木兮,联储主席,bayerno,
    • 家园 这本书还提到美国司法系统的本质

      书里提到哈佛大学法学院教授、辛普森的辩护律师Alan Dershowitz曾说过:“法庭宣誓——‘陈述事实、事实之全部以及仅仅事实’——只适用于证人。辩护律师、检察官和法官都不用进行这个宣誓……事实上,可以很公平地说,美国司法系统是建立在不说出全部事实的基础之上。”

    • 家园 是否是随机也得看分析

      当多种因素混杂出现的时候事物的分布更容易呈现随机的状态,但仔细分析之后,往往存在个别变量是产生影响。这些年来数据挖掘就致力于发掘出相关的联系。

      举个例子,曾经有个模型是模拟46个美国城市的死亡率和空气质量的关系,其中列出空气悬浮颗粒,硫的含量,老人数量,低收入人口比例,人口密度作为变量

      统一的看,死亡率是正态分布的,而且测试是符合这个结论。但具体分析之后,得出的结论是硫和悬浮颗粒几乎没有影响,人口密度少量影响,老年人口比例影响较大,但低收入人口比例高反而死亡率低的结论。

      这些变量的影响相对于模型方程前的常数项相比太小,所以容易被忽视,但又是真实存在的

    • 家园 文章写得很好

      哲学上还有一个自由意志的问题,与这个决定论和随机论的争议类似。这些事情要是想得越深就越觉得人其实是个挺没意思的过程,呵呵。

    • 家园 喜欢这样的小文章

      写得好,受教了。

    • 家园 有个小错误。

      文章第15段

      “Lorenz很意外的发现,尽管每次都输入同样的参数,但模型输出的结果每次都不同。。。”

      出错了!

      Lorenz系统里面同样参数,输出的结果是一样的。但是输入参数有微小差别的时候,结果却会有显著不同。

    • 家园 有关蝴蝶效应与战争的导火线

      蝴蝶效应其实很多人都津津乐道的提及,所谓一只亚马逊河的蝴蝶扇扇翅膀给墨西哥湾带来一场飓风。这种说法古已有之,例如英语小诗,一个马蹄铁带来一场战争的失败。

      个人认为,重要的不在于初始值,不在于这些微小的变动。真正重要的在于那场飓风的背后可能是大西洋赤道地区长期日照带来的丰沛水热。即使没有那个蝴蝶,也会有其他的因素跑出来,比如一个椰子掉下来之类的。所以,我们要看重的也是这些大的方面。例如气象学家在预测厄尔尼诺现象时,能知道今年有没有这个问题,但往往很难预料具体几点几分发生,就是在于知道客观条件具备产生厄尔尼诺现象,也能预测大概的时间范围,水热什么时候能积聚到什么水平,但是具体的什么时刻发生,由于不知道会由什么触发所以无法预料。

      记得淮夷看过一本书讲到许多的自然灾害都符合幂率,我觉得那本书很好,地震源于地壳应力积聚到一定程度由于一个小地方先破裂造成全面的撕裂(也许不过是一颗小树的生长);雪崩源于长期的积雪压力使某个地方积雪先开始滑动(人们的对付办法就是某时没有人时,在可能雪崩的地方《积雪最厚,或最不稳定的地方》引爆一个小炸弹,也许也可以这样对付大地震)这样一来,滑雪场可以尽可能的避免大型雪崩,但是小型的仍然无法避免。另外,黄石公园的大火也源于常年防火作的好,公园里留下了大量的可燃物质,最后成就一场空前的大火。

      第一次世界大战虽说是萨拉热窝的刺杀为导火索,但是背后的两方的对立岂是一天两天,整军备战难道一月两月。其实一场大战不可能就是一件小小的事情就能引发,大家完全可以看到力量积蓄的时段,当积蓄到一定时间,必然爆发,不可避免。

      说句不好听的话,朝鲜的小金正在坐立不安,手里的镇压力量是否听话,是不是要改革开放,开放后带来的力量释放自己能不能控制。看到这里不禁对邓公十分的崇敬,当年对文革的怨气冲天,居然最后进行了可控的发展。但是多年的经济发展,政治结构对经济基础的不适应是越来越明显了,社会的怨气逐渐提高,基尼系数那么高。上层都看出来政治改革不改不行,但是怎么改,弄得不好共产党灰飞烟灭不过是顷刻的事情,但是怕最怕不是共产党的倒台,是这股力量的破坏使经济发展倒退,人的生活水平下降,俄国休克殷鉴不远。

      结论就是我十分希望改良,用胡适的话说:少谈些主义,多研究问题。慢慢的一步步地来,可以慢千万千万不能停步,不能乱。只要最后把积下的怨气消解了,中国就好了。千万不能听那些自由派,天天高喊着民主自由,不解决问题,以为民主自由一抓就灵,素不知别有用心的人充斥其间,有些人真正希望的不过是搞乱国家,不是希望把国有资产划到自己的手里就是希望崩溃的中国无法追究自己先前侵吞的民脂民膏。

      通宝推:不远攸高,njyd,从头开始,淮夷,弦音醉舸,铁手,赫然,
      • 家园 花!

        见虑深远

      • 家园 这两本书都是物理学家写的

        两本书的叙述角度有一些重叠,但是重点是不太一样的,一个偏重于随机因素对社会进程的普遍性影响(此书),另一个是偏重于社会进程中重大事件遵循power law的分布规律(那本书叫《Ubiquity》)。

        我觉得两者并无矛盾。两本书都体现了未来的不可预测性。就像我曾用的例子,一粒沙子足以一场雪崩,虽然人们大概能预测到雪崩发生的规模和对应的频率分布,但是人们永远无法预见到下一次雪崩发生的时间。人们也同样无法预测到底哪个人,哪件事,是造成崩盘的那一粒沙。

        • 家园 其实就是临界现象

          在自然界或人类社会演化到一定的阶段,就会进入所谓自组织临界状态。这时没有特征尺度或特征时间。随机事件发生的概率分布不是常见的正态分布,而是服从幂律分布。但是,最近有人研究重大灾难的发生,比如大地震等,发现有所谓的对数周期律,可以一定程度上预测(其实很多时候是事后拟合)大灾难的发生。这是当前物理学研究的热点之一。

          对了,这种方法还可以用来预测股市泡沫的破灭。结果还不坏。

      • 家园 大趋势和小节

        这个角度有意思。

        好比一条河流,这里面的水各自有各自的运动,但是我们看到的是整个河流的流动方向。

        也就是说,蝴蝶的翅膀和风暴之间的关系,是决定性作用,还是只是参与其中的作用,有它没它并不会有决定性的改变?

        还是以河流和河流中的水来说。从一个角度来说,可以说其中的一个水分子的运动决定了河流的运动,但是从另外一个角度来说,有没有这个水分子,河流的运动并不会受到影响。

        这么一想,豁然开朗。

    • 家园 好文章

      Polanyi在Personal Knowledge里面也说过,如果一个人看到一排石子组成了一个字,肯定就会觉得这是有人刻意摆好的,理由就是石子随机排成这个样子的几率太小了。实际上,即使那堆石子没有排列成什么有意义的图案,其随机排成任何一个具体图案的几率也同样小,那么面对任何图案,人们都有同样理由相信这是有人刻意摆好的。由此他引出了Personal Knowledge的概念。

      关于马尔可夫过程,就是一种无记忆的过程。有意思的是,人们往往不得不对付非马尔可夫过程。有人曾经证明过,对于一个多变量的马尔可夫过程,如果由于某种原因,人们不得不只关注其中的几个变量,而把剩余变量的影响作为“环境”处理,用数学的话说就是把那些多余变量“积分”出去,就会得到一个非马尔可夫过程。

      还有人研究隐含马尔可夫过程,大概就是如果不能很好的解释观察到的现象比如A->B,就假设这里有一定数量的中间步骤,比如A->C->D->B。虽然我们不知道C和D是什么,但这里的每一步都是马尔可夫过程。

      通宝推:铁手,
分页树展主题 · 全看 下页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河