西西河

主题:社会科学中的概率?读《直觉,固执,谋杀:三则故事》的困惑 -- 永远的幻想

共:💬21 🌺43 新:
分页树展主题 · 全看首页 上页
/ 2
下页 末页
  • 家园 社会科学中的概率?读《直觉,固执,谋杀:三则故事》的困惑

    今天看了一篇文章《直觉,固执,谋杀:三则故事》。百度上来看转载得还挺多,找不到原作了。可是我越看越糊涂,是我的概率论学得不好?还是文科领域的思路和工科完全不同?首先是原文:(其他都是blog为主,找个Google的)

    外链出处

    俺逐个评论下:

    最在日常生活中也有类似的现象。当某人向你讲述一件事时,他讲的细节越多,你越容易相信他讲的是真的。但是,细节越多,可能意味着这些细节同时发生的可能性越小,所以他讲的事越不可能是真的(当然,这些细节必须相互联系,你才会信以为真。所以他们之间不是互不相干“相互独立”的,但是这些联系是你做为听者自己加进去的)。

    简评:这则故事被用来说明古典概率论无法解释人类的决策过程,在起点和直觉上就可能错的离谱。这个实验是Tversky 和 Kahneman 1974年做的,后者后来得了诺贝尔经济学奖,前者本来应该分享这一殊荣,可惜没能活到得奖那天。这里的表述转引自以色列教授Itzhak Gilboa的著作《Theory of Decision under Uncertainty》, 这本书极好。

    —————幻批:———————

    没这么玄乎吧:

    用逻辑学的说法就是内涵越丰富,外延越狭窄的道理。

    用机器学习的观点,对目标“描述越多”,意味着样本维数越高,那么有限的训练样本在整个样本空间中就会越稀疏,也就意味着只是“沧海一粟”,会影响泛化性能。这就是“维数灾难”。

    用数据挖掘里常用在购物篮分析的Apriori算法里的概念来说就是:confidence高的模式,support不高(出现的频数不高)

    ——至于人相不相信,本来就和概率无关。人本就不是时时事事都理性的,别忘了人还有很大的情绪因素呢。

    简评:这个故事更像个笑话,不过它揭示了个道理:第一印象是很难改变的。第一印象一旦形成就很难彻底消除,以后就算接受了新信息,也往往不过是基于这第一印象进行调整。用现在流行的术语,这叫“锚效果”,第一印象就像一只锚,一旦抛下,很难撼动根本。用贝叶斯的理论说,如果这第一印象(先验概率)很强的话,要消除它或者大幅度的修正它,需要很多很强的新信息。

    又有问题了,说“第一印象”是先验Prior是不对的。先验是描述事情发生的“固有”概率,比如正常硬币投出每一面的概率是0.5,而一个某面磨损了的硬币可能就是0.51/0.49。做预测或者分类的时候,先验通常是很难得到的,一般都要有背景知识了。所以通常假设先验是相等的,用样本估计条件概率,也就是似然likehood,然后去根据后验概率进行判别。

    如果硬要用统计学的观点来说的话,是你之前在很少的样本“训练”的算法(例如得到的似然),就固定下来了,没有用后来的很多样本去不断训练算法,所以不能描述在大样本下的性质,说白了就是盲人摸象了。原因么,一个是算法的泛化能力不行,第二 算法的训练过程不是online和incremental式的。这种问题在机器视觉、目标跟踪里是常有的事,修正老的也不见得需要“很多很强的新信息”,实时性能满足的话,经常用新样本训练,经常遗忘老就行了,但绝对扯不到先验上。

    为了证明辛普森有罪并给陪审团留下他杀妻的印象,检方举证说辛普森之前有家庭暴力行为,而“扇耳光是谋杀的前奏”。但辛普森的辩护律师说,检方不过是在误导陪审团。辩护律师说:截至1992年,美国每年有400万女性被丈夫或男友打过,但是根据FBI的报告,其中只有1432人被丈夫或男友杀死,这概率大概2800分之一。怎么能用这么小的概率来推理呢?

    这个辩护看起来很有说服力,但实际上完全与案件无关。问题根本不在于打过女人的男人有多大可能性杀死这女人(这概率,如上所述,是2800分之一),而在于被打过且被杀死的女人中,有多少死于打过她的人之手?这后者的概率,根据1993年的美国犯罪报告,是90%。在辛普森案中,检方从来没提起过90%这个数字,显然中了辩方的招。

    —————幻批:———————

    最后一个事情一开始我也糊涂了

    最后想清楚了,定罪需要得到是P(被告杀妻|被告打过妻子) 高,

    P(被告杀妻|被告打过妻子) = P(被告打过且杀了妻子)/P(被告打过妻子)

    而检方已经指出P(被告打过妻子) = 1 那么焦点就在于P(被告打过且杀了妻子)。

    被告给出的是历史统计数字P(男方打过妻子且男方杀妻) = 1432/(家庭总数)

    但是问题在于 历史上的P(男方打过妻子且男方杀妻) 能否等同于现在这个案子的P(被告打过且杀了妻子)?

    注意这里的历史统计数据,不是针对的被告,而是其他人。把人看成随机变量的话,也就是说针对的是N多个随机变量,而不是被告这1个,这也就是集合平均而非对被告的时间平均,也就是“各态历经性”的问题。

    这问题就大了:

    第一,首先能不能说所有的人都是服从同分布的随机变量?我没学过测度论下的现代概率论,所以不懂这个怎么证明。

    第二,即便你证明第一点成立,那么你怎么说明各态历经性的?

    第三,即使各态历经性就算成立,那还有“平稳性”问题呢!也就是随着时间推移,随机变量的分布会变化吗?比如周处除三害的故事,周处之前是无恶不作没错,但是人家一旦幡然悔悟,就变好了啊!以后出了坏事,你还用老眼光,根据历史数据说还是人家干的?

    所以,我要是法官,干脆就根本别扯出概率统计的问题。直接拿出指纹啊,血迹啊这样的实证来!P(苦主死亡|被告行为) = 1的证据来。

    至于那个90%就更莫名奇妙了,统计口径是所有女人VS各种凶手,而非限定于家庭成员。而本案明明已经是针对家庭成员了,那么即使上面三个假设都成立,可以用统计数字来说论证犯罪的话,人家那个P(男方打过妻子且男方杀妻) = 1432/(家庭总数)显然比这个90%的说服力要高得多。

    简评:我做过两学期初等概率论和统计学的助教,讲辅导课时,条件概率和贝叶斯定理很难教。我相信这些概念和推理是合乎逻辑的,但我也相信它们和人类直觉相悖,人通常不这么思考问题,人很容易被愚弄。

    这个作者到底咋理解“先验概率”、“贝叶斯公式”的

    我不懂法律界是怎么理解和使用概率统计的,但是作为一个整天用统计学做数据挖掘、机器学习的人来说,几乎看到的各种文章里都在和条件概率打交道,贝叶斯推断好像不是作者理解的这样的……。

    ——————

    听人建议,把标题中“文科”换成“社会科学”,字数限制了-_-!。

    关键词(Tags): #概率#统计#先验元宝推荐:游识猷,
    • 家园 我是搞经济学的

      最在日常生活中也有类似的现象。当某人向你讲述一件事时,他讲的细节越多,你越容易相信他讲的是真的。但是,细节越多,可能意味着这些细节同时发生的可能性越小,所以他讲的事越不可能是真的(当然,这些细节必须相互联系,你才会信以为真。所以他们之间不是互不相干“相互独立”的,但是这些联系是你做为听者自己加进去的)。

      这一段是胡说。照这个逻辑,你用电脑生成了N个随机数。你一个朋友向你要这N个数据,照这篇文章的说法,已知你给了你朋友数据,如果N越大你就越有可能说谎了。

      这个推理要成立,必须是你同时知道这些细节的概率随细节数量的增加而降低。但是,我觉得这个假设没什么道理。

      关于Prior,这涉及到概率的定义以及哲学含义。对于这个问题已经争论200多年了,现在也没有定论。关于概率定义主要有两派:客观概率和主观概率。你是搞自然科学的,很容易接受客观概率,比如说,扔筛子出现任何一面的概率是六分之一。这个概率是现实存在的。就Prior而说,就是以前的观测数据来建立的。但是,用这个定义,概率的运用范围较窄,比如赌博,中国队同巴西队交手,中国队胜的概率是多大,比如美国联邦储备委员会需要决定未来12个之内出现通货膨胀的概率有多大,这些按照客观概率的定义是不存在的。而按照主管概率来说,概率是人对世界不确定性的看法。当然如果这些看法要合乎逻辑,consistent的话,Savage证明这些概率必须同样满足所有客观概率必须满足的性质,比如A和B独立, 那么P(A和B)=P(A)P(B)等等。因此数学上来说,主观与客观概率没有区别,但是在定义理解,以及应用方面,差别很大。

      现代的统计理论,在相当程度上是决策理论。也就是说,在已知信息情况下,最优的决策(estimator)是什么。但是在量化的数据之外,我们还有许多知识,信息不能被量化,但是这些信息知识明显和决策有关,在Bayesian Statisics里面,用来model这些信息知识的就是Prior。比如你在日常生活中,已经有许多种族歧视的经历,因此在你搜集数据研究种族歧视问题之前,你已经对这个问题有了一定的知识,但是这些知识不能直接进入你的概率模型(likelihood function),而是你用它们建立起你的Prior。通过Prior进入最后的决策。这里的Prior就是一个主观概率。如果你认为这种使用概率的方法是不对的,那只能到此为止。我前面说了,这个问题已经争论了二百年了,现在也没有结论。

      回到你的文章,将“第一印象”问题等同于Prior是不对的。第一印象是说,先入为主,结论是和信息的顺序有关。这在Bayesian Statistics里也是不可能的。我们能够在现实世界中观测到这种现象,只能归结到人行为的非理性。

      Savage证明,如果人的行为是理性(consistent)的话,它必须满足贝叶斯法则。即使他们没有conciously运用贝叶斯法则,只要他们是理性的话,他们的行为就看起来象在使用。因此,只要我们认为法官或陪审团是理性的,使用贝叶斯法则分析他们的行为是可以的。

      注意这里的历史统计数据,不是针对的被告,而是其他人

      这就涉及到统计运用的核心问题。我们都是默认假设历史上以及其他类似问题的数据同我们现在处理的问题有关。比如美国联邦储备委员会总是假设美国历史上历次经济衰退的经济表现,其他国家金融危机后的经济表现会给现在的经济问题提供一定的指示。你当然总可以argue这次金融危机是彻底的structural break。以前的任何信息都没有任何价值了,但那样的话,统计学就没有存在的必要了。

      元宝推荐:游识猷,
      • 家园 同意关于prior的看法

        楼主的岐见和定义有关。

        从应用角度说,第一印象也不一定是非理性的结果,比如法庭上被告的第一印象给人以粗鲁/野蛮的感觉,而“粗鲁野蛮”和“有罪”之间的关系,由以前的经验已经给了法官“罪行成立概率大”的判断,后面被告要证明自己无罪就要付出更多的努力,这也不能说是非理性的结果。

        这说明人的行为概率可以被诱导而改变。

        楼主所引第一个故事中,人们犯错,也是诱导的结果:给出很多社会活动背景资料,然后直接给出两个选择哪个可能性高:A.出纳员 B.出纳员和女权主义者,相信也有人也会被诱导而犯错,选项越多,被诱导的可能性越大。

        我觉得可能要思考另外一个问题:理性不等于不犯错。理性是逻辑链条的延伸,是思考活动本身,而犯错不犯错是有一个标准答案在上面做判断的,是思考活动的结果,所以,对具体的应用来说,因为有一个预想的观察目的在,可能用犯错不犯错或者行动的是与否的概念,取代理性非理性的概念,可能可以简化问题。我不是搞这个的,浅陋之处见笑了。

    • 家园 提一點淺見

      細細看過幻兄對這三個故事的評判,鄙人作為概率統計和機器學習剛剛入門的小生,針對幻兄的三個評論提一點反對意見,以供探討。

      第一個故事:

      幻兄在評論中提到了邏輯和機器學習的觀點,小生愚鈍,不甚理解這兩點與幻兄的觀點以及原先的故事有何以類比的地方,鄙人需要進一步學習。但是幻兄提到:

      至于人相不相信,本来就和概率无关

      小生認為此言認為有失偏頗。概率本身作為一個主觀的事情,是主體會依照事實的出現不斷進行修正的,這一點看來和人如何相信不相信一件事情是一致的,人相信不相信一件事情,決定於他看到了什麼事件,也就是說這是一種條件概率,或者言是后驗概率。從例子中說,描述人對一個女人一些性質的可能性的心理相信成都,決定於P(性質|[題目中出現的條件&性質]),而不是P(性質):

      S: 題目中出現的各種條件

      顯然,多數人認為 P(C|[C&S]) > P([H=C&F]|[H&S=C&F&S]) > P(F|[F&S]),並且同概率論可能並不矛盾(需要進一步探討?)

      小生淺見,這則故事的實際意思是,P(H)=P(C&F)=P(C)*P(F)的絕對概率表述的定理不能簡單地應用於人對一件事情是否發生概率的理解,因為事情的關鍵還需要對各種條件的概率考量,並且需要考慮后驗,並不能說概率論在描述人是否相信一件事情上就是無效的。

      第二個故事:

      幻兄言:

      先验是描述事情发生的“固有”概率

      小生雖然愚鈍,但是對於這一點是非常反對的,因為幻兄將概率無條件客觀化了,然而概率論的主觀和客觀問題至今小生沒有太多的知曉(是否世界上的數學家們依舊在爭論這個問題?),但是小生淺見,概率的純客觀性本身就是錯誤的。小生對於先驗的理解,是主體主觀相信事件發生的概率(一個主觀定義),對於先驗的修正,靠的是貝葉斯:

      P(H|T) = P(T|H)*P(T) / P(H)

      如果發生的T不強烈,即沒有P(T)幾乎為1的事件發生,則T的發生對P(H|T)的修正作用是較少的,我想這個大概是原故事想要說明的問題罷。

      第三個故事:

      最后想清楚了,定罪需要得到是P(被告杀妻|被告打过妻子) 高

      鄙人認為可能不是如此。定罪需要得到的不是P(被告殺妻|被告打過妻子)的值,否則便可能忽略了“被告的妻子已經被殺”這一立案條件了。鄙人淺見,定罪需要的是P(被告殺妻|[被告打過妻子&妻子已死]),在這種情況下,可以用P(丈夫殺妻|[丈夫打過妻子&妻子已死])來估計,並且在可能的情況下可以算得此估計的置信區間。如果置信區間足夠小,那麼P(被告殺妻|[被告打過妻子&妻子已死])便可能是正確而可能作為定罪考量的。

      以上均是小生淺見,請多多包涵~~

    • 家园 我的看法

      1. 原来的实验,说明人决策过程的非理性。

      这种非理性用统计知识也许可以看得更清楚,但无法完全靠统计学来解释。实际上,能用统计学解释的,也就不是非理性了。原文喜欢把任何东西都往自己专业上扯,我同意这个问题扯的不是太有意思。

      2. 这一段我觉得很有意思。第一印象当成 prior,似乎没有什么问题,本来就是这个意思吧?你大概是平时工作中等可能的情况用到得太多了,没多想 prior 到底是什么意思。

      3. 我觉得是这样,P(老公是凶手|老公平时打老婆, 老婆被谋杀)=0.9

      这样就比较说的通。

      当然,不意味着这个推断就一点没问题。比方说,这个统计肯定是破获案件当中的,否则,我才不信主妇谋杀案的破获率有90%以上。那么,老公是凶手占了九成以上,很可能是因为这样的案子比较好破吧。

      刑事案件是否应该使用概率?我想,实际人的决策过程,可能还是和这个有关。但是从表面上来看,你肯定找不到一点点痕迹,法律的权威需要靠文字的严密表达来建立,统计学是不行的。

    • 家园 修正一下

      标题里提到了“文科中的概率统计”,其实更准确的提法应该是“社会科学中的”,前者说的是文学历史和哲学,而社会学科研究的是人的社会活动的基本规律。人的行为有规律吗,应该有,尤其是一些基本的简单的决策,或者,作为一个群体的宏观规律。但琢磨这些规律还真不是那么容易直观的,听起来和二十世纪前期的物理学有点相似,微观尺度的牛顿定律和宏观尺度的统计热力学,但是,把分子替换成决策人以后事情就完全不同了。只有在很局限的一个范围里的行为我们有把握说一些规律是存在且稳定的,而人是多么的不可捉摸(这样这个世界才更有趣不是吗)!

      作为一个个人,可能会本能地不喜欢墨守成规,刻意地反统计规律也是一种可以理解的心态。这可怎么算计进去啊。所以我一直说,做经济学理论的人,首先要谦虚,能琢磨清楚人的行为的一小部分秘密就很让人满足了。

      • 家园 标题改了。花谢

        嗯,西方在人文领域的数学应用是越来越多,确实无愧“社会科学”的名字。欢迎搞社会科学都来说说这个问题。

        原作者的意思倒也不是想反统计学规律吧,其实理工科的人是“迷信”统计规律还差不多。

        讨论的只是在社会科学中统计规律该怎么用,用到什么程度的问题。

        比如判案这种事,是对“已经发生”的1次犯罪进行审理。而不是推断如果这个人以后再去“随机试验”N次,其中犯罪的概率。这种情况下能用历史上别人犯罪的统计来推定这次的这个人的情况么?

        能不能就肯定说,每个人都是一个同分布的随机样本

        我在主帖里的类似问题好像有点无厘头,但是不把这些前提条件夯实,统计学还真是不敢乱用啊。

    • 家园 锚效应是股市做庄的基础

      没有广大散户们的脑子被锚误导,就没有庄家挣的这许多钱。

      前几天听说一个朋友紫金矿业在12块,天花板上进的货,到现在还捂着……计算机系的phd,IQ120比我高很多的家伙……

    • 家园 有一门学科叫犯罪统计学,

      即用数理统计学的原理和方法,应用于犯罪、刑罚相关数据的搜集、整理、分析,目的是希望找到规律,可以用于预测和预防。美国这方面做得很好,我有一个朋友就在美国某个犯罪学学院教统计,她的研究课题是美国不同族裔人群的犯罪趋势和概率。但是她也承认,统计结果很难用于预测,因为人的构成和行为太过复杂,影响因子太多。

      辛普森杀妻案中引用统计数据,如楼下小巴所说,是为了影响陪审团的自由心证。统计数据本身不会也不能用作定罪的证据。其实在美国证据法律体系下,控辩双方在什么情况下可以引用统计数据或其他研究资料都有严格的规则指引,若控辩双方违反相关的证据法律规则予以引用,法官通常要对陪审团说明该引述无效,不得作为证据考虑。但是很多律师在明知违反证据规则的情况下,亦会引述对己方有利的相关说法和数据,试图以此来影响陪审团的倾向性。

      关键词(Tags): #法律
      • 家园 好象规则有两种?

        一种是红线,绝对不能cross的?不然就会被吊销执照/坐牢之类的

        比如说泄露应该保密的和客户对话内容

        另一种就可以经常穿一下,法官说不行再退回来?属于法庭技巧之类的?

        看了Justice和Shark,准备看完Boston Legal后再去看Practice。发现好多行业都是象记者一样把行规置于法律之上。听说有些州是法律规定心理咨询师在法庭要求下必须交出治疗信息,不知有没象记者宁可坐牢那样的案例。

        • 家园 这个说起来比较复杂,

          将来有机会来写一写美国的证据法,我自己很喜欢这门课。

          • 家园 哈哈,果然引来“玉”了!

            南方有嘉木 2010-07-21 18:40:20 3019601 复 3018548

            这个说起来比较复杂,

            将来有机会来写一写美国的证据法,我自己很喜欢这门课。

            嗯,能讲讲外国的法律界是怎么看待概率和统计的,确实挺有吸引力的。

            文债小的就先记下了

    • 家园 d
    • 家园 这个,

      检方是在影响陪审团。。。运用概率不是为了直接证明辛普森杀妻,而是影响陪审团的手段。。。

分页树展主题 · 全看首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河