西西河

主题:【原创】数字左右社会科学 -- 同人于野

共:💬59 🌺171 新:
分页树展主题 · 全看 下页
  • 家园 【原创】数字左右社会科学

    本文继续讨论社会科学的全面数字化,研究一些更有意思的话题。

      

      前文贴出以后,我注意到有相当的人认为统计方法只是社会科学研究的一种补充手段。也就是说,你可能先有了对事情因果的一个估计,然后用统计方法去证明你的理论。而今天社会科学的发展恰恰正在证明,这种认识是错误的。不是有了理论去找数字,而是数字提供理论。

      

      一个最简单的例子是预测红酒的质量。买新产的红酒堪称是一种风险投资。

      

      一瓶红酒日久以后能不能好喝,能不能卖上好价钱,在它刚刚被酿造出来的时候谁也不知道。新产的红酒,跟这瓶酒十年以后会是什么味道,有什么关系谁也说不清楚,最资深的酿酒专家也不能给出恰当的预测。然而一个叫 Orley Ashenfelter 老兄,其本人根本不是酿酒专家,发明了一个通过葡萄生长环境的降水量和温度预测未来红酒价格的公式:

      

       红酒质量 = 12.145 + 0.0017×冬季降水量 + 0.0614×葡萄生长期平均温度 - 0.00386×葡萄收获期降水量

      

      学物理的人会马上注意到这个公式连量纲都不对。红酒专家会愤怒的发现公式里面居然不包括酒的酿造方法,与具体的酿酒厂无关。

      

      Ashenfelter 的做法是对法国两个地区从1952年到1980年的数据进行统计分析,找到真正左右红酒质量的因素。他可能输入了一百个可能左右红酒质量的随机变量,统计分析的结果却是,只有冬季降水量,生长期温度,和收获期降水量这三个因素起到决定性的作用,其他的都可以忽略。

      

      这个公式相当成功。(根据这个公式,1989和1990这两年产的法国红酒质量是最好的,其中1990的更好。)可以想象传统的专家会多么反对这个公式,他甚至不知道怎么酿造红酒,居然就能预测质量?Ashenfelter 饱受攻击,但事实胜于雄辩,此事的结果是 Ashenfelter 于2006年开始办了一本杂志:Journal of Wine Economics.

      

      传统专家总是看不上统计方法,然而事实证明,统计方法总是战胜传统专家。两位 super crunchers,Andrew Martin 和 Kevin Quinn,宣称他们可以根据几个变量来预测最高法院的法官们的投票结果。宾大法律教授传统专家 Ted Ruger 看不过去,双方比赛。一方是统计方法,另一方是83人组成的法律专家团,预测题目是2002年的最高法院表决。比赛背后的深刻内涵是,法律到底是逻辑的,还是只不过是经验的?使用统计方法的"非专家"们通过分析628个历史案例,给每个法官画了 decision tree 流程图!结果统计方法的预测成功率是75%,而专家团只有59.1%。

      

      用统计方法得出的结论往往是非直觉的,往往与人们以往的信念相左,得到的结论常常很难让人接受。

      

      我们都记得《华氏911》这个纪录片里面 9/11当天,布什在Emma E. Booker 小学"愚蠢地"听课的情景吧。其实他当时正在视察一种极其高效但是极有争议的教学方法:"Direct Instruction" (DI)。这是被统计证明有效,却难以被社会接受的另一个例子。

      

      DI 教学要求教师按照固定剧本教课。老师说的每一句话,对学生的每一个指令,都在教学手册上(甚至包括"Good morning class"这句)。其思想是把信息分为容易消化的小块,然后教的时候要确保每个小块信息都被学生吸收。每个学生每分钟会被要求最多 response 十次。做法是节奏要快,而所有学生齐声回答问题。每5到10个水平相近的学生一组,这样如果老师发现某个学生跟不上,就可以单独让他回答。这是最极致的填鸭式教育。显然,这种教和学非常消耗体力。

      

      DI 是1960年代被 Siegfried "Zig" Engelmann 发明的,他大概写了1000本这样的上课剧本。他拒绝了那些什么"以孩子为中心"之类的主流教育思想,因为他的数据统计证据显示,DI是最有效的方法。此方法是1967年美国政府组织的一个研究怎样更好的给穷孩子教育的大规模教育实验的产物。在17种教学方法中,DI 脱颖而出:在阅读,数学,拼写和语言方面都是 DI 孩子分数第一,而且还是遥遥领先。而且在解决复杂问题,比如猜测新单词的意思的能力方面,也是 DI 学生最强。甚至在自尊自信方面,DI 孩子也比"以孩子为中心"教学的孩子表现的好!而最新(1998,2006)的研究结果也证实 DI 的优势。DI 对帮助成绩差的学生,穷人学生,和少数民族学生特别有效。DI 对教师要求很低,普通老师都可以使用 DI 剧本教学生。

      

      你可以想象这种教法是多么的令人难以接受。长期以来我们不是都说要激发学生的创造力么?不都说要创造友好的教学环境么?事实上,教育界的人批评 DI,说它把老师变成机器人。老师们一开始都不喜欢 DI,有的甚至辞职,但是几个月以后的教学成果会打动他们。DI方法至今也没有真正得到广泛的支持,仍然饱受争议。

      

      让数字自己说话,才是真正的客观研究。以XX思想,XX主义去套的社会研究,不是真正的科学。为什么传统专家比不上统计方法?这是因为人类专家被认知失误和偏见所困扰。而不是因为人类专家不善于做算术:)

      

      - 人类倾向于过分关注不寻常的事件。比如《Freakonomics》这本书指出,大多数人认为家里有枪很危险,然而实际上是家里的游泳池比手枪对孩子危险100倍。

      

      - 我们还总是执着于错误的信念。当新的证据出现时,我们总是只乐于接受那些符合以前的信念的证据。

      

      当然传统专家的智慧不能完全被排除掉,这些智慧有助于我们去设计统计模型,比如说给哪些随机变量。但是二者的地位需要明确:传统智慧为模型服务,而不是模型为传统智慧服务。

      

      统计方法早就有了,但是直到今天才开始全面地从一个辅助工具反客为主,这主要归功于今天的海量数据和计算能力。那么现在既然拥有了这么强大的武器,我们的社会科学是否有什么特别重要的进展和发现呢?我自己的感觉是,此时此刻是社会科学全面发展的黄金时期。行为经济学,认知科学,实验心理学,这些学科的进步是神速的。可以说人从来没有像现在这样了解人。

      

      在所有这些使用统计方法得出的研究成果中,我最感兴趣的是"天才是怎么炼成的"这个研究。过去几年内,因为好几个团队是用统计方法的艰苦研究,这一领域获得了非常显著的进展。我最近正在研读几本书,之后可能会写篇文章专门讨论,也就是天才训练指南的升级版。

      

    元宝推荐:老马丁,

    本帖一共被 2 帖 引用 (帖内工具实现)
    • 家园 人类的思维路径是很奇怪的.

      就说加拿大这个大国寡民之国,参与阿富汗战争,总共死了一百八十多人. 每死一个兵,全国大媒体就要报告一下. 支持派和反对派闹得厉害.鸡飞狗跳的. 但是, 加拿大一年有三千人死于交通事故,伤者更多,却根本不在话下. 谁听见有人血泪控诉汽车杀人了么?

      原因何在?

      人们接受与否的问题. 人们普遍接受这事实,即交通事故死亡是交通之成本. 中国一年10万,美国一年3万, 这些人死得其所, 顺理顺气,死得太应该了.

      据说东莞一年有三千根手指头被切断.民工的手指头嘛,那是发展的成本. 顺理顺气,断得太应该了. 但要是放在文革时每年把走资派的手指头切掉三千根, 靠, 那还了得? (大家发挥想象力吧,俺不说了.) 比如某位网络名人回忆起他父母下乡改造累得腰椎毛病,那个痛心疾首啊,那个满腔幽冤啊...还有就是一部分人回忆当年下乡插队落户一样, 多大的委屈和痛苦啊. 我听他们忆苦思甜,好象那些出生在乡下的青年,一辈子种地累断腰的人是活该应该不值一提的.

      也许那些民工就是那个该死该受罪的命,连他们自己都相信, 所以.

    • 家园 这年头手段开始超越理论了

      前两天看NYTimes上登的,说Technology现在带领着Science在前进,很有意思,同仁应该去写篇读后感给大家看看。

    • 家园 赞同DI方法

      没有基础则无法创造。最高效率地填进去基础,才能有更多时间进行创作思维。

    • 家园 统计更能揭示出很多我们平常无法注意到的相关性

      统计揭示出事实本身。

      如何解释才是传统各类专家的事情。

      统计学是最有力的工具,无论各行各业。

    • 家园 上品好文!!先送花,今后再看!
    • 家园 大大地赞同DI方法

      并将指出,DI方法一定会是极受争议的,一定难以推广。

      因为从统计结果看,能学得好的只可能是极少数。

    • 家园 手枪和游泳池的例子属于因果颠倒了

      其实数学和书面语言都是交流和研究的工具,缺一不可

    • 家园 这个DI的可信性再次证明了中国传统教育的优越性……

      这个DI的可信性再次证明了中国传统教育的优越性……

    • 家园 不錯,

      統計方法越來越被廣泛的應用在科學研究中了。

      例如,在所謂“后基因組”時代,為了研究DNA序列上的變異(例如SNP)與疾病之間的關系,統計遺傳學方法已經成為最主要的方法。不過,這里有兩個問題需要大家注意:

      一是如何分劃統計樣本,同樣都是人,多多少少有些病癥出現,那么如何把這個總的population按照phenotype合理地分為兩類?如果病人不幸罹患多種病癥,如何合理采集樣本來使這些不確定因素的干擾達到最小?這在現實的操作中是一個很大的問題。因此,在具體的研究中,為了從權,往往通過調查一個家系(擁有相似的遺傳背景)來確定DNA上的與疾病相關(associate)的變異。但是,合適的遺傳病家系并不好找,因此是寶貴的資源。這也是為什么這樣的研究工作一般總是可以發表在頂尖雜志上的原因。另一方面,家系的population比較小,統計上的variation比較大,可能會有不確定的結果。一些非遺傳而又病癥明顯的疾病的采樣就好辦一些,例如老年癡呆或者帕金森氏綜合征,樣本數量可以達到幾千,那么結果就比較有說服力。

      另一個問題,一般我們找到一個變異說它和某個疾病有關聯,其實并非說有了這個變異就一定有病或注定發病。其實差距還是蠻遠的。一個變異與疾病有關的程度可以采用一個概率來描述。在老年癡呆的研究中,最最顯著的基因APOE的變異其實也只有4~20%的概率有病癥。這說明,對統計出來的結果的解釋,一定要非常小心謹慎,否則就會得出“太超過”的結論了

      說這兩點,主要還是希望使大家了解統計推斷的過程,以及在實際操作過程中可能會出現的問題。總之,就是要要慎重。

      • 家园 长见识了,

        不过, 楼主说的是social science, 而你说的是science.

    • 家园 对统计学持保留态度

      红酒的品质究竟和酿制方法有没有关系?看到数字计算能作结论吗?事实上,品质当然和酿制方法息息相关。用错误方法去酿制优质年份的葡萄,得到的产品必然不能遵循统计公式。所以,公式并不能从事实上回答红酒品质的问题,虽然它是一个有效的参考。

      法官的判决也是一个诡辩。法律是逻辑的,但是法官依据法律对案件的判决是经验的。对于证据证言的采信,对于量刑的考虑,只能依赖于人的社会阅历和法庭从业经验,假设法官们都熟背法典的话。在这样情况下,量体裁衣的做一份统计,当然比另外找一群人来隔着肚皮猜测大法官们的心思要有效,即使找来的人同样是法律专家。

      关于Direct Instruction的例子,在我看来,更多的是介绍了一个,高度细节化和剧本化的教学方法。它能够从多大程度上证明统计方法的优越性,令人怀疑。

      人类固然常常陷入旧有的模式,但是当灵光闪现和天才出现时,创造性地工作及被开展,而这正是对过往历史进行统计所不能预知的。

      再说两句外行话。现代自然科学,比如基础物理,已经很大程度上依赖于统计学 -- 不是以统计学为研究手段,而是用统计结论作为理论根据。我觉得这是一件让人沮丧的事情,虽然目前看起来无计可施。如果社会科学领域也走这么一条路,将几组数据计算收敛就能有效进行预测,那我们还有多大的热情去挖掘现象背后的成因?

      • 家园 浅见,统计只能提供相关,不能提供因果。因果还是逻辑上

        要讲的通的。

      • 家园 【讨论】但作者讲述的正是这么一个东西~

        红酒的品质究竟和酿制方法有没有关系?看到数字计算能作结论吗?事实上,品质当然和酿制方法息息相关。

        您这个事实上,在Orley Ashenfelter的眼里就不是事实.嗯,个人猜想是,酿制方法基本上是一个守恒的常数,(另外,不同年份之间的酿制方法的变动对红酒质量的影响的很小,以致于无法考虑进公式里)

        人类固然常常陷入旧有的模式,但是当灵光闪现和天才出现时,创造性地工作及被开展,而这正是对过往历史进行统计所不能预知的。

        灵感闪现的天才们自然是有,但统计也牵涉到一个置信度的问题.

        例如投机市场,人人都知道是随机游走的.但就是有那么极小一撮人在投机市场上长期而稳定的获利,这就是99%的置信度里那额外的1%的人.

分页树展主题 · 全看 下页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河