主题：【原创】社会科学的全面数字化 -- 同人于野

共:💬106 🌺360 🌵16 新:

老大河待整

【原创】社会科学的全面数字化

本文谈谈现代人，或者说现代的西方学者，是怎么研究社会科学的。在我国，常常是很多人因为感到数学不好学而去学社会科学，比如说去学法律。这样自然选择的结果是产生了一大批像李银河这样感情充沛而不切实际的所谓学者。然而现在最领先的西方学者已经抛弃了过去那一套抱着悲天悯人的心态空谈理论的研究方法。如果你去读他们的论文，你会发现其中到处都是图表和数学公式；如果你去观察他们的工作，你会发现他们大部分时间不是在写字，而是在编程。

法律领域内有一个非常经典的问题：给犯罪分子更长的刑期，是否会增强对他的改造，从而减少其出狱后的再犯罪率？在以往，人们可能会从伦理，道德，心理学的角度去分析这个问题。有的人可能会举出各种例子来证明他的论点，然而这些例子往往是非常极端而没有代表性的。这个问题直到最近才得到一个有说服力的答案。

耶鲁大学的Berube 和 Green 的研究完全基于数学统计。联邦法院总是随机的往不同的辖区派法官。有些法官倾向于重判，给长刑期；有些法官倾向于轻判，而随机过程决定了每个法官倾向于总体面对类似的案件。这样一来，可能完全相同的犯罪事实，有的犯罪分子比较幸运就获得了较短的刑期，而不幸的就会刑期较长。作者通过对一万多名犯罪分子记录的统计分析，结论是，刑期长短与再犯罪率无关。如果没有这样的统计数据，如果没有法官的随机指定，像这样的问题可能永远都无法解决。

统计是一个非常强大的研究社会问题的手段。NCAA篮球中有没有球队参与赌球？拉斯维加斯的一个赌博项目是每场比赛的胜负分差（Point Spread），也就是我们所常说的让多少球。比如宾夕法尼亚大学对哈佛大学，赌场开出的分差是14.5分，也就是说如果你押宾大，他们必须赢至少15分你才能赌赢。如果你考察每场比赛的实际分差，和赌场事先开出来的比赛分差，其相差值几乎完美地符合正态分布（平均值是0）。这样一来，正好有50%的时候，胜者实际赢了对手多少分比赌场预测值高，50%的时候比预测值低。也就是说赌博的赔率几乎是50％。这种50%概率正是赌场最喜欢的赌赢概率。

然而问题是，如果你考察那些胜负分差超过12分的场次，那么其分布就不是完美的正态分布了：有53%的机会，胜队实际取胜分差会比预测值低。为什么会出现这种情况？宾大学者 WOLFERS 猜测，当稳操胜券的时候，胜队会故意放水一点，去操纵比赛分差来影响赌局（术语叫做 Shave Points）。也就是说使用统计方法，你甚至不需要任何直接的证据就能发现有人参与赌博。

类似的手段可以应用几乎任何社会领域。比如说婚姻问题。传统的婚姻问题专家判断一对夫妇是否会离婚，成功率只有53%，只比瞎蒙高一点。而最新的方法，听一对夫妇之间的交谈15分钟，专家就有能以95%的准确率判断他们未来15年内会不会离婚。其所使用的方法，是给这15分钟的交谈录像，然后几个人坐下来看录像，一个画面一个画面的分析其中人物的细微表情和语言，然后把统计结果输入一个事先做好的复杂方程之中，这个方程会告诉你该夫妇离婚的可能性。这个方程是怎么设计出来的呢？用大量的数据回归出来的。

统计方法能够大行其道的根本原因是现在网路和计算机技术的提高，特别是便宜的海量存储给大量的数据分析提供了可能性。现在指导社会科学的先进文化是理工科思维，先进生产力是统计模型，计算机和海量的数据。

这种通过分析海量数据来预测和理解社会问题的方法被人称为 number crunching，现在甚至已经有了专业的公司专门为商业公司干这个事情来预测顾客行为。这样做的一个结果是商家可能比你自己更了解你。比如你从 Blockbuster 租了一盘 DVD，Blockbuster 可能比你更了解你不按时归还的概率。

一个典型的专业公司是 Teradata。它为65%的世界顶级零售商，70% 的航空公司，和40%的银行服务。他们的一个典型业务是判断哪些老顾客可能会因为一次不愉快的服务经历而离开你们公司。Continental Airlines 就专门有人做这个。比如一次航班误点或者行李丢失事件发生之后，如果统计分析系统判断某个长期顾客有可能要因此从此不飞 Continental 了，这位客户就会得到特别好的照顾。

甚至赌场也这么做。每一个顾客入场玩都刷卡。他们根据每一个顾客的收入，年龄，以往赌博记录，居住地等等计算该顾客的 pain point - 也就是此人一晚上最多输多少钱下次还能来玩。一旦发现某位顾客今晚输的钱已经接近 pain point 了，就会立即派服务员过去邀请他免费吃顿牛排停止赌博。

这件事情的最可怕前景是，商家将会可以根据顾客不同的价格承受能力，给每个顾客一个不同的价格。

传统的社会专家靠直觉，甚至是个人感情好恶来做研究，而未来属于数字。但我国在这方面可以说是相当落后。我国"主流经济学家"经常鄙视那些玩数学模型的海归，人们不习惯用数字说话。

更不利的一点是，我们可能根本就没有数字可以用。我国的统计水平可以说是极差，一个最基本的GDP数字居然都能随便变来变去。在这种情况下你怎么才能很好的做出决策？我们看NBA比赛，无不赞叹美国人对数字统计的热衷：这是他的这个赛季的第几个两双，如果他两双了球队获胜的概率是多少，等等等等。量化思维必须被培养成一种习惯。从这个角度讲，"吉尼斯世界纪录"的最大贡献可能是培养了人们尊重数字的习惯。

没有数字就没有真像。

本文素材主要来自两本书：Blink，作者是纽约人杂志的记者，和 Super Crunchers，作者是耶鲁法学院的教授，此人擅长用计算机做统计研究。

通宝推：活在当下,

本帖一共被 5 帖引用 (帖内工具实现)

先花后看，欢迎归来

咦，回到新兵了？

借你的题，发我的货。文责不负，其奈我何？

我有一段时间极其崇拜王晓波，买了市面上所有王的书，爱屋及乌之下也买了不少李银河的书。什么虐恋、同性恋、中国女性的感情和性。。。。恶补了一把性知识。这些书有个共同特点：在我的书架上待不了多久很快被借走。李的书里还是有问卷调查、数据分析的，当然从数学的技术上看比较初级、工具不强。她从事的研究在中国也不容易搞，人有几分迂腐，活的挺累。李翻译的“O的故事”文笔极好，甚至能嗅到外文原文的韵味，是下了功夫的，推荐同志们学习。如果在数学方面没有开窍，社会科学工作者大概也就只能作到这样了。李还是比较可以的，至少保持了基本诚实，资金充足的话应该也可以做不少有价值的工作。社会科学工作者拥有良好的数学素养－这种好事需要大环境。

我有另一段时间，极其崇拜黄仁宇。除了《明代财政XXXX》，我购买了他市面上所有的书，这些书不大有朋友借。我的看法，黄在精神上，可能没有意识到，已经开始用数学方法研究历史，只苦于不懂现代数学，也缺乏这样大尺度、大纵深的数据。从作论文的角度看费正清的意见是对的，“选题太大，退回重新开题”。Anyway，黄很多提法流于模糊的推测和别扭的新概念，“大历史”，应该是一个大数学模型、一组方程的意思？“不能从数目字上管理”，应该是缺乏有效观察、数据统计和输入－输出控制的意思？大体黄的书关键处有些不清不楚，但是格局很大、气氛很高，体现出天分、经历、性格的力量。因此，黄还是有意思的，普通历史学家就缺点意思，还在黑暗中。另外，《黄河青山》里有些事实很震动人，体现了这样一句名言：“对某件事情，如果我们能说出一些数字，说明我们对它有一些了解，反之说明我们对它没有了解”。我记得的有这样一个比较数据：蒋介石领导下的中国某种钢材一年的产量＝日本帝国一天的产量。根据这一数据，基于我几近于零的军事知识，我得出结论：中国不可能战胜日本、或其它工业化列强。从上述结论，我得出推论：近代中国的命运必然由外部主宰。有了这一推论，补充如下实事：近代列强莫不欺负中国，但由于地缘关系，其中只有两个国家对中国有领土野心，大家猜猜是哪两个？有上述推论和实事，我得出定理：近代中国的命运，或者受控于日本、或者受控于俄国。有上述定理，补充等式：在国家利益方面俄国＝苏联。。。。。。这个过程有点夸张，但数据和常识确实在缺少正确引导的大环境下改变过我对现代史的看法。

我现在崇拜西西河很多人，自从读了分形历史学之后，我对同人同志颇为崇拜，因此请将尊臀洗净，让我一脚、加上同志们许多脚把你踢出新兵营。

已经过了睡觉时间，离题万里，并且已经谈到了日本，索性扯得更远一点谈谈对南京大屠杀的假设？

算了，睡觉。

关键词(Tags): #李银河，#黄仁宇，#社会科学，

复【原创】社会科学的全面数字化

家园

支持数据统计

总有一天我会再开一个大坑从心理学来分析这个的

最近的工作就是和这有关的

真的觉得没有什么是不能统计的，只是在于你的模型是否是拥有可靠的基础，即是否是建立在足够的数据量上。

复【原创】社会科学的全面数字化

家园

这两本书有电子版么

-- 系统屏蔽 --。

复【原创】社会科学的全面数字化

家园

社会科学数字化的困难

在于人类社会的复杂性跟从之而来的实验条件不可重复性。

要数字化的前提条件就是所处理的量是可以量子化的。社会科学怎么定量衡量某个人的愤怒程度？怎么样定量衡量一群民众的不满程度？

进而的问题是，基本原理从何而来？

自然科学来自五湖四海的科学家们可以为了真理跑到一起来，毕竟没有直接的利益冲突。

但是社会科学不行，一套体系的建立，会直接影响到社会实践。不可避免就会有各种干扰，从事科学研究的科学家也会出于各种理由篡改自己的公式。公式又由于社会科学的不可重复验证性处于不可确定状态。这是非常危险的。

复【原创】社会科学的全面数字化

家园

data mining确实很好玩~

我记得河里以前有人推荐过2本很全面的书，不知到地址了，有谁知道通知下~

复【原创】社会科学的全面数字化

家园

实际上已经有了

QUOTE]这件事情的最可怕前景是，商家将会可以根据顾客不同的价格承受能力，给每个顾客一个不同的价格。[/QUOTE]

这个利润最大的通吃。有些产品实际品质相同，但消费群不同，可以给不同时尚，卖不同价格。北美就有蓝领服装和啤酒。和白领全棉及啤酒没有什么不同，牌子外观不同罢了。

复咦，回到新兵了？

家园

你所说的统计，主要是统计总数

比如说钢产量的比较等等，这些都是总量上的大小比较，是一种宏观上的东西。而我所说的统计方法，主要是用回归分析的手段寻找事情之间的因果关系，可以说是微观的。

给了足够的数据，使用正确的分析方法，很可能得出的结论恰恰是，左右战争胜负的因素的权重中，钢铁产量是不重要的，而人口基数是非常重要的。比如说我们可能会通过分析古今历史上的100场战争，得到一个左右战争结果的公式：

胜利＝ p*人口 + q *工业＋m*地形。。。。

这个公式甚至可能不是线性的。而且这个公式完全由统计给出。你做模型的时候可能给了100个随机变量，而最后得到的结果可能会跟你的直觉大大相反：那些通常人们认为重要的随机变量，比如说钢产量，可能会被发现根本是无关紧要的。这就是数字的力量。

凭直觉去看数字，不是搞科研。让数字自己说话，才是搞科研。

复【原创】社会科学的全面数字化

家园

给新兵营的上花~

全面数字化是不可能的. 是的, 宇宙学可以有复杂的模型, 用来预测大爆炸之后一瞬间发生了什么, 可人类社会比宇宙还要复杂.

不知道你为什么这样说李银河, 因为用的统计不够多, 不够"数字化"吗? 她做过很多不少统计调查啊.

复实际上已经有了

家园

另一种方法是发 coupon.

表面上定价一样，但实际上给对价格敏感的人寄去 coupon，吸引来购买。等同于价格歧视。

购物网站就更方便了，直接给每个人一个不同价格。不过 Amazon 等网站似乎已经声明其对所有顾客价格一致。

复社会科学数字化的困难

家园

愤怒和不满都是是很容易量化的，社会科学是一门实验科学

直接问卷调查就可以量化情绪，那些搞实验心理学的人都是这么做的。

用统计实验随机测试的方法验证公共政策是一个特别省钱而有效的方法。1993年经济萧条时期，经济学家Larry Katz，认为如果政府花点钱对失业者进行找工作培训（不是技能培训，而是找工作中的面试技巧之类的培训），那么这些失业者可以更快地找到工作，从而减少失业保险的支出。

于是在很多州进行了随机测试，跟控制组比较下，接受了这种帮助的失业者的确更快地找到了工作。有参议员甚至提出以后凡是公共政策都要先进行这种随机测试。就连实验中使用的面试技巧，也都是通过统计回归方法分析出来的，再把这些技巧教给失业者。

发展中国家在这种对公共政策的随机测试方面反而出于领先地位，因为测试成本更低。Poverty Action Lab 就是一个2003年创建于MIT专门研究怎么减少贫困的政策的机构。

某些国家的优势是他们可以测试一些美国政府不能出台的测试：比如印度政府1998年要求1/3的村子的村长必须是女性。而这个选择是随机的。结果证明女性村长更乐于投资那些与女人平时工作相关的基础设施，而男性村长更乐于投资于教育。

可能最重要的一个这样的测试是墨西哥进行的 Progresa 测试：有条件的给穷人钱。想要得到资助，你必须让孩子上学，怀孕的时候必须检查营养等等，而且钱只给母亲。试验结果极其成功。甚至纽约都开始学了。

任何一个可以随机的对一群人实行，而对另一群人不实行的政策，都可以进行这种测试。

复你所说的统计，主要是统计总数

家园

经验是定性，统计是定量

把各个相关或者可能相关的要素数字化，然后统计大量事件中要素的变化，再通过数学工具找出其中的关联性。其实和大气观测没什么两样。

不过还是有几个难题，一个是小概率事件--统计上概率很小，所以分析结果靠不住。另一个是博弈问题--规则不能被研究对象知道，不然的话会被利用，特别是中国，这个是国民性。

复【原创】社会科学的全面数字化

家园

送花，真是好文章

特别赞结尾的这一句“没有数字就没有真相”，不过有个错别字，是“真相”不是“真像”。

全看树展主题 · 分页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明