西西河

主题:【原创】统计狂人 -- 淮夷

共:💬42 🌺358 新:
分页树展主题 · 全看 下页
  • 家园 【原创】统计狂人

    点看全图

    外链图片需谨慎,可能会被源头改

    《Super Crunchers》是2007年耶鲁大学法学教授Ian Ayres写的一本畅销书。此书讲述统计学对日常生活和决策的影响。

    对于学过统计学,或者用过SAS、SPSS这类建模工具的读者,此书的内容是很浅的。实际上,作者并未做技术讨论,只是简单介绍了几个基本的统计概念,比如正态分布、标准差、贝叶斯公式。

    可以说,这是一本写给没学过统计学的人看的书。就像章诒和的《伶人往事》是写给不看戏的人看的。

    字面上,data crunching和data mining意思差不多,指的是对历史数据进行统计分析和建立模型,试图发现数字中隐藏的规律。统计模型的目标并不是还原历史,而是预测未来。譬如书中提及的葡萄酒定价预测。

    对专业品酒师而言,判断葡萄酒的质量,最重要的办法是品尝。他们依赖舌头的口感和累年直觉,推断一瓶酒价值几何。这是品酒师作为一个职业赖以存在的基石。

    1980年代,普林斯顿大学的经济学家欧莱,提出一个全新的预测办法:

    葡萄酒的品质 = 12.145 + 0.00117×冬季降水量 + 0.0614×葡萄生长期的平均溫度 - 0.00386×葡萄收获期降水量

    这个多变量回归公式看起来有点复杂。但是欧莱的逻辑说来简单:酒的质量取决于葡萄质量->葡萄是一种农产品->任何农产品的质量必然受到当年气候的影响。

    从这个线索出发,欧莱挖掘了过去几十年法国波尔多(葡萄产地)的气象资料,然后和各年出产的葡萄酒品质逐一比对。他发现在又干又热的年份,葡萄成熟得好且汁浓,这种葡萄酿出的酒,酸度低且醇郁,是酒中上品。

    欧莱的统计模型有一个好处,就是鲜葡萄刚摘下来,还没开始酿呢,人们就可以把当年气象数据放入模型,直接预测葡萄酒的品质和价格了。比如模型里有一个变量是”0.00386×葡萄收获期降水量”,这个变量的意思是,降雨每增加一毫米,葡萄酒的价格将降低0.00386美元。

    这个模型对品酒师而言,简直是当面打脸,北京话说的“呛行”,抢人生意。品酒行业的大师罗伯特坐不住了。罗爷愤愤道:欧莱是一个彻头彻尾的骗子(“ an absolute total sham”),用数学公式预测酒的美味是荒谬的。

    罗爷虽然火大,数学预测的结果与酒价的真实走势节节相符。相形之下,品酒师赖以生存的伎俩只是故作高深的鉴酒行话,比如这瓶酒尝起来非常之“musical, tight, rakish”。听来仿佛是赵丽蓉的台词:这酒怎么样,听我给你吹。

    是故,相信大师的直觉,不如相信数字。这句话便是本书的核心观点。

    题外话,在我看来本书的一大缺点,是过于推崇统计学和数字化。我觉得统计模型的几个弊病是值得专门探讨的(而此书并未讨论):第一,历史数据很容易被人为操纵,许多自洽的模型并非基于真实的历史。第二,统计意义上的关联常被解释为存在因果关系。用A可预测B,并不等于因为A才有B。没有因果关系的模型难免造出一些空中楼阁的预言。第三,复杂性的系统很难用任何现有统计工具预测,比如气象,比如外汇市场。过度相信数学的结果,是看不到黑天鹅的存在。

    尽管有上述弊端,统计学的应用仍然已经渗透到美国社会各个层面。受到数据挑战的职业,除了品酒师,还有形形色色的所谓专业人士。比如棒球联赛的星探,传统的星探挑选潜力球员,全靠一双肉眼和感觉,而詹姆斯根据历史数据,用一个数学公式评估球员。

    这个公式是这样:球员价值=(Hits+Walks)×Total Bases/(At Bats+Walks)。

    我完全搞不懂这个公式的涵义。但是据Michael Lewis的畅销书《Moneyball》所叙,詹爷的公式打碎了颇多专业球探的饭碗。

    在好莱坞,很多演艺人士的饭碗也受到威胁。书中提到一个数据分析公司叫做Epagogix。这家公司在电影开拍之前,不需要知道谁是导演和演员,仅凭剧本的内容就能直接预测电影的未来票房。它的预测准确率颇高,而且可用统计软件对剧本进行分解和情节改动,从而直接提高票房预测值。

    这是数学模型对艺术创作的干涉。观众也许并不知情,但是他们走进电影院看到的所谓“好看的电影“,可能是机器的智慧,而不是编剧的才华。

    还有一个类似的现象是教育领域。本书提及一个小学的教学法叫DI(Direct Instruction),中文的意思大约是“照本宣科”。根据DI法,教师上课时手拿一本事先编好的剧本,上面写道:同学们,让我们翻开课本到第X页,把手指放到课文标题下面,我数1、2、3,大家和我一起念…”

    这个教学法的奇特在于,整堂课的全部台词都是事先统一印好的,老师照着念就成。不需要什么明星教员和个人魅力,庸师也能出高徒。

    在美国的教学实验中,毫无人性的DI法对提高小学生能力竟是最有效的。这种工厂流水线的课堂模式得到了统计数字的支持,尽管美国的教师们并不肯买账。

    面对此种被数字全面渗透的社会,不知黄仁宇若在世,做何感想。黄仁宇著作我读到频率最高的词是“数目字管理”。老黄感叹,中国历代王朝因为缺乏数目字管理的能力而在近世逐渐落在西方社会之后。

    “数目字管理”这个拗口的词对今日中国并未完全过时。中国各地诞生过很多朝令夕改的公共政策,这些决策往往是当局者一拍脑袋拍出来的,而未经过严谨的数据论证。我有一次在新疆,一个饭局上见到当时的自治区副主席陈雷,陈随口背诵新疆各种数据,这算是一个很好的习惯了。不过,宏观层面,施政在中国似乎仍是一门艺术,用不到统计模型。

    但在微观层面,data mining的商业价值已被许多中国企业注意到,且越挖越深。

    譬如我的手机,每天收到10条以上广告短信,短信有卖房的,卖车的,还有卖发票的。这些广告并非群发给全国人民的,而是定向发送部分用户。什么样的用户呢?如果你是中国移动的VIP、或者你持有某家银行信用卡、或者你是某家航空公司的常旅客会员,你一准儿能收到此种广告,因为你的会员信息早被卖给广告商了。

    出售会员信息牟利只是初级阶段。事实上,会员数据库是一个极有价值的金矿。统计狂人(本书标题所谓的super crunchers),根据你的刷卡记录、飞行记录、电话记录,利用统计模型可精准预测出你的未来消费趋势。

    于是,顾客懵然不知之时,商家已针对其消费习惯制定了专门的营销策略。

    这种被称作“数据库营销”的活动,在美国形成一个庞大的产业,专业的数据库营销公司已有在交易所上市的。在中国,这个产业2001年才出现。我见过几个自称做数据库增值服务的中国公司,基本上停留在花钱买个名单之后群发广告这种粗糙的营业模式,远谈不上数据挖掘的深度。

    而以中国人口之多,消费数据积累之快,数据挖掘这门生意在中国的前景实在是光明的很。

    话说回来,作为一个消费者,你真的愿意被这样数据挖掘吗?

    好处是你有时候会感觉到方便。比如在亚马逊网站浏览的时候,网站会自动显示出你可能会感兴趣的关联书籍。这种便利是亚马逊应用统计模型对消费者进行后台分析的结果。

    不好的地方在于,商家越殷勤,钱包越要看牢。书中提到一个有趣的案例是拉斯维加斯的赌场。赌场有一种消费卡,赌客刷卡赌博的时候,如果输的太多,快要达到”pain point”(痛苦点),系统会提示赌场员工邀请该赌客吃牛排,给他抚慰。目的是让赌客保持住对赌博的兴趣。

    书中提到的赌场,其经营商叫做Harra’s(哈拉斯)。哈拉斯是全球最大的赌场运营公司,我有一次在北京和哈拉斯的亚太总裁见面,听他亲口说起赌场的这些猫腻,颇觉可怖。他说,哈拉斯计划把美国赌场的数据挖掘模式扩到澳门。澳门的赌徒们,你们被牛排了吗?

    乔治奥威尔的小说《1984》描述过一个想象中的1984年的社会,这个社会的每个成员都被高度监控。他是这样写的:“你发出的每一个声音,都是有人听到的,你作的每一个动作,都是有人仔细观察的。”

    2011就要到了,1984仍未离开。

    元宝推荐:抱朴仙人,老马丁, 通宝推:tt086071,foureyes,上善若水,深夜腌的萝卜丝,Soen,铸剑,快刀浪子,史文恭,月光下的尘,

    本帖一共被 3 帖 引用 (帖内工具实现)
    • 家园 数理统计用于国内决策,忙总说过两个例子。

      一个是GDP保8;

      链接出处

      另一个是诱导性决策。

      链接出处

    • 家园 用线形回归的方法来推测未来是危险的

      即使书上的两个例子都是成功的, 但是没有信息说明使用这种方法得到失败结果的例子.只看到贼吃肉, 看不到贼挨打还不能说做贼是一个有前途的职业.

      • 家园 线性回归失败的例子挺多的

        这样的例子我读到过。我自己做的模型也出现过荒谬的结果。所以您的话我很同意。

        感觉上此书作者并未追求面面俱到的写法,是故他的着眼点主要在于统计学的应用价值,而不是其过度应用的风险。

    • 家园 说得不好,还是想说

      统计分析带给我的震撼是,原本自己想当然,其他人都认同的观点结论,在统计分析之后,竟然被完全否定,一点余地都没有的否定。也就是说,(分析结果显示)挂在嘴边的未必是真实的内心想法!

      这些既取决于统计分析,更取决于调查问卷的设计和样本数。很多时侯,抽样调查的结果和普查的结果非常接近,以至于很多问题没必要用普查,抽样调查也不需要取太多样本,有些问题几百、几千个样本的调查结果区别不大。

      • 家园 随机样本的创设

        是本书作者写到的一个话题,我在书评里面没有展开说,但是确实很有意义。好的样本和足够充分的代表性是统计分析的基石,社会科学做实验最大的问题并不是统计技术高低而是样本的质量好坏。

    • 家园 泪牛满面!

      现在用统计学做一个社科领域,总是遇到不理解甚至诋毁的声音。以后谁要和我辩,我就推荐他们看这篇文章!

      • 家园 呵呵,多谢

        社会科学很多时候还是被当成soft science,不过我很想看到越来越多有启发性的社会科学话题得到人们的讨论和关注。

    • 家园 觉得品酒师和球探的例子不是很有力

      统计也许能预测某年所有葡萄酒的平均品质,但不能给出不同酿造厂不同工艺品牌酒的品质。这些活只能由品酒师来干。品酒师的工作不是确定所有酒的平均品质。所以统计砸不了品酒师的饭碗。

      同样,光凭数据也不能确定某个具体球员的实力,因为美国高中大学球员都是参加不同水平的联盟比赛,数据不能拿来直接比较。职业队选秀还是只能依靠球探。

      • 家园 这也不对,我更愿意相信数字

        首先葡萄酒的种植和生产都很规范化,也就是说,整个生产过程中,农艺、工艺都是有传统的,不容更改的,所以対成酒的品质波动贡献很小,那么气候对酒质的影响就是最主要的。所以统计就应该是可信的。如果数据采集自一个地区的平均值,那么公式也就对这一个地区的平均情况成立。如果数据来自某个具体的酒庄,那么公式就应该对酒庄成立。当然偏离会略大一些,因为酒庄本身就是操纵酒类价格的黑手。

      • 家园 此言有理,多谢启发
    • 家园 理性肆无忌惮的在大地上飞驰

      这到底是好事,还是坏事?我们无从得知,只能期望多年后的我们,即使在精心构筑的水晶宫内安逸的生活,也不要忘记曾经的激情。

      在我看来,人类大脑中那一点点仅存的非理性才是最珍贵的。

    • 家园 Harrah的这一套是个真正的统计狂人搞的

      Gary Loveman, 葛爱人,Harrah的CEO,本行就是干这个的,麻省理工的博士,哈佛的教授,98年转行入Harrah, 01年当CEO至今。

      咱们顾客打电话进去订房,瞬间就会被根据历史记录(或者无记录)分类,然后你听到的有房没房,和报价都不一样。我一个穷光蛋打,人家可能直接告诉我没房,一个老赌棍打过去,可能房间免费,还附送大餐。

分页树展主题 · 全看 下页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河