西西河

主题:【原创】群众的智慧 -- 淮夷

共:💬88 🌺417 新:
全看树展主题 · 分页
/ 6
下页 末页
家园 【原创】群众的智慧

点看全图

外链图片需谨慎,可能会被源头改

人事档案或登记表格,皆有“政治面貌”一栏。人的面貌千姿百态,而政治面貌只有三类:党员、团员、群众。每次我填上“群众”的时候,总觉得自个儿特像一落后分子。

最近读到一本书恰好讨论“群众”问题,此书颇值一读,叫作《The Wisdom of Crowds》(群众的智慧),出版于2005年, 作者是美国人James Surowiecki。

本书开头提及一个有趣的称牛实验。1906年英国统计学家 Galton参观一个普利茅斯的家畜展,展会上牵来一头肥牛,围观人们比赛猜测该牛体重,猜对者获奖。

Galton在赛后找到主办方,索到人群的竞猜记录。现场计有787人参与,Galton计算了一下787个样本的均值,是1197磅。换言之,现场人群作为一个集体,给牛估重1197磅。

那头牛的正确体重,是1198磅。契合度之高,令人惊叹。

更奇怪的是,展会的人群五花八门,在给牛称重这件事儿上,大多数人(大量的游客)毫无专业知识。少数屠户也参与竞猜,屠户对牛的重量有积年经验,他们代表人群中的专业人士或曰精英分子。

结果呢,乌合之众聚在一起,轻松打败了专业人士。

这仅是一次统计上的意外吗?

作者不认为它是一个统计意义上的噪音,实际上,它揭示出了一个颇具普遍意义的社会现象:群众往往比少数人更聪明。

此书的”群众”指社会中的人群,但这一现象亦适用于鸟群、蚁群、以及其它“自组织”(self-organization)状态的自然界系统。

在Galton的称牛实验之后,美国学者做了大量的课堂实验,研究所谓的“群体智慧”现象。

哥伦比亚大学的社会学家Hazel Knight做过一个温度实验,让全班学生各自写下对教室温度的现场估计,集体的均值是72.4度,教室真实温度是72度。

在另一个经典的课堂实验中,金融学教授Jack Treynor让全班56个学生判断一个罐子放有多少颗软糖。罐中实有850颗糖,班级平均数是871颗糖。全班只有一个学生的猜测优于集体平均值。

小课堂之外,大规模的社会人群里,集体智慧也发挥着它的魔力。

最典型的社会学例子,当属美国的电视秀”Who Wants to Be a Millionaire?”,这个例子我在《异见分子》链接出处也有提及。选手对一个选择题犹豫不定,可求助专家,也可求助观众。美国节目的统计结果是,专家答对65%的问题,而随机组合的观众人群,尽管看起来并无针对某问题的专长,其答对率竟然高达91%。

另一个社会学的例子,是1986年美国航天飞机挑战者号发射失败,半空爆炸。事故发生几分钟后,股市做出了反应,投资者开始大量抛售四家公司的股票。

这四家公司是参与挑战者号发射工程的承包商,它们分别是:Rockwell(船体和主引擎)、Lockheed(地面设施)、Marietta (外燃料槽)、Thiokol(固体火箭助推器)。

以事故发生当天的收盘价计算,前三家公司股票下跌3%,唯独第四家公司Thiokol跌的最惨,12%的跌幅。

这意味着,股市投资者作为一个群体,早早的就给Thiokol公司贴上“肇事责任人”的标签了。

事实上,股市收盘的次日,纽约时报的报道还是一头雾水:“关于这次灾难的发生原因,目前还没有任何线索。”

直到六个月后,里根总统的特别调查委员会,才给出了结论,事故原因是火箭助推器的O型环密封失效,制造商恰好就是Thiokol公司。------ 股市最初的押注是对的。

这到底是投资者神奇的先知先觉,抑或又是一次偶然巧合?这个现象引起了金融学家Maloney和Mulherin的兴趣。他们做了一些研究,发现在灾难当日,Thiokol管理层并未抛售自己公司的股票,而Thiokol的竞争对手亦未抛售Thiokol股票。这些迹象表明,Thiokol股价暴跌,并非insider trading所致,而更有可能,是投资大众作为一个集体瞬间做出了正确的选择。

上面提到的一些课堂实验和社会人群实例,如果剥去它们的传奇色彩,不难发现这里隐伏着几个重要的前提:1)人群要具备一定的规模,换言之,分散性够强;2)每个人皆能做出独立决策;3)所解决的主要是“认知问题”,意即,找到一个孤立事件的真相,不论这事件是牛重、室温、软糖个数、抑或事故灾难的成因。这些问题一般来说总能找到唯一的正确解。

这些前提,其实正是所谓“群众智慧”得以发挥的幕后原因。作者的解释是这样:每个人对“认知问题”的看法都包含了两个成分:一是有效的信息,二是无效的噪音。假如一个大规模人群的每个分子进行独立判断,无效噪音将互相抵消,留下的是有效信息。有效信息的汇聚意味着,群众的选择越来越接近真相。

那么,一个很自然的假设是,假如人群的个体并非独立选择,而是先后选择,这会如何?

“先后选择”最简单的体现,大约就是开会了。不管政府开会还是公司开董事会,一个常见的情形是老板先发言,定调子,指方向。之后,下属人员逐一发表见解。

在讲究尊卑秩序的东亚文化,这种领导先开口的模式之下,我以为很难产生“群众智慧”的效应。实际上,即使先开口的那位不是领导,也往往对集体选择的准确度产生很大的不确定性。

关于这个“先后选择”的问题,美国经济学家Angela Huang和Charles Plott做的一个社会实验给出很好的验证。

这个实验使用两个罐子,罐内有黑白两色石子。实验参与者被告知,A罐的黑子多(是白子两倍),B罐的白子多(是黑子两倍)。

现在,两个罐子中的一个,就放在参与者面前。参与者轮流从中抽取一个石子,并根据自己抽到的石子颜色,判断这个罐子是A,还是B。

假如前面三个参与者先后抽取之后,都说这是A罐(黑子多),而你是第四个人,你抽出来一个白子。这时候,你该怎么选择?

如果你做的是独立判断,抽到白子后,合理选择是B。B罐的白子是黑子2倍,(这意味着选B有2/3的概率赢)。

但是,前面人群都选了A,你会不会放弃B而选A呢?

78%的实验次数中,人们都选择了跟随前面,而放弃了自己的独立判断。事实上,先后选择的模式很容易创造一个强大的反馈机制。试想一下,当你前面的10个人、20个人、30个人,依次认为这是A罐,那么你多半觉得最好的选择就是A了,不必管你实际抽到的是白子还是黑子。

看起来,这是一个利用贝叶斯公式,根据已知信息更新概率估计的过程,似乎很合理。

而这个实验的巧妙在于,每个参与者只能说出自己的选择,而不能说出自己抽到的石子颜色。这意味着,人群的选择根本不是什么贝叶斯推断,因为实验者无从得知前面的石子颜色,也就无法有效的更新自己的概率估计。

前面的几个人出于偶然连续抽到某个石子,而这种偶然性、或曰“噪音”,很快被后面的跟随效应强化了,乃至演变成为“唯一正确”答案。一旦人们丢弃了真正的有效信息(自己抽取的石子颜色),而代之以噪音,群众的选择并非集体智慧,而是集体发晕。

类似的集体发晕现象在自然界亦有一个例子。20世纪初,美国自然学家William Beebe在南美看到一幅奇景。一群蚂蚁沿着一个大圆圈不停的走动,圆圈周长1200英尺,一只蚂蚁需要大约2个小时才能走完一圈。

点看全图

外链图片需谨慎,可能会被源头改

蚁群排着队,绕着圆圈暴走不止,两天之后,大多数蚂蚁力竭而亡。这个离奇的现象被生物学家称作”circular mill”。

生物学家后来找到了一个原因。蚂蚁迷路时遵循一个简单的法则:跟着前面的蚂蚁走。反馈效应之下,蚁群作为一个集体,陷入一个原地转圈的循环,至死方休。

石子实验及蚂蚁转圈,皆显示出,集体里每个个体的独立精神之重要。倘若一个人群,既具备个体独立,又有适度的规模和分散性,这样的人群除了解决认知问题,是否也有预测未来的智慧呢?

有个很有趣的例子,是解释群体智慧是如何用来预测未来的。

这个例子是关于选举结果预测的。1988年,美国爱荷华大学创办了一个电子交易市场,叫做IEM (Iowa Electronic Markets)。IEM交易的不是股票,而是远期合约,这些合约以未来选举结果作为交割目标。人们可以交易各种选举,包括总统大选、国会选举、州长选举,等等。

IEM的交易模式并不复杂。举例来说,2004年总统大选之前,你从IEM买入一份看好小布什的远期合约,如果小布什赢了,你获得1美元。小布什输了,你什么都拿不到。

一份合约最大收益是1美元元,最小收益是0,所以它的理论价格区间是0 - 1美元。

合约的市场价,完全取决于IEM的参与者对候选人获胜机率的判断。譬如小布什合约的价格是60美分,意味着市场认为他有60%的概率赢得选举。如果过一段时间,这个合约涨到65美分,意味着,布什的获胜概率提高到了65%。

IEM的预测准不准呢?对IEM交易数据的研究表明,从1988-2000年之间的49次选举中,IEM的市场价格非常贴近真实选情,表现远好于大型民意测验。以IEM的合约成交价和实际的候选人得票率来分析,在总统大选方面,IEM的偏差率只有区区1.37%。

受到IEM的启发,美国如今涌现出各种各样的decision markets,旨在利用群众的集体智慧,对未来做出预测。

其中好莱坞交易所(HSX)以预测电影票房和奥斯卡著称,2002年的奥斯卡40项提名,HSX能事先测中35项。类似的虚拟交易市场,还有许多,譬如Lumenogic市场(预测新闻时事),以及MIT创立的Innovation Futures市场(预测科技的未来走向)。

小到肥牛重量,大到总统竞选,群众的眼睛总是雪亮的。我忽然想再填一次表格了,在政治面貌一栏,自豪的写上:群众。

通宝推:tt086071,文化体制,切地雷,联储主席,胡丹青,GWA,照山白,阿辉1,路边,李寒秋,

本帖一共被 2 帖 引用 (帖内工具实现)
家园 我觉得这些例子选得不是很有说服力

就比如第一个实验---预测肥牛的重量,参与者必须得了解一般牛的体重是多少。如果这些群众没有这些知识,比如说让一拨儿幼儿园大班的孩子去预测这头牛的重量,我敢保证肯定差上很多。这说明,这种群众智慧有个基本前提,那就是参与判断的群众必须要有基本知识。

还是以这个实验为例,假如参与评选的群众,受到了某种因素的干扰,可以是你所提及的“先后选择”,也可能是某种习惯性思维的制约。比如说这头牛是头注水牛,实际体重比表面上看上去的体重小很多,如果群众按照常规的路子走,结果自然是错了。

群众智慧比如说选举,选出个弱智或者卖嘴皮的主儿的概率可比选出个英明领导的概率高很多。文革在一定程度上也是群众智慧的一个试验场,那无数次群众运动的结果吗,这儿就不多说了。

家园 大型民意测验不也是问群众的态度么?

说大学里的群众比普通群众眼睛更亮,显然政治上很不正确

家园 那头牛的正确体重,是1198磅。契合度之高,令人惊叹

这个很象蒙地卡罗算积分样的么

家园 比如说让一拨儿幼儿园大班的孩子去预测这头牛的重量

是有些限制的,象蒙地卡罗算积分一样的,用抽样点来替代精确积分。前提是抽样点都是这个涵数上的点。也就是在涵数的包落线里。完全随机的猜测该不知道是啥值八。用从令到无穷大的平均分布来算平均值

家园 ??

让全班56个学生判断一个罐子放有多少颗软糖。罐中实有850颗糖,班级平均数是871颗糖。全班只有一个学生的猜测优于集体平均值。

是说55个人的猜测都和真实值相差甚远 但是大致一半人猜的太高 一半人猜的太低 所以平均下来跟真实值非常接近

是这意思么

家园 我上物理实验课的时候,有一次实验变成心理实验。

本来是全班同学轮流用天平和电子秤分称两个物体,记录读数。学习测量数据的常态分布。 天平和电子秤本来应该读数是一样的。 但是测量到一半时, 有人乱按电子称按钮,把计量单位改了。 这下好了, 天平和电子秤的读数出现了很大的偏差。 理论上,学生应该忠实记录读数。 但前面保持一致的数据,对后人造成了很大的压力。于是什么数值都出来了。 有用天平数据改一点的,有用电子秤的,还有取平均值的。当然有聪明的也试着改回电子秤,问题是乱按一气后,没有改对还改得更乱了。 最后大家都对最后收集的数据抓抓头,就按数据分析出平均值和标准差当作业交上去。 不过老师也对这样混乱的数据没说什么, 不然也是一堂活生生的数据造假和统计使人失去常识的论理课。

家园 其实,群众选偏的很多

最简单的例子:希特勒就是群众选上的

小布什也是群众选上的

至于日本,群众的判断就更多了

判断牛的体重很接近,是因为只有一个判断要素,就是重量,别的没有,群众智慧就很容易契合了

家园

孔乙己你没有入过团?我还真忘了有没有入过团,因为记忆里没有参加过团组织的活动。不过总觉得该是个团员吧

家园 肯定有不对的地方

首先是对自然事物和社会事务的猜测肯定应该区分开来。这两者对参加测试人的要求是完全不一样的。

比如第一个猜测牛的体重的例子,火箭故障原因的例子,实际上都需要一定的基础知识。对普通人求平均值估计得不到正确的结论。

对选总统这样的普通社会事务,对基础知识要求不高,才有可能符合你说的“群体智慧”。

家园 共青团员好像有年龄要求的吧?
??
家园 简单的解释

我没有看过55个数据点,所以只能凭一些经验去推断:

1. 您猜测的情形非常可能存在。高估与低估互相抵消,这正是群体猜测比较接近事实的关键。

2. 至于是否55个与真实值差距“甚远”,这个不一定,取决于样本的分布情况。课堂实验,每做一次,样本结果都会不同的。

3.另外补充一个话题,”median“和”mean“是两种不同的平均值。不清楚实验者取哪一个,所以增加了猜测原始数据是如何分布的难度。

家园 感谢分享!

很有趣的课堂故事。

家园 民意测验和IEM的区别

前者是问你:你自己打算选谁?

IEM是问你:你觉得别人会选谁?

这个设计上的差别很重要,也是IEM更聪明的原因。

家园 我不觉得这些例子有问题

参加的群众当然需要一些基本的常识,作者没有把群体智慧当成必然发生的事件,也给参与者设了一些必须的条件(比如要有独立判断的能力),这些我文中也提到了。作者的意图已经用那些例子很好的表达了,至于幼儿园的预测,我相信不会成功,但是这并非作者的论证对象。

关于选举,我想您有些误读。作者谈的是”预测选举的结果“,而不是谈论群众应该去”选谁“。这是两个完全不同的事情。

全看树展主题 · 分页
/ 6
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河