主题：【原创】冤假错案的数学原理 -- 同人于野

共:💬64 🌺284 新:

老大河待整

【原创】冤假错案的数学原理

　　我最近连续从几本书中看到同样的概率典故，不得不把它写下来。人的直觉是一个非常强大的武器，在很多情况下可以帮我们不需要精密计算就能做出正确的判断。但是在人的众多直觉能力之中，不包括概率。下面我说说这个典故。

　　现代技术检测 HIV 病毒的准确度已经到了惊人的程度。如果一个人真是 HIV 阳性，血液检测的手段有 99.9% 的准确率，也就是说有 99.9% 的可能性把他这个阳性给检查出来而不漏网。如果一个人不携带 HIV，那么检测手段的精度更高，达到99.99% - 也就是说有 99.99% 的可能性不会冤枉他。

　　现在假设我们随便在街头找一个人给他做检查，发现检测结果是 HIV 阳性，那么请问这个人真有 HIV 的可能性是多大呢？

　　在你回答之前，我要提供一点背景资料。德国马普研究所的心理学家曾经拿这道题考了好几百人，包括学生，数学家和医生。结果 95% 的大学生和 40% 的医生（这些医生实际上都受过这方面的专门训练）都给出了错误的答案。

　　如果你真懂概率，你会想到要使用贝叶斯定理，然后你会发现这道题还缺少一个关键信息：那就是一般人感染 HIV 的概率。现在已知一般人感染 HIV 的概率是 0.01%，也就是说一万个人中才有一个人感染这种病毒。根据以上信息，这位不幸被检测为 HIV 感染者的朋友真有 HIV 的可能性是多少呢？

　　正确答案是 50%。

　　我先说贝叶斯定理的算法，然后再给一个更直观的解释。贝叶斯定理说的就是条件概率。如果我们用 A 表示 “真有 HIV”，B 表示 “检测出 HIV”，那么我们要计算的是 P(A|B)。已知 P(A) = 0.01%, P(B|A)=99.9%。

　　P(B) 需要计算一下，它等于 0.01% x 99.9% [也就是有 HIV 而被查出来的]+ 99.99% x 0.01% [也就是没有 HIV 但被冤枉的]。

　　贝叶斯定理说，P(A|B) = P(B|A) x P(A) / P(B)，计算结果等于 0.5.

　　直观的解释是这样的。假设我们随机地找一万个人来做实验。根据 HIV 病毒的分布，这一万人中应该只有一个人是真有 HIV 的。而由于我们的检测手段很强，这个人会被检测出来。但剩下的9999人都没有 HIV，可是我们对没有 HIV 的人的检测精度是 99.99%，也就是说有万分之一的可能性会冤枉好人。这样一来，我们的检测手段还会在9999人中冤枉一个人。

　　本来只有一人有 HIV，可是我们却检测出来两人。所以如果一个人被检测出 HIV 来，他真有 HIV 的可能性其实只有 50%。

　　从根本上说，造成这种局面的原因在于 HIV 其实是一种罕见的病毒，只有万分之一的感染者。在这种情况下即使你的检测手段再高，也很有可能会冤枉人。下面再给一道例题：

　　1%的妇女有乳房癌（简称为C）；80% 的有乳房癌的妇女会在乳房 x 射线照相检验（mammographies，简称M）中成阳性；10%的没有乳房癌的妇女也会检测到M阳性。现在有一个妇女检测到了M阳性，请问她患有乳房癌的概率是多少？

　　答案：P(C)=0.01; P(M|C)=0.8; P(M)=0.8*0.01+0.1*0.99=0.107,所以

　　 P(C|M)=P(M|C) P(C)/P(M)=8/107.

　　这是一个出乎意料的小数。

　　如果一个疾病比较罕见，那么你就不应该对阳性诊断特别有信心。

　　由此我联想到当初文革期间的“抓特务”行动。“特务”这个工作的要求，其实贵在精而不在多，再说国民党也没那么多钱养，真正的特务其实是很少的。如果我们看到一个人长得像特务，说话走路也像特务，我们有多大把握说他就是特务呢？上面的两个概率例题告诉我们，“误诊率”可以相当高。“抓特务”，最好的办法是冒出来一个抓一个，最可怕的办法是搞“人人过关”。如果你搞“人人过关”，必然是一大堆冤假错案！

　　这就是概率。哪怕你的初衷再好，你也会犯错！

　　本文第一个例子来自 The Social Atom 一书。

　　第二个例子来自 Super Crunchers 一书。

　　另外好像 The Drunkard's Walk 这本书里也有一个类似的例子。

　　别人一而再，再而三地强调，我们岂可不知呼。

元宝推荐：爱莲, 通宝推：年青是福,frnkl,快刀浪子,

本帖一共被 3 帖引用 (帖内工具实现)

全看分页树展 · 主题

相关回复上下关系8
- 🙂【原创】冤假错案的数学原理
  - 🙂如果随便在街上检测是这个概率，到医院就不一样。 phyzjqk 字60 2012-09-07 13:42:26
  - 🙂真要抓特务，绝不是人人过关，也不是冒一个抓一个。 26 年青是福字1252 2012-09-03 04:24:07
  - 🙂学模式识别的飘过 30 永远的幻想字1588 2010-01-13 15:36:34
    🙂我这两天有个模拟识别的问题唐吉氏字71 2010-01-15 10:00:27
    🙂惭愧啊…… 永远的幻想字100 2010-01-27 18:26:10
    🙂没事，我大致已经给鼓捣出来了。唐吉氏字0 2010-01-28 20:46:02
  - 😏这两者之间完全没有可比性杜杀字188 2009-11-10 00:28:14

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明