主题：【原创】冤假错案的数学原理 -- 同人于野

共:💬64 🌺284 新:

老大河待整

【原创】冤假错案的数学原理

　　我最近连续从几本书中看到同样的概率典故，不得不把它写下来。人的直觉是一个非常强大的武器，在很多情况下可以帮我们不需要精密计算就能做出正确的判断。但是在人的众多直觉能力之中，不包括概率。下面我说说这个典故。

　　现代技术检测 HIV 病毒的准确度已经到了惊人的程度。如果一个人真是 HIV 阳性，血液检测的手段有 99.9% 的准确率，也就是说有 99.9% 的可能性把他这个阳性给检查出来而不漏网。如果一个人不携带 HIV，那么检测手段的精度更高，达到99.99% - 也就是说有 99.99% 的可能性不会冤枉他。

　　现在假设我们随便在街头找一个人给他做检查，发现检测结果是 HIV 阳性，那么请问这个人真有 HIV 的可能性是多大呢？

　　在你回答之前，我要提供一点背景资料。德国马普研究所的心理学家曾经拿这道题考了好几百人，包括学生，数学家和医生。结果 95% 的大学生和 40% 的医生（这些医生实际上都受过这方面的专门训练）都给出了错误的答案。

　　如果你真懂概率，你会想到要使用贝叶斯定理，然后你会发现这道题还缺少一个关键信息：那就是一般人感染 HIV 的概率。现在已知一般人感染 HIV 的概率是 0.01%，也就是说一万个人中才有一个人感染这种病毒。根据以上信息，这位不幸被检测为 HIV 感染者的朋友真有 HIV 的可能性是多少呢？

　　正确答案是 50%。

　　我先说贝叶斯定理的算法，然后再给一个更直观的解释。贝叶斯定理说的就是条件概率。如果我们用 A 表示 “真有 HIV”，B 表示 “检测出 HIV”，那么我们要计算的是 P(A|B)。已知 P(A) = 0.01%, P(B|A)=99.9%。

　　P(B) 需要计算一下，它等于 0.01% x 99.9% [也就是有 HIV 而被查出来的]+ 99.99% x 0.01% [也就是没有 HIV 但被冤枉的]。

　　贝叶斯定理说，P(A|B) = P(B|A) x P(A) / P(B)，计算结果等于 0.5.

　　直观的解释是这样的。假设我们随机地找一万个人来做实验。根据 HIV 病毒的分布，这一万人中应该只有一个人是真有 HIV 的。而由于我们的检测手段很强，这个人会被检测出来。但剩下的9999人都没有 HIV，可是我们对没有 HIV 的人的检测精度是 99.99%，也就是说有万分之一的可能性会冤枉好人。这样一来，我们的检测手段还会在9999人中冤枉一个人。

　　本来只有一人有 HIV，可是我们却检测出来两人。所以如果一个人被检测出 HIV 来，他真有 HIV 的可能性其实只有 50%。

　　从根本上说，造成这种局面的原因在于 HIV 其实是一种罕见的病毒，只有万分之一的感染者。在这种情况下即使你的检测手段再高，也很有可能会冤枉人。下面再给一道例题：

　　1%的妇女有乳房癌（简称为C）；80% 的有乳房癌的妇女会在乳房 x 射线照相检验（mammographies，简称M）中成阳性；10%的没有乳房癌的妇女也会检测到M阳性。现在有一个妇女检测到了M阳性，请问她患有乳房癌的概率是多少？

　　答案：P(C)=0.01; P(M|C)=0.8; P(M)=0.8*0.01+0.1*0.99=0.107,所以

　　 P(C|M)=P(M|C) P(C)/P(M)=8/107.

　　这是一个出乎意料的小数。

　　如果一个疾病比较罕见，那么你就不应该对阳性诊断特别有信心。

　　由此我联想到当初文革期间的“抓特务”行动。“特务”这个工作的要求，其实贵在精而不在多，再说国民党也没那么多钱养，真正的特务其实是很少的。如果我们看到一个人长得像特务，说话走路也像特务，我们有多大把握说他就是特务呢？上面的两个概率例题告诉我们，“误诊率”可以相当高。“抓特务”，最好的办法是冒出来一个抓一个，最可怕的办法是搞“人人过关”。如果你搞“人人过关”，必然是一大堆冤假错案！

　　这就是概率。哪怕你的初衷再好，你也会犯错！

　　本文第一个例子来自 The Social Atom 一书。

　　第二个例子来自 Super Crunchers 一书。

　　另外好像 The Drunkard's Walk 这本书里也有一个类似的例子。

　　别人一而再，再而三地强调，我们岂可不知呼。

元宝推荐：爱莲, 通宝推：年青是福,frnkl,快刀浪子,

本帖一共被 3 帖引用 (帖内工具实现)

复【原创】冤假错案的数学原理

家园

这个数学原理解释很好，但是我觉得需要进一步改进

如果考虑进去P(A)的真实估计确实=0。01%的概率,正确答案还应该混乱一点

复【原创】冤假错案的数学原理

家园

一类错误和二类错误总要犯一个

但我们可以选择犯哪一个。关于这个贝叶斯的问题，老马丁曾经谈过。

“虚警概率”和“漏警概率”不可能同时避免，但归结到底，选择哪一种错误决定了冤假错案的整体概率大小，也就是法学上“疑罪从无”和“疑罪从有”的分别 —— 显然后者造成冤假错案的概率要比前者大的多。

复一类错误和二类错误总要犯一个

家园

你可以写一篇长贴了

再装模作样的加点法律的名词儿，有望成为文理双全的镇河宝贴

复你可以写一篇长贴了

家园

汗。。。这早就有人写了啊

老马丁:【原创】老马丁胡侃统计之三：关于两个错误

萨佛131:楼主的两号错误,又叫虚警概率和漏警概率

计算过程：驿路梨花:贝叶斯

复【原创】冤假错案的数学原理

家园

要考虑和平时期还是凶险的战争年代

在那凶险的战争年代，斗争是你死我活的。只要有一个漏网的特务，你自己的生命就可能玩完了。

而在和平年代，你落网几个特务，造成的损失相对较小，也就是漏点情报给台湾特务什么的。太大的抓起来毙了，小猫小狗留着放长线钓大鱼呢，反正还不至于直接危及到我政权的生存。

这就不仅仅停留在概率和贝叶斯上了，而是一个以概率为参考基础的决策性分析了。

通宝推：十万朵莲花,

花，深入简出，好

是乜。。。。好可惜别人写得比较早，乃损失一个荣耀的机会

复是乜。。。。好可惜别人写得比较早，乃损失一个荣耀的机会

家园

偶是个数学盲。。。只看不写

复偶是个数学盲。。。只看不写

家园

切。。。。你要是数学盲，那我是文盲。。

数学化，模型化，好。

同人于野的文章总是颇有趣味的

在河里的影响力越来越大，希望能一直坚持下去，也不枉你取了这个ID。

复【原创】冤假错案的数学原理

家园

原来同人于野就是同人于郊

看了博客这么久了刚认出来。

复【原创】冤假错案的数学原理

家园

【原创】呵呵我来抢原著权

以下是我1/14/2008的博客。

医生用B超看娃大小，有时会很肯定的告诉你，有95%的置信度可以说，你们家娃太轻了，多吃点啊。下次去，又会很肯定的告诉你，有95%的置信度可以说，你们家娃太重了。。其实呢，如果太轻算低于10%的话，娃真的轻的几率只有68%，而不是95%。

让我们简单的用条件概率算一下。有些数字和公式，希望大家耐心看完，并re。

事件A：B超判断娃轻

事件B：娃真的轻

p(A)：测出轻的几率

p(B)：娃轻的几率

p(B|A)：它说轻就真的轻的几率

p(A|B)：娃轻被测出来轻的几率

p(A&B)：娃轻同时测出来轻的几率

显然p(B|A)=p(A&B)/p(A)，同理p(A|B)=p(A&B)/p(B)

所以有p(B|A)=p(A|B)*p(B)/p(A)

=(95%*10%)/(95%*10%+（1-10%）*（1-95%)）

=68%

重点在于，娃轻是个小概率事件10%，而且出现在分子上；分子也作为

分母的一部分，而另一部分是一个大概率90%乘以机器的判错率5%。

－－－－－－－－－－

其实B超估算体重之所以不准，不是机器的原因而是人为误差。因为估算是靠衡量头围股骨长度等系列指标来最终计算完成的。而这个衡量由于胎儿倾斜程度，选取截面位置不同等有很大差异。这是和技术员本身经验能力有很强关系的，不是游标卡尺一样的精确。

复【原创】冤假错案的数学原理

家园

送花。同仁于野的帖子总是观点独到而又很有深度。

让我想起了以前学概率的时候老师给出的很多有趣的例子。其中有一个例子很有意思，也在电影《21点》中出现过。就是一个电视节目上，选手面对A,B,C三个门，其中有一个门后有奖品，选手可以选择A,B,C中一个门。在选手选择A后，主持人打开了B,B后没有奖品，然后问选手是否愿意改选C。电影里MIT的教授的答案是要改选，而我的教授的答案是不改选。

全看树展主题 · 分页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明