主题：【原创】冤假错案的数学原理 -- 同人于野

共:💬64 🌺284 新:

老大河待整

分页树展主题 · 全看下页末页

家园
【原创】冤假错案的数学原理
　　我最近连续从几本书中看到同样的概率典故，不得不把它写下来。人的直觉是一个非常强大的武器，在很多情况下可以帮我们不需要精密计算就能做出正确的判断。但是在人的众多直觉能力之中，不包括概率。下面我说说这个典故。
　　
　　现代技术检测 HIV 病毒的准确度已经到了惊人的程度。如果一个人真是 HIV 阳性，血液检测的手段有 99.9% 的准确率，也就是说有 99.9% 的可能性把他这个阳性给检查出来而不漏网。如果一个人不携带 HIV，那么检测手段的精度更高，达到99.99% - 也就是说有 99.99% 的可能性不会冤枉他。
　　
　　现在假设我们随便在街头找一个人给他做检查，发现检测结果是 HIV 阳性，那么请问这个人真有 HIV 的可能性是多大呢？
　　
　　在你回答之前，我要提供一点背景资料。德国马普研究所的心理学家曾经拿这道题考了好几百人，包括学生，数学家和医生。结果 95% 的大学生和 40% 的医生（这些医生实际上都受过这方面的专门训练）都给出了错误的答案。
　　
　　如果你真懂概率，你会想到要使用贝叶斯定理，然后你会发现这道题还缺少一个关键信息：那就是一般人感染 HIV 的概率。现在已知一般人感染 HIV 的概率是 0.01%，也就是说一万个人中才有一个人感染这种病毒。根据以上信息，这位不幸被检测为 HIV 感染者的朋友真有 HIV 的可能性是多少呢？
　　
　　正确答案是 50%。
　　
　　我先说贝叶斯定理的算法，然后再给一个更直观的解释。贝叶斯定理说的就是条件概率。如果我们用 A 表示 “真有 HIV”，B 表示 “检测出 HIV”，那么我们要计算的是 P(A|B)。已知 P(A) = 0.01%, P(B|A)=99.9%。
　　P(B) 需要计算一下，它等于 0.01% x 99.9% [也就是有 HIV 而被查出来的]+ 99.99% x 0.01% [也就是没有 HIV 但被冤枉的]。
　　贝叶斯定理说，P(A|B) = P(B|A) x P(A) / P(B)，计算结果等于 0.5.
　　
　　直观的解释是这样的。假设我们随机地找一万个人来做实验。根据 HIV 病毒的分布，这一万人中应该只有一个人是真有 HIV 的。而由于我们的检测手段很强，这个人会被检测出来。但剩下的9999人都没有 HIV，可是我们对没有 HIV 的人的检测精度是 99.99%，也就是说有万分之一的可能性会冤枉好人。这样一来，我们的检测手段还会在9999人中冤枉一个人。
　　本来只有一人有 HIV，可是我们却检测出来两人。所以如果一个人被检测出 HIV 来，他真有 HIV 的可能性其实只有 50%。
　　
　　从根本上说，造成这种局面的原因在于 HIV 其实是一种罕见的病毒，只有万分之一的感染者。在这种情况下即使你的检测手段再高，也很有可能会冤枉人。下面再给一道例题：
　　
　　1%的妇女有乳房癌（简称为C）；80% 的有乳房癌的妇女会在乳房 x 射线照相检验（mammographies，简称M）中成阳性；10%的没有乳房癌的妇女也会检测到M阳性。现在有一个妇女检测到了M阳性，请问她患有乳房癌的概率是多少？
　　答案：P(C)=0.01; P(M|C)=0.8; P(M)=0.8*0.01+0.1*0.99=0.107,所以
　　 P(C|M)=P(M|C) P(C)/P(M)=8/107.
　　这是一个出乎意料的小数。
　　
　　如果一个疾病比较罕见，那么你就不应该对阳性诊断特别有信心。
　　
　　由此我联想到当初文革期间的“抓特务”行动。“特务”这个工作的要求，其实贵在精而不在多，再说国民党也没那么多钱养，真正的特务其实是很少的。如果我们看到一个人长得像特务，说话走路也像特务，我们有多大把握说他就是特务呢？上面的两个概率例题告诉我们，“误诊率”可以相当高。“抓特务”，最好的办法是冒出来一个抓一个，最可怕的办法是搞“人人过关”。如果你搞“人人过关”，必然是一大堆冤假错案！
　　
　　这就是概率。哪怕你的初衷再好，你也会犯错！
　　
　　--
　　本文第一个例子来自 The Social Atom 一书。
　　第二个例子来自 Super Crunchers 一书。
　　另外好像 The Drunkard's Walk 这本书里也有一个类似的例子。
　　别人一而再，再而三地强调，我们岂可不知呼。
元宝推荐：爱莲, 通宝推：年青是福,frnkl,快刀浪子,

本帖一共被 3 帖引用 (帖内工具实现)
- 建议：又见杀人游戏，欢迎记账党厘清事实，还清清河水
- 参考同人于野的文章
- 复【原创】冤假错案的数学原理
  家园 如果随便在街上检测是这个概率，到医院就不一样。
  去医院看病的aids发病率就明显高了。所以到医院就提高了检测率。
- 复【原创】冤假错案的数学原理
  家园 真要抓特务，绝不是人人过关，也不是冒一个抓一个。
  因为特务这事情，危害极大，人人过关和冒一个抓一个，都不行的。
  其危害，拿台湾民进党施明德做例子好了，他在KMT的牢里是受了很多苦的，比死还难受，但他挺过来，意志坚决，政党轮替之后，他反而很多具体事情搞不清楚了，谁是抓耙子二五仔，很多大是大非的问题怎么都很蹊跷。自从陈水扁当选之后，施明德去查往日调查局资料，结果发现很多敏感信息都最近被涂了，陈水扁当选了，KMT迫害施明德迫害民进党的资料都赶紧被涂改，这只能证明当年不少和施明德并肩战斗的战友，就是迫害施明德和民进党的抓耙子二五仔；谢长廷被曝出来当年搞党外活动时，就是调查局的线人，受邀和调查局长一起吃过早餐，领过调查局奖励的两箱钱，其功劳是把民进党的重要规章宗旨中的台独纲领，搅和搅和去掉了。
  所以施明德说宁愿陈水扁当选之后就立刻死掉，而不愿意到后来发觉越来越奇怪，已经认识到民进党及其早期事业，哪里是台湾人奋斗出来的，而是KMT故意引导放水出来的“私生子”，局面是这个样子，比在KMT的牢里被折磨，还难受。
  这就是特务的危害。
  展开特务行动和抓特务一定得有远大崇高的政治理念，有广泛的群众基础，长期持久地进行反谍教育和活动，上下同欲，团结如一人，所安置出去的特务可以历尽千难万苦即使被误解，也无悔，对方派来的特务即使再机关算尽小心谨慎也惶惶不可终日。
  人人过关式的乱抓，正好有利于对方特务隐蔽和过关；冒一个抓一个，则对特务的危害相对延迟，算不得亡羊补牢。
  孙武子说：非圣贤不能用间，非仁义不能使间，非微妙不能得间之实。
  通宝推：李寒秋,
- 复【原创】冤假错案的数学原理
  家园 学模式识别的飘过
  我这个学模式识别的看见讨论贝叶斯公式真亲切啊。这个话题我喜欢，谈谈我的一点看法吧。
  关于抓特务冤假错案，关键看代价函数是什么。很多情况下，宁可忍受冤假错案的数量（代价是人人自危、以后平反），也要降低真特务漏网的损失（核心机密泄露）。所以对某嫌疑人x A：确实是特务判断：B: 打成特务，那么，代价函数L(x) = alpha1*P(B|A)P(A) + alpha2*P
  (A|B)(1-P(A))。其实就是对“拒真、受假”两类错误的加权。如果权值是0 1 就是最简单的，如果不为0 1 就很微妙了。改变两个参数，就会得到一条接收机特性曲线（ROC）。所以衡量一个检测方法好坏的标准不是在某个特定点上的分类效果好（比如文章中的99.9% 之类），而要求ROC曲线面积要大，这样才能把AAR（受真）FAR（受假）率都做得高。
  文章里说让医生来做，还有40%的人错，这个不太相信啊，因为医生用药、治疗也要评估这两类风险的。医学里还特意为FAR AAR起了两个名词“敏感性”和“特异性”。
  回到抓特务的问题上，我们看到，TG在战争年代，比如在苏区杀AB团、肃托，在延安康生的抢救运动，明显是更在意“真特务”造成的损失。而事实上，虽然有冤假错案存在，但是国民党也确实没能打入哪怕是基层的组织。而冤假错案并没有对整个组织的运作、吸收新人产生特别大的负面影响，也就是说，还是合算的。
  反过来，花生米27年的“清党”才更杯具些。TG至多5w，清党前夕，国民党员总数号称100万，清党后，据1929年10月统计，减至65万。减少的30多万党员中，最有可能是两部分人：一部分是思想急进的城市青年学生党员；一部分是基层农工党员。前者有可能被清洗，后者有可能因恐慌而自动脱党。实际上，被清除和自动脱党者可能还不止30万。因为在大批农工党员脱党和左派青年被清洗的同时，又有数以万计的“投机分子”涌入国民党内。
  这样一杀了之的结果，就是彻底摧毁了自己的基层组织和与工农的联系。所以后面的失败腐朽，也就顺理成章了。
  - 复学模式识别的飘过
    家园 我这两天有个模拟识别的问题
    Fisher discriminate 的sensitive analysis 的文章有没有给推荐的。谢过了！
    - 复我这两天有个模拟识别的问题
      家园 惭愧啊……
      现在只有点当时学Duda的Pattern Classification时候的印象了。后来就去学其他玩意了，没特别研究过这个了。
      - 复惭愧啊……
        家园 没事，我大致已经给鼓捣出来了。
- 复【原创】冤假错案的数学原理
  家园 这两者之间完全没有可比性
  你要比，那也不能用一次检查的结果来比。案件是可以上诉的，按土国现在的程序，初中高三级相当于艾滋病的检查做了三次。您能不能给算算如果一人，连续三次都给检查出艾滋病来了，他没病的可能性有多大？
  - 复这两者之间完全没有可比性
    家园 AIDS如果三次独立地检查,结果都一样,会增加可靠性
    但是上诉这个恐怕不是独立的,高一级知道前一级的结果,而且其他方面恐怕也做不到完全独立
- 复【原创】冤假错案的数学原理
  家园 冤案就冤案吧tg不在意
  tg的地下党满天飞，像电视剧里暗算那样白日党还要审啊，查啊效果多低啊。直接延安整风，AB团，逼供信，宁可错杀不能放过，效果就是tg内部你特务根本混不进去，人家根红苗正老八路都被干掉了何况你假冒的？
- 复【原创】冤假错案的数学原理
  家园 这个有意思，送花！
- 复【原创】冤假错案的数学原理
  家园 凑齐第一百朵花
  这篇文章带来很多意外的收获，概率的确反直觉，所以是意外。
- 复【原创】冤假错案的数学原理
  家园 贝叶斯原理
  结果和直觉的确很不一样
  monty hall problem也是用的贝叶斯原理
- 复【原创】冤假错案的数学原理
  家园 其实问题很好解决
  关键是要降低健康的情况下误诊的概率，对于艾滋病来说，找两个地方独立地做检测，如果都是阳性，患病的几率就高达99.98%
  - 复其实问题很好解决
    家园 请教，这是为什么呢？

分页树展主题 · 全看下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明