西西河

主题投票【原创】辛普森悖论 -- earthcolor

共:💬52 🌺28 新:
  • 投票信息

    单选,参与 19 / 9

    0
    4/2
    0
    11/5
    0
    4/2
    0
    0/0
全看树展主题 · 分页首页 上页
/ 4
下页 末页
家园 你举的例子就是A和B在不同样本中分别进行的实验啊。

你举的例子就是A和B在不同样本中分别进行的实验啊。要不什么叫“符合A”“符合B”呢?

家园 你被忽悠了

出现这种结果,必然的原因是A和B的测试样本中男女比例不同。。当考虑到相同的男女比例时,B的总体效果肯定比A好。

好,假设你面对的是个男病人,选了B,如果我再继续告诉你,在参加测试的男病人里,如果分各个年龄段分别统计,A的效果均好于B,那么根据你的逻辑:

出现这种结果,必然的原因是A和B的测试样本中年龄段比例不同。当考虑到相同的年龄段比例时,A的总体效果肯定比B好。

哈哈,你是不是现在改变注意选择A呢?

继续继续,我们知道这个男病人有过往病史,我们再在这个男病人的年龄段中选择有过往病史的进行统计,发现B的效果又比较好,那么你的选择是否又变回B?

.......

你被辛普森悖论给忽悠了.啥时候聊聊变量选择在统计中的作用吧.

家园 没给标准差,你的统计没有意义

没有什么悖论不悖论。因为你完全没有给出统计的偏差。只给一个平均值意义不大。

假设把分类进行到底,一个人一类,酒香你说得那样,那标准差和样本差不多一样大,根本这种统计就没有意义。对于抽烟的研究也一样,每多进行一步分类,95%可信度的区间也就越大,研究结果也就越不可信。究竟到哪一步就完全不可信,并没有一个硬性的划分,但是每一步都更加不可信几乎是一定的(除非成绩大跃进地提高,那么根据我高考前的经验,抽烟确实比较好。。。。)

对于药效,不光有置信度,还要考虑副作用,问题就更复杂了。所以你的问题的标准答案应该是:信息严重不足,吃哪种就看谁给开回扣了。比如最近闹得很凶的降血脂药,一月底的时候公开了一个为期五年的临床试验结果,发现Vytorin,也就是simvastatin和Zetia的合剂,降血脂(LDL)的效果比单吃simvastatin要好很多。但是降血脂的同时,心脏病发病率不但没有下降,死亡率反倒有所上升。而药品公司推动降血脂药的唯一目标就是预防心脏病死亡。这个结果被药厂藏了一年,但在压力之下还是不得不公布。股价跟心脏病发病率是负相关,那就不要提了。其实其他所有的降血脂药,包括Liptor都有这个死穴——LDL是降了,但是死亡率完全没有变化(只对已经得过心肌梗塞半死不活的病人有疗效)。究其原因,药品不光要考虑临床试验的疗效(降脂),临床试验的标准差,也要考虑这个疗效的绝对值(number needed to treat),最后要归结到实际对死亡率的降低/生活品质的提高。

我来考虑一下这里要不要挖个坑。。。

那个叫做悖论的东西,没有给样本大小,也没有给疗效的绝对值,是辛普森扯淡不是悖论。

家园 呵呵。。选择。

那么一个问题:到底是要按照年龄来确定结果呢还是要按照性别来确定结果?

您只给了按照性别的结果,那么当然只能按照性别来进行选择。

如果只给了年龄结果,那么当然只能按照年龄的结果来选择。

如果既给了年龄有给了性别,那么就要根据年龄-性别的结果来选择。

增加选项是个分析过程。而当结束分析过程以后,而选择是基于分析过程的结果之上的。

你可以加入任意个选项。但是当你确定了你的选项以后, 结果不是唯一的么?

家园 问题是:在分析的过程中,要不要加入新的变量?

正像你所说的,如果变量已经确定了,那么结果可能是唯一。

问题是:在分析的过程中,要不要加入新的变量?

因为加入新的变量后,结论可能完全相反。而加不加一个变量,都很难有特别充分的理由。所以,在这样的数据分析中,变量选择是一个非常重要的问题。

家园 欢迎挖坑!把统计偏差的影响多讲些

就我所知,到目前为止,辛普森悖论还没有被普遍接受的解释。所以很适合讨论。

对于统计偏差在辛普森悖论中的影响,我真不清楚。

看看东方射日:不对啊,老酒。中的例子,好像数据扩大10倍或100倍,都不影响这样的情况:当加入一个新的变量,分析结果可能完全相反。

你的帖子中关于降血脂药的例子,只是说明血脂和心脏病发病率之间没有一个简单的线性关系,而且其他因素会影响心脏病发病率。药品公司肯定知道他们商品的缺陷,却用一个中间变量(血脂含量)来代替最终变量进行统计分析,用数据故意误导消费者。这个例子没有选择正确的因变量。

在辛普森悖论中,问题是自变量的变化,会影响分析结果。

家园 加不加变量,是系统模型问题

和统计方法无关。

对统计结果来说,加之前和加之后都是合理的,无论他们有多大的偏差,并且结果不可比较。

家园 我们认识上有差异。我的观点是:变量选取在统计中是很重要的

你说“加不加变量,是系统模型问题”,是另外一种观点。将变量选取和统计分析看作两部分分离的工作。

而我认为变量选取和统计分析是统一在一起的,不可分割的。当然,变量已经事先确定好了,就不需要在进行变量选取这一步了。

我们只是观点不一样。

家园 要求挖坑。很有意思,虽然和earthcolor的本意不完全一样
家园 我的理解,一是建模,二是利用已有统计结果作判断

统计模型提供了判断的基础,“判断”本身也涉及到规则确定。统计模型会需要调整,“判断”规则也可能会需要调整。最终则取决于效果。

家园 赞同

我也认为应该称为辛普森谬误。楼下举的几个例子,如果从采样空间的先验概率分布看,是很容易理解的。

所以做统计时不应该只看均值,还需要考虑样本分布的情况。比如男女生入学比例的那个问题,各个学院的录取率相差很多,样本分布是multi-model,均值代表不了什么,一算p-value就说明问题了。

家园 这不是加不加变量的问题

统计方法本身就有问题。

如果只比较均值不能说明什么,至少需要加上标准差再用t-test来计算显著性。

您举的例子,如果对所有人群的样本计算p值,显著性一定是不高的。

赞同
家园 能不能讲仔细一点?

我对p-value计算不了解。能不能用男女生入学问题作一个例子,帮我们普及一下?

家园 本来想卖个破绽趁机溜掉

铁老大都说话了面子不能不给。那我写一个,写一个啊。

家园 “疗效好坏”是如何比较的呢?除了平均值?考不考虑标准差?

和平均值如何综合考虑的呢?

全看树展主题 · 分页首页 上页
/ 4
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河