西西河

主题投票【原创】辛普森悖论 -- earthcolor

共:💬52 🌺28 新:
  • 投票信息

    单选,参与 19 / 9

    0
    4/2
    0
    11/5
    0
    4/2
    0
    0/0
全看树展主题 · 分页首页 上页
/ 4
下页 末页
家园 好像不可能吧。至少对同一组实验数据不可能。

对整体测试人群(不分男女),A比较有效。但是,如果将测试人群中的男性和女性分别考虑,B无论单独对男性还是对女性都比较有效。

家园 老马丁给出了一个例子

不过新的变量是学校里的哪一个系

家园 咋不可能捏?举一个例子:

咋不可能捏?举一个例子:

假设整体有20个样本,其中男女各10个

男的中符合A的有一个,平均是90;符合B的有九个平均是80;

女的中符合A的有六个平均是60;符合B的有四个,平均是55;

所以对于男女两组,均是A有利

整体上捏?

符合A的有七个,平均约是64

符合B的有13个,平均约是72

整体上B有利


本帖一共被 1 帖 引用 (帖内工具实现)
家园 除非A和B进行的是不同的试验

除非A和B进行的是不同的试验,试验中男女人数也不相同,也不成比例。

否则你能构造一个类似的数据使得“对整体测试人群(不分男女),A比较有效。但是,如果将测试人群中的男性和女性分别考虑,B无论单独对男性还是对女性都比较有效。”吗?老马丁举的例子是二维的统计数据,和你说的情况不同。一维的这样数据不可能有吧。至少我现在还想不出来。因为

BM×MN+BW×WN=B×TN;

AM×MN+AW×WN=A×TN

MN是男人数,WN是女人数,TN是总人数。只要BM>AM且BW>AW,必然有B>A。

家园 送花!例子很好!
家园 看楼下我的例子

东方射日:咋不可能捏?举一个例子:

家园 怎么想都觉得不对头 --- 兄弟能否拿出具体数字来说明一下呀?

楼下东方兄弟的例子俺也完全看不懂。老马丁举的例子非常好,而且与我工作中的案例完全吻合,不过那是个权重问题,而您这个例子应该没有权重问题,而且东方所举的例子里男女都是10人,也不存在权重问题,所以我就彻底糊涂了...

我来举个例子吧,男女都是100人,按您的条件,B单独对男性有效率高于A,B单独对女性有效率也高于A,所以应该是:

..................A..........B.........A有效率.....B有效率

男 100.......70.........80........... 70% < 80%

女 100.......50.........60........... 50% < 60%

总 200......120.......140.......... 60% < 70%

无论怎样弄,B对于男+女,永远都比A高。怎么会出现B比A低的情况呢?

家园 不对啊,老酒。

不对啊,老酒。

你说的例子不对啊。男女各100个样本,在做药品试验是不可能每个人均服用A和B的。既条件A和条件B是互斥关系。只能是A或B的关系,这里就有一个试验A或者B的比例问题。当然,我们在实验中,为了防止不同变量带入的影响,会保持各个变量在不同条件下等权。所以不会出现我所说的例子。

例如100个男的使用A和B的各50人,同时也要求100个女的,使用A和B的各50人。这样,不会出现辛普森悖论。

但即使在这种情况下,在同一样本群中,我们继续引入其他变量一定会打破平衡的,例如除了性别,我如果再加入年龄,过往病史,甚至星座,对袁崇焕是否是英雄的看法,喜欢奔驰还是宝马等、、、

在大样本试验中,或是在实际统计中,是很难做到所有变量在不同条件下等权的,那就会出现辛普森悖论。

例如,在楼主的文中,统计抽烟和学习成绩的关系,我们无法真正做到所有变量等权。不可能在抽烟/不抽烟对照组中男女、年龄、种族等等都相同。

其实涉及的问题就是变量和条件的相关性。

我再举个例子:

在抽样试验中,抽取男女各1000个样本,比较伟哥和壮哥对延长性高潮的效用。

其中有400个男的使用伟哥,总有效率是91%;600个男的使用壮哥,总有效率是90%; 600个女的使用伟哥,总有效率是10%;400个女男的使用壮哥,总有效率是9%。

于是伟哥公司说我们的产品无论对男女,效果都比壮哥好。

壮哥公司说,不对啊,总有效率伟哥才(400*91 + 600*10)/1000 = 42.4%;而我们壮哥的总有效率是(600*90 + 400*9)/1000 = 58.6%。明显好过伟哥。

当然明眼人知道他们都是在忽悠人。1个百分点的差别在1000个样本中实在说不上显著的差别。唯一说明问题的就是无论伟哥还是壮哥对男的效果好与女的。


本帖一共被 2 帖 引用 (帖内工具实现)
家园 送花!你的例子很不错!

请问老兄是搞哪方面的?

家园 讨论一下

东方射日已经给了例子,我就不费力了。东方射日:不对啊,老酒。

在老酒的帖子,提到送哭胖。送哭胖是可以控制的:公司有权决定送不送哭胖。

但在另外一些例子中,一些变量是不受试验设计者控制的:比如学生的入学申请、抽不抽烟。这些变量不受试验者控制,但对结果有影响。重要的是样本集中的分布不均匀。

所以,在分析中,要将不受控制的变量和受控的变量区分开来。

根据我的理解,对于不受控制的变量所产生的辛普森悖论,还没有被一致接受的解释。就看自己的出发点了:从全局看,某一个方案较优;从各个局部看,另一个方案较优。看到这一点,让我对不同决策者的考虑思路有了一些理解。

家园 这些明白了。花谢兄弟敲字解释

俺先前没想到互斥的要求。

兄弟说的很对,就这个例子来说,在设计时避免出现权重不同就好了。但引入更多变量后可能无法避免权重不同的情况。这就要看那个变量是否符合人们的常识了...

家园 这下明白啦

俺平时的工作主要是针对人为设计的实验出来的数据进行分析,对自然生成、人无法控制的数据的分析,就不行了。

老马丁的例子很经典,但那个例子中不牵扯到做决定(做选择)的问题。如果有那种需要做选择的问题,是否可以有其他角度、因素来帮助我们做出合理的选择呢?

家园 没有经验,胡乱说几句

这个问题比较大,我没有经验。考虑了一会,感觉还是只能胡乱说几句。

先解释一下,在老马丁的例子中,有一个隐含的下一步选择:要不要改变招生政策?如果数据分析显示有性别歧视,就要改变招生政策了。很多数据分析,无论原数据中有无可控变量,都是为下一步选择做准备的。

再说几句体外话:在很多的统计的实验设计中,主要考虑所得到的数据是否能更好地验证给出的假设,实验设计是为假设验证服务的。在假设验证之后(无论接受与否),可以根据假设验证的结果,采取相应的选择或决策。

我自己对假设生成更感兴趣。有了好的假设,才可能在假设验证中发现有数据支持的结论。当然,这不是说假设生成比假设验证更重要。而是想强调,假设生成和假设验证是统一的一个整体中。统计课本中,更强调假设验证。这个现象的原因可能是假设验证已经比较系统化,而假设生成还比较初级。

好了,回到主题。下面完全是个人的理解,没有理论或技术支持。我随便说说,你随便看看。

如果一个公司要有一个全套的D marketing 策略,那么公司一定要建立自己的客户模型:哪一类客户对哪一类广告感兴趣,并会有购买的行为?我想,可能需要多次收集数据,才可能达到这个目标。

如果一次只想验证一个假设,比如一段时间的广告,对产品的销售额有多大的提高?这样的假设验证容易操作一些。但结果不一定可靠,因为可能还有很多因素在起作用。举个例子,如果一个公司在11月做了广告。过了元旦,发现产品的销量比前几个月、比往年都增加了很多。这会不会是广告的效果呢?我认为还更具体的分析:要过圣诞了、过元旦了,所有同类的消费都增加了;可能当年的经济好,所有同类的消费都增加了。

我的建议是:1)尽量建立一个整体模型,根据整体模型,选择每次要进行的假设检验。

2)如果能有同类公司的同时期的数据,可能比较更有效果

家园 当然是选b

话说市场有两种治疗某种疾病的药A和B(没有其他选择),统计结果显示:对整体测试人群(不分男女),A比较有效。但是,如果将测试人群中的男性和女性分别考虑,B无论单独对男性还是对女性都比较有效。请问:你作为医生,来了一个病人,你会选择哪一种药?

出现这种结果,必然的原因是A和B的测试样本中男女比例不同。。当考虑到相同的男女比例时,B的总体效果肯定比A好。

实际上如果是任意抽取人群(不考虑男女),有一个隐含的条件就是,男女比例符合正常社会男女比例。

这个序列可以一直列下去,根据这些特征,最后有可能就找到一个特定的人:他的成绩好或不好。但是,抽烟到底对智力有什么影响,可能是仁者见仁,智者见智了。

至于这个,当用一系列的条件附加以后,就已经失去了统计对比的意义了。

有个是否可以比较的问题在吧。

家园 你前面说的有歧义拉

"对整体测试人群(不分男女)"前面应该加一句,"对两个比例不同的测试人群".不然别人以为是对同一个样本的计算.

全看树展主题 · 分页首页 上页
/ 4
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河