- 程序有所改变。发帖如还有问题请报告
- 【征集】西西河的经济学,及清流措施,需要主动参与者,『稷下学宫』新认证方式,24年网站打算和努力目标
主题:【求助】一道概率题, 通宝感谢! -- 王树
某地有343个古墓,随机取样16个,这16个样本的线粒体高可变区测序结果完全相同。
问:在这种情况下,这343个墓葬线粒体高可变区测序结果全部相同的置信度是多少?
--------------
等价问题:
从343个小球中随机取出16个,发现这个16个颜色都是白色。问,343个小球全是白色的置信度是多少?
--------------
还有下面的背景可供参考:
这16个样本,来自山东某个遗址,距今4800年,都是D5型的。
山东另一个距今2000年前的遗址,D5型占9%。
对于D5型而言,现代山东泰安的一个人群占8%,青岛的一个人群占10%,淄博的一个人群是6%。
应该问判定“343个小球全是白色的”置信度是多少?
已在原帖中修改。
343-16=327, 结果应该就是三百二十八分之一。这个328分之一是基于一个假定,那就是小球只有黑白之分。
你给的条件是随机选取的,那就是这一个结果不影响下一个。但是基因可能不同,因为人群有聚居的特性,所以实际考虑可能性要大得多。
因为很难判定原始数据符合哪一类概率分布。
而且抽样样本16也太小了,一般都要30以上的。
套公式算出来的置信度不会太高的。
还不如把所有样本的测序都做了。
别的情况看不懂,所以用你这个小球的例子,球的颜色是非黑即白,还是有其它颜色?或者有其它颜色,但你只关心白和非白?如果确实只关心非此即彼,假设343个其它性质相同的球中有X个白球,随机连抽16个白球的概率应该很容易算出来,然后“倒着想”什么范围的X最有可能。
下面燕轻笑河友的意见,我猜想也可能是这个方向上的。
虽然题目不尽严谨,题意还是可以推测的。可设343球中白球为n.则:任取16球取法有C16,343(16为上标.343下标,下同),取到16白球有C16,n.则C16,n/C16,343=n/343 可解得n=343即可推断全部为白球。
为了解这道题,我做出一个假设,如果假设不同,答案也不同: 假设最初我对于D5的先验概率没有任何猜测,D5的概率为1/343、2/343直到343/343的概率完全一样。
程序是:
from scipy import misc
x = np.arange(343)
prob = misc.comb(x, 16)/misc.comb(343, 16)
accProb = np.cumsum(prob/sum(prob))
plot(x, 1-accProb)
xlabel("expected tomb number")
ylabel("Prob(D5 tomb number > expected tomb number)")
结果是:
大致可以这么说,当地343个墓穴中,在看到抽样数据之前,我们可以猜测D5墓穴数大于200的概率是143/343=0.41。
看了数据后,D5墓穴数大于200的概率接近于1。大于300的概率接近于0.9.
D5墓穴数精确等于343的概率还是不算大,只有0.05。
如果你采样了200个古墓,它们都是D5,那么D5墓穴数精确等于343的概率能到0.58。总之,采样这个东西,很难给你一个100%的回答。