西西河

主题:Mar.14 Nextstrain上COVID-19解读 -- 陈王奋起

共:💬17 🌺141 新:
全看分页树展 · 主题
家园 Mar.14 Nextstrain上COVID-19解读

非专业胡说,大家随便拍砖。

3月14日Nextstrain上有了477个上传的全序列基因库,其中中国144, 荷兰107,美国51, 英国33。目前水深火热的意大利只有4例,不知道是不是忙得没空了。

图中放的是Radical模式,就是假定有一个根,和这个根出发,不同病毒序列的差异,越远变异越大,同一条径线上最小距离就是1个核苷酸的差异。有较大的片段不同的,就是一条新的径线。

首先出场的中国vs美国:

点看全图

解读一下,中美重合度一般,有交集,但各自有自己的谱系。因为中国的基因序列库多,显得很密,但同样密度下美国的基因多样性比中国高,中国最远的那个变异是香港的,而港人到处跑,感染的病源何处并不清楚。今天早上美国还上传了一个diversence高达14.046的,远高于其他样本,显示美国已经传播很久了,是病毒的起源更有可能。

下面的是中国vs荷兰

点看全图

荷兰目前第二高测序数量,病毒谱系和中国几乎完全不一样,显示该病毒的传播起源于中国的可能性真的不高。荷兰人大概知道点什么,开始大力上传,希望能够解开真相。

美国vs荷兰:

点看全图

美国和荷兰的谱系重叠比中国多得到,嘿嘿。

中国vs英国

点看全图

英国和中国的重叠也很少,说明什么呢?

英国vs荷兰:

点看全图

英国和荷兰的重叠不算少了,有限的几个测序,都这么多重叠,毕竟是亲戚。

我的文中没有放矩形树根图,因为看得懂的人不多。

我解释一下,nextstrain是从GISAID数据库读取数据,再转化成可视化图形的,因为时间更新关系,彼此会有一定差距,还有香港,台湾算不算中国,因此统计上会有一点出入。

在树状图中,根部是自动计算出来的,我猜测是根据最小diversence原则,因此根部的几个数据点的diversence的数据都是10的负13次方,差距及其微小, 所以你用unroot模式显示的时候,一会儿显示美国是根节点,一会儿是中国是根节点,根本原因是软件无法判断谁是根。在矩形树状图上可以看到一排的样本处于根节点位置上,增加一个样本数据,就会导致根节点的diversence变化。

我个人推断是根据样本的总diversence除以总样本数,得到平均diversence,以此来分辨基因的多样性差异,这个方法需要大量的数据,现在还无法确定, 但美国显然处于领先位置,留给中国队的时间不多了。

通宝推:桥上,witten1,青颍路,nettman,明心灵竹,纳米小洞儿,
全看分页树展 · 主题


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河