西西河

主题:【整理】说说最近有关biocomputing的事情 -- 喜欢喝冰茶

共:💬27 🌺37 新:
分页树展主题 · 全看首页 上页
/ 2
下页 末页
              • 家园 看broad的定位了

                方法上有不少工作了,至于具体到疾病,它那儿还是有很多机会的,医院、医学院、疾病中心一大票儿,其实要是和sloan联手也不错,不过太强的有时候脾气比较大。

                • 家园 这种合作模式不很成功
                  • 家园 这其实是个实验和计算如何协调的问题

                    通用软件通常不会给做实验的童鞋们,特别是临床样品这类的实验有太深入的帮助,很多时候一定要做计算和做实验的都非常深的卷进去才可能成功。这里面呢有些利益上的问题,传统上,实验是第一位的,做实验的童鞋总觉得做计算的就是按几个button或者写几行code完事儿,如果说干这活儿的是个master的话,这理解也还凑合,可是如果换成个phd就有点儿扯了。很多时候,特别的问题是一定要特别处理的,别忘了任何数学方法都是有前提得。如果计算的真想帮忙,那同样要看很多相关文章,真正理解这个问题的核心和挑战,然后就问题本身想具体的解决方案。这个心血和精力一点都不见得比做实验的童鞋们少,虽然他/她不用晚上熬夜去实验室,但是思考本身,一样不少,甚至更多。这个时候,如果成果出来,其实是双方的心血,但是呢,现状是做计算的童鞋们呢总觉得自己被排斥,看看NCS上实验和计算都有的paper里,计算这块儿做co-1st author有几个?当然,可以说实验是最重要的,可是如果没有后期真正下工夫的数据分析,只给你几十个G的shortreads,你还能claim你的发现吗?做计算的童鞋们付出一样不少啊,不信?做实验的童鞋们可以找两篇计算领域里的比较偏理论的paper弄明白它的算法,就知道做计算的搞明白具体的生物或者医学项目里细节有多痛苦了。做计算这行里,要是生物和计算都得有sense的,training的时间一个普通的phd是不够的。你觉得学门biochem和mole bio就会有bio sense有点儿太乐观了吧。不信做实验的童鞋们去和computer science里面号称做bioinfo的聊聊,看看你们要能互相理解对方得交流到什么程度。还有一个例子就是很多实验室找公司来处理数据,但是有几个真正会很深的涉及项目,因为不好收费啊。在计算生物学领域,像S那篇提到的计算方法,不是没有商业软件的,cluster也不是个问题,但是做那行的公司很少,主要就是如果想出东西,需要一个fulltime phd level employee全身心投入,可这钱怎么算?一小时收200刀不算贵吧,你要让一个完全不了解你那行的达到能够明白问题的关键,估计至少得准备个7、8万付人工资吧,再加上计算成本,100k至少的,可您一个R01剥了皮之后一年还剩多少钱?听有朋友抱怨说,做实验的宁肯让试剂公司敲竹杠,却和做计算的斤斤计较,呵呵,所以很多项目都没法做。这东西某种意义上是个观念问题,现在木办法。

                    • 家园 不是那么简单

                      这里面的关键是争夺跨学科协作的领导权和话语权的问题。在基因组与疾病研究的领域,已经在很大程度上被遗传学家和统计学家领到岔路上去了。

                      • 家园 说白了不还是利益之争

                        倒很想知道做实验的童鞋们,假如两种实验技术的贡献一样大,其中一种自己做不了,那这paper怎么写?

                        这年头总是以前的方法搞不定,正好新出的方法在某些方面有优势,所以嘛,大家就找些事儿来做了,谁叫NIH也支持来着。

    • 家园 补充一点

      NGS和这些个high-throughput high-content技术带来的数据首先需要的是存储和序列级别的预处理,更重要的是有效的统计分析(包括实验设计),现在工业界bioinfo主要偏前者,会后者的才会更加吃香。 学会编程要不了多少时间,要学会统计理论和相关的群体遗传数量遗传需要的时间就是O(n^x) x>>2

      • 家园 即使是预处理都有问题

        从genetics角度上讲,统计用的多些,但是从整个pipeline来讲,其实是bioinfo和biostat合在一起的结果。

        工业界其实重在实验部分,整个数据后期处理部分都弱。厂家邀请的和他们自己都承认这个问题,不过他们仍然把这个事情推出去,因为投入、风险和受益相比不划算。

    • 家园 Not so fast

      生命科学是实验科学

      计算生物学的手段再快,也是基于经验事实

      没有全新实验证据的引导而做大计算是高速干傻事,or, Garbage in, Garbage out.

      • 家园 呵呵,这两个方面

        所基于的就是已有的实验数据。前者如果没有结晶结构,很少有人会去做,而后者正是因为第二代NGS技术的高速发展,才会对后期的计算技术提出挑战。所有做计算生物的童鞋们在claim他们的工作之前,手上是有相当多的间接实验证据的。如果连回答算的东西是不是合理的问题都没想过,八成不是真正生物计算出身的。

        实验方法如果是万能的话,就不会有Computational Biology这个学科了,两者相辅相成,才有可能更好的解决问题。当实验已经称为不可能任务的时候,计算结果同样可以引导整个研究方向。你看看使用前者的好paper,就知道那种系统的运作思路了。

    • 家园 还忘了一件事儿

      就是S上个月的policy forum上有个德州医学院和法学院的童鞋们写的两页纸的有关对DTC的regulation的问题的讨论。

      总得来讲就是实验技术太前,分析技术滞后,特别是数据库匮乏,FDA有点儿迷糊,NIH没什么权利,建议FTC和FDA联合管一下。

    • 家园 这篇?

      Custom-Built Supercomputer Brings Protein Folding Into View

      像我一样对NGS感兴趣的可以看这个

      http://www.oxfordjournals.org/our_journals/bioinformatics/nextgenerationsequencing.html

      • 家园 恩,进步不是一点半点的

        可以说是成千上万倍的。它的一个数据点,几年前就是几十台机器连算一个星期的结果,它只要秒一级的时间就出来了。

        想发好paper的看S那篇。想知道那东西具体干吗的童鞋,07年上半年S上有个review专门讲生物上是如何应用的。手上的东西只要热,一合作基本上就是NS级的文章,如果没那么热,怎么着也是PNAS级的。

        想找工作挣钱的,有很多可看。这个bioinfo的专辑对于感兴趣算法的可以看看,不过有点老。现在的问题是技术太快,09年的数据量现在看起来太小。2nd NGS的机器可以一天30G seq data,不是图像文件哦,只是fasta,光存储都是问题。一台机器连续工作5天就是150G,假定能工作50周,一年的话,就是8个T,这还是非常保守的估计,像公司里都是不停的跑的,连续工作350天,一台就是10个T左右,要是有个十台八台的,一年就是100个T,这个往linux盒子里塞硬盘显然不是个解决办法。

        至于想了解NGS最新的生物应用的童鞋们,查一下N的Methods和Genetics分刊,今年的review都有不少。不过玩儿rare variant的兄弟们最好观望一下,等等新的东西出来。现在的常用算法上有一些问题,特别是variant

分页树展主题 · 全看首页 上页
/ 2
下页 末页


有趣有益,互惠互利;开阔视野,博采众长。
虚拟的网络,真实的人。天南地北客,相逢皆朋友

Copyright © cchere 西西河