主题：【整理】说说最近有关biocomputing的事情 -- 喜欢喝冰茶

共:💬27 🌺37 新:

老大河待整

分页树展主题 · 全看首页上页下页末页

- - - - 复 BGI只能做service
        家园 看broad的定位了
        方法上有不少工作了，至于具体到疾病，它那儿还是有很多机会的，医院、医学院、疾病中心一大票儿，其实要是和sloan联手也不错，不过太强的有时候脾气比较大。
        复看broad的定位了
        家园 这种合作模式不很成功
        复这种合作模式不很成功
        家园 这其实是个实验和计算如何协调的问题
        通用软件通常不会给做实验的童鞋们，特别是临床样品这类的实验有太深入的帮助，很多时候一定要做计算和做实验的都非常深的卷进去才可能成功。这里面呢有些利益上的问题，传统上，实验是第一位的，做实验的童鞋总觉得做计算的就是按几个button或者写几行code完事儿，如果说干这活儿的是个master的话，这理解也还凑合，可是如果换成个phd就有点儿扯了。很多时候，特别的问题是一定要特别处理的，别忘了任何数学方法都是有前提得。如果计算的真想帮忙，那同样要看很多相关文章，真正理解这个问题的核心和挑战，然后就问题本身想具体的解决方案。这个心血和精力一点都不见得比做实验的童鞋们少，虽然他／她不用晚上熬夜去实验室，但是思考本身，一样不少，甚至更多。这个时候，如果成果出来，其实是双方的心血，但是呢，现状是做计算的童鞋们呢总觉得自己被排斥，看看NCS上实验和计算都有的paper里，计算这块儿做co－1st author有几个？当然，可以说实验是最重要的，可是如果没有后期真正下工夫的数据分析，只给你几十个G的shortreads，你还能claim你的发现吗？做计算的童鞋们付出一样不少啊，不信？做实验的童鞋们可以找两篇计算领域里的比较偏理论的paper弄明白它的算法，就知道做计算的搞明白具体的生物或者医学项目里细节有多痛苦了。做计算这行里，要是生物和计算都得有sense的，training的时间一个普通的phd是不够的。你觉得学门biochem和mole bio就会有bio sense有点儿太乐观了吧。不信做实验的童鞋们去和computer science里面号称做bioinfo的聊聊，看看你们要能互相理解对方得交流到什么程度。还有一个例子就是很多实验室找公司来处理数据，但是有几个真正会很深的涉及项目，因为不好收费啊。在计算生物学领域，像S那篇提到的计算方法，不是没有商业软件的，cluster也不是个问题，但是做那行的公司很少，主要就是如果想出东西，需要一个fulltime phd level employee全身心投入，可这钱怎么算？一小时收200刀不算贵吧，你要让一个完全不了解你那行的达到能够明白问题的关键，估计至少得准备个7、8万付人工资吧，再加上计算成本，100k至少的，可您一个R01剥了皮之后一年还剩多少钱？听有朋友抱怨说，做实验的宁肯让试剂公司敲竹杠，却和做计算的斤斤计较，呵呵，所以很多项目都没法做。这东西某种意义上是个观念问题，现在木办法。
        复这其实是个实验和计算如何协调的问题
        家园 不是那么简单
        这里面的关键是争夺跨学科协作的领导权和话语权的问题。在基因组与疾病研究的领域，已经在很大程度上被遗传学家和统计学家领到岔路上去了。
        复不是那么简单
        家园 说白了不还是利益之争
        倒很想知道做实验的童鞋们，假如两种实验技术的贡献一样大，其中一种自己做不了，那这paper怎么写？
        这年头总是以前的方法搞不定，正好新出的方法在某些方面有优势，所以嘛，大家就找些事儿来做了，谁叫NIH也支持来着。
- 复【整理】说说最近有关biocomputing的事情
  家园 补充一点
  NGS和这些个high-throughput high-content技术带来的数据首先需要的是存储和序列级别的预处理，更重要的是有效的统计分析（包括实验设计），现在工业界bioinfo主要偏前者，会后者的才会更加吃香。学会编程要不了多少时间，要学会统计理论和相关的群体遗传数量遗传需要的时间就是O(n^x) x>>2
  - 复补充一点
    家园 即使是预处理都有问题
    从genetics角度上讲，统计用的多些，但是从整个pipeline来讲，其实是bioinfo和biostat合在一起的结果。
    工业界其实重在实验部分，整个数据后期处理部分都弱。厂家邀请的和他们自己都承认这个问题，不过他们仍然把这个事情推出去，因为投入、风险和受益相比不划算。
- 复【整理】说说最近有关biocomputing的事情
  家园 Not so fast
  生命科学是实验科学。
  计算生物学的手段再快，也是基于经验事实。
  没有全新实验证据的引导而做大计算是高速干傻事，or, Garbage in, Garbage out.
  - 复 Not so fast
    家园 呵呵，这两个方面
    所基于的就是已有的实验数据。前者如果没有结晶结构，很少有人会去做，而后者正是因为第二代NGS技术的高速发展，才会对后期的计算技术提出挑战。所有做计算生物的童鞋们在claim他们的工作之前，手上是有相当多的间接实验证据的。如果连回答算的东西是不是合理的问题都没想过，八成不是真正生物计算出身的。
    实验方法如果是万能的话，就不会有Computational Biology这个学科了，两者相辅相成，才有可能更好的解决问题。当实验已经称为不可能任务的时候，计算结果同样可以引导整个研究方向。你看看使用前者的好paper，就知道那种系统的运作思路了。
- 复【整理】说说最近有关biocomputing的事情
  家园 还忘了一件事儿
  就是S上个月的policy forum上有个德州医学院和法学院的童鞋们写的两页纸的有关对DTC的regulation的问题的讨论。
  总得来讲就是实验技术太前，分析技术滞后，特别是数据库匮乏，FDA有点儿迷糊，NIH没什么权利，建议FTC和FDA联合管一下。
- 复【整理】说说最近有关biocomputing的事情
  家园 这篇？
  Custom-Built Supercomputer Brings Protein Folding Into View
  像我一样对NGS感兴趣的可以看这个
  http://www.oxfordjournals.org/our_journals/bioinformatics/nextgenerationsequencing.html
  - 复这篇？
    家园 恩，进步不是一点半点的
    可以说是成千上万倍的。它的一个数据点，几年前就是几十台机器连算一个星期的结果，它只要秒一级的时间就出来了。
    想发好paper的看S那篇。想知道那东西具体干吗的童鞋，07年上半年S上有个review专门讲生物上是如何应用的。手上的东西只要热，一合作基本上就是NS级的文章，如果没那么热，怎么着也是PNAS级的。
    想找工作挣钱的，有很多可看。这个bioinfo的专辑对于感兴趣算法的可以看看，不过有点老。现在的问题是技术太快，09年的数据量现在看起来太小。2nd NGS的机器可以一天30G seq data，不是图像文件哦，只是fasta，光存储都是问题。一台机器连续工作5天就是150G，假定能工作50周，一年的话，就是8个T，这还是非常保守的估计，像公司里都是不停的跑的，连续工作350天，一台就是10个T左右，要是有个十台八台的，一年就是100个T，这个往linux盒子里塞硬盘显然不是个解决办法。
    至于想了解NGS最新的生物应用的童鞋们，查一下N的Methods和Genetics分刊，今年的review都有不少。不过玩儿rare variant的兄弟们最好观望一下，等等新的东西出来。现在的常用算法上有一些问题，特别是variant

分页树展主题 · 全看首页上页下页末页

有趣有益，互惠互利；开阔视野，博采众长。
虚拟的网络，真实的人。天南地北客，相逢皆朋友

版面群落趣味社区帮助常见问题网站简介基本河规隐私条款使用条款广告说明