未命名

高性能计算破解生命科学“达芬奇密码”

我们的工作轰动效应很大,老百姓不明白我们到底是做什么的,但是知道花钱花得很多,其实我们的工作说起来并不复杂。对于生物来说,不管是小到细菌,大到人、植物也好,遗传物质都是DNA,我们所的主要工作就是负责把这些遗传物质的顺序排列解析出来。”中科院北京基因组研究所的胡松年博士在谈及基因所的工作时如是说道。

  然而基因测序与我们的日常生活有哪些关联呢?胡松年介绍说,其实基因测序与生活的关联度非常高。比如说亲子鉴定,就是通过父母与子女间的基因相似性来完成的。

  另外一个让人期待的研究就是个体化药物治疗,“同样的症状,有些人吃牛黄解毒片就能管用,有些人吃同样的剂量可能一点效果都没有,原因就在于人体里面有很多负责代谢药物的酶,由于个体之间的差别,会造成同样一种药物有的人就不吸收,有的人吸收得太快了,没等发挥作用就排出去了,从而呈现出不同的疗效。这种合适或不合适,其实是天生携带来的,可以通过检测这几个主要的酶是什么样的代谢类型,来确定最适合的药物成分。”

高性能计算:必不可少的利器

  透过胡松年的娓娓道来,作为生命科学研究的基础性工作,基因测序似乎并不神秘。然而,基因测序毕竟是当前全球的顶尖研究领域,它不仅需要极为精密的测序仪将未知的基因序列解读出来,更重要的是,还要利用高性能计算机对基因进行比较、分析,从而精确的了解到每个基因片段所发挥的作用。“基因所的工作就像战争时期的情报部门,不仅要截获敌方的密码情报,更要利用各种技术手段,将隐藏在杂乱密码中的信息准确的破译出来。”胡松年的形象比喻能够让人更轻松的了解到基因所的工作性质。

  因此,在基因所的研究工作中,高性能计算机显然是必不可少的设备。据介绍,目前北京基因组研究所采用了浪潮天梭TS10000刀片集群及存储设备,计算部分采用12台刀片中心,配置了112片刀片,总体的运算速度达到10万亿次/秒;存储部分采用9套48TB的盘阵,达到432TB的总容量,满足海量生物数据存储的需求;网络部分集中了万兆、千兆、Infiniband、FC等多种网络环境构建而成。系统将集群监控软件、生物信息软件、数据库等集成其中,构成高性能生物信息专用集群系统。

  谈及为何采用国产厂商浪潮的解决方案时,身为项目负责人的胡松年颇有感慨:“所里决定上设备之后,成立了7人的项目筹备组,并吸引到4家国内外厂商投标。在研讨过所有厂商的解决方案后,我们7个人都觉得浪潮对于我们生物这部分的理解可能针对性感觉更好一些。”

  在同行们大都选择国外品牌的情况下,胡松年也坦诚,选择浪潮给他和同事们带来了莫大的压力。“大家买什么你基本就跟着买什么,我们这行就是这样。”不过,正是对当初决定的坚持,也让胡松年得到了出乎意料的回报。

120种应用与“圆桌会议”

  事情还要从浪潮中标之后说起。虽然浪潮的解决方案“看似很美”,但还是一个构想,能否把方案变为现实还要看实际的部署情况。然而,在部署刚刚开始的时候,项目组就碰到了第一个难题:怎么把120多种应用部署到一台集群上并能够顺利运行?

  120多种应用由于算法、算例以及参数设置等方面的不同,想要统一部署,难度可想而知。“其实,我自己都没想到这套机器到最后实际运算起来的复杂性,比我想象的都要复杂得多。我们一开始准备的是‘一拖四’的方案,但是真的实际做起来的话,根本就不行,‘一拖四’又换成‘一拖二’,后来还是不行,只能换成单对单了。”胡松年苦笑着说道。

  当部署工作陷入困境之时,更大的争执爆发了。问题的起因在于基因所建立的“1+1”搭档模式,即一个人做生物研究,另一个做信息技术。但是,数学上“1+1=2”的恒等式在现实中往往不能成立,当两个人的想法“南辕北辙”的时候,1+1最大的可能结果是0。“做生物研究的人不会深入的了解你这个程序的并行是怎么实现的,而搞信息人的则坚持要你讲清楚这个算法是怎么实现的,两个人由于知识构成不同,沟通经常出现问题,。”

  这时,时任项目实施总负责人的浪潮集团高性能事业部总经理刘军提出了一个解决办法,“我们的做法是召集项目组成员每周开两次例会,由浪潮的工程师充当‘翻译’,依照问题的重要程度不同,从比重最大的部分开始一项项解决。”随着被戏称为“圆桌会议”的例会定期举行,项目实施中碰到的难题也逐一得到了解决。

  在战斗中结下的友谊显然更加深厚,在意识到浪潮工程师的能力之后,胡松年甚至对刘军提出“在我们所里,专门给你们浪潮留了几个位置”,公然动起了“挖墙脚”的心思。同时,胡松年也邀请浪潮参与到基因所的一些重要研究项目中,以解决研究中随时可能碰到的技术问题。

24小时的运维“管家”

  在机器部署完成后,基因所的研究工作也步入了快车道。“我们每个月的数据产量有1TB,比以前翻了十几倍,高性能集群基本上处于满负荷运转的状态。”胡松年介绍说,以前一个RUN跑下来要花一星期以上的时间,现在已经缩短到2-3天。

  不过,满负荷运转带来的不光是效率的提升,同时也造成了巨大的运维压力,特别是在应用数量达到120多种,用户数量高达几百人的情况下,问题更是难以避免。“还好,浪潮的工程师离得很近,基本上一打电话就到,有一段时间工程师几乎天天都在我们这里。”对于浪潮的服务,胡松年显然非常满意。

  比及时的服务更重要的是,针对基因所应用复杂、用户基数大的情况,浪潮还协助基因所建立了完善的集群使用管理条例。“现在我们的学生都必须要学会基本的提交任务格式,如果提交的格式不符合规定,是没办法使用集群跑数据的。”胡松年介绍说。规范的管理模式的建立,大大减轻了基因所的日常维护任务,并充分发挥出集群的效率。

artjsLoadCompleteStyle("http://www1.pconline.com.cn/2009/article09/article09.css")

相关文章