基因对比 药物设计的新曙光

服务器在线10月16日报道 起因一:在基因组的研究方面,生物信息学主要研究基因序列拼接、比对、排序、识别、基因测序和功能分析。在蛋白质组学研究方面,生物信息学主要研究蛋白质 的结构(主要是三维结构)和功能。生物信息处理的主要工具是大规模并行计算机系统。基因测序的计算量为5×1020量级,蛋白质折叠的计算量是 30×1022量级。由于生物信息数据的规模极其巨大,因此国内外都开展了生物信息处理算法并行化方向的研究。用万亿次级到千万亿次级计算机来处理生物数 据,迫切需要超级计算机。

起因二:从病毒学研究药物的方面来看,传统药物设计从总体上来讲,缺乏成熟完善的发现途径,具有很大的盲目性,一般平均要筛选10000种化合物以上才能得到一种新药,因此开发效率很低,很难迅速得到合适的新药来治疗越来越多的疑难杂症。

随着计算机技术及计算化学、分子生物学和药物化学的发展,药物设计进入了理性阶段,药物分子设计最为目前新药发现的主要方法,华中农大作物遗传改良国家重 点实验室在此方面做了深入的研究,此次引进的高性能计算平台主要用于基因序列的比对,数据挖掘,需要大型科学计算,不仅要求超级计算机强大的运算能力和海 量的存储,更需要安全稳定的后续保障。
药物分子设计新思路

药物分子设计是目前新药发现的主要方向,它是依据生物化学、酶学、 分子生物学以及遗传学等生命科学的研究成果,针对这些基础研究中所揭示的包括酶、受体、离子通道及核酸等潜在的药物设计靶点,并参考其它类源性配体或天然 产物的化学结构特征,设计出合理的药物分子。计算机辅助药物设计方法(CADD)是药物分子设计的基础。

从20世纪60年代构效关系方法(QSAR)提出 以后,经过40多年的努力和探索,尤其是20世纪90年代以后,随着多种新的方法的出现,CADD方法已经发展成为一门完善和新兴的研究领域,它大大提高 了药物开发的效率,为人们攻克一些顽症提供了崭新的思路和成功的希望。

但是这种方法对于硬件设施的要求却是苛刻的,拿常用的生物信息软件AMBER和 NAMD来讲,其中用于分子(特别是生物分子)动力学模拟的软件Amber并不是哪个具体的程序叫这个名称,而是很好地协调工作的各个程序部分一起提供了 一个强大的理论框架,用于多种通用计算。

AMBER主要提供两部分内容:用于模拟生物分子的一组分子力学力场(无版权限制,也用于其它一些模拟程序中); 分子模拟程序软件包,包含源代码和演示。NAMD软件用于在大规模并行计算机上快速模拟大分子体系的并行分子动力学代码。NAMD用经验力场,如 Amber,CHARMM和Dreiding,通过数值求解运动方程计算原子轨迹。用于预测生物分子的动力学行为和重要性质,如弥散因子,内聚能,等等。

这两种在生物研究方面常用软件在曙光的计算环境可行性、可扩展性分析两项指标上,两者均达到了获得了很好的性能加速比,前者实现在CPU数扩大一倍,实际 运算性能的提高约在1.9左右,接近了线性加速,而后者只有在节点数进一步增加时,才会因为各节点的计算负载较小,而使得网络延迟对计算产生部分影响,进 而影响了加速比的提高,但这也是相当良好的表现了。

五原则奠定生物高性能高门槛

在与实验室的技术人员进行沟通的时候,技术人员提出了五个原则,其中包括实际原则、先进原则、经济原则、扩展原则。
实际原则: 从实际应用出发,随着对未知世界的探索,科研任务越来越重,就需要有高效率的分析辅助设备进行支撑。而这些分析辅助设备不仅取决于高效率的硬件平台,还取决于是否具有专业的软件、编译环境以及软、硬件。

先进原则: 利用先进的计算机技术来建设计算平台和系统,保持系统的先进性。随着技术的发展64位应用已经进入广泛应用的时代。AMD公司发布了命名为OPTERON的新一代64位兼容32位的双核CPU,代表了这一时代的最新发展方向。

经济原则:采用广泛应用且性价比好的产品,既节省投资,又保证设备的先进性。中国的科研力量在国际上还是很薄弱的,要提高我们的地位需要各方面的努力、配合。在设计高性能集群的过程中我们要本着“好钢用在刀刃上”的原则,力求整个系统达到高的性价比。

扩展原则:   系统支持动态扩展。

在系统性能需要提升时,可以很方便地进行扩展。高性能计算的应用需求使计算能力不可能在单一计算机上获得,因此,必须通过构建“网络虚拟超级计算机”或“元计算机”来获得超强的计算能力。

结语

华中农大作物遗传改良国家重点实验室的需求很具备典型性,越来越多的重点实验室随着研究能力的提升而对高性能计算愈加的看重,但是动则上百万的投资并不是 一笔简单的投入,各个实验室都希望自己的解决方案可以根据研究方向的不同而有所偏重,在这一点上,曙光在国内服务器厂商中做的还是不错的,依托中科院背 景,使得曙光研发力量很强,与此同时,多学科交叉人才,也使得曙光的竞争力更为突出了,此次华中农大提出的五个原则也许就是未来生物研究方面高性能计算集 群的入门门槛了。