超算安腾为分子动力学的发展带来了质变

1957年,在加州大学利弗莫尔实验室工作的物理学家Berni Alder,一直思索着一个问题:硬球体(分子)系统在各种条件下会呈现出怎样的行为?

这个问题在当时颇有争议,主流观点认为,固体由于分子之间有吸引力的相互作用而存在,即晶格中原子的规则排列就是使能量最小化的构型,尽管有些理论和方法如蒙特卡洛模拟提出了质疑,但并没有给出有说服力的证明。而Alder早年求学时建立起来的计算视角,似乎顺理成章地将他引入了一个全新的研究路径:分子动力学方法(Molecular Dynamics,MD)。

这一年,Alder和他的同事Thomas Wainwright,在IBM 704计算机上模拟了硬球体系统中的碰撞序列以及系统随时间推移发生的状态变化,发现随着硬球体系统的压缩,它们经历了从液体到固体的转变。他们证明了硬球分子之间并没有吸引力,所以冻结会导致系统熵的最大化而非能量最小化,晶体中球体的规则排列比液体具有更大的移动空间。

硬球流体的相互作用

这被业内认为是首次使用计算机成功模拟多粒子系统动力学的尝试。

当时的算力条件远比不上今天,但这项工作为后续物理学、生物学和化学等领域的研究开辟了新的路径。这些领域的科学家们一直在寻求从物质的微观结构洞察其宏观物理性质的高效研究工具,基于计算模拟的分子动力学正是为了这个需求而诞生。

分子动力学:粒子运动的「显微镜」

分子动力学的基本思想源于牛顿时代,即只要已知系统组分的初始条件和相互作用力,就能通过计算来预测整个系统的行为。

简单概括一下,分子动力学的计算模拟过程,就是按照一定规则为模拟对象(各种粒子)赋予初始位置和速度,让其遵循力学规律运动。然后计算出粒子在每个时间步长的运动状态,得到原子和分子在模拟系统中的运动轨迹、相对位置和能量转化等丰富的信息。依据这些信息,研究人员就可以分析体系的动力学行为、热力学性质等,进而解释和预测物质的各种宏观特性。

计算模拟如今是除了理论和实验之外的第三种主要研究手段,也是分子动力学方法的核心优势。分子动力学也因此兼具理论和实验的双重性质,一方面,它可以做预测,为实验提供可能性和可行性的理论分析;另一方面,它也可以做解释,通过模拟解释实验现象、探讨过程机理等。

经过几十年的发展,分子动力学模拟技术逐渐成熟,从最初的小尺度简单模型模拟能力,升级到能够模拟大尺度复杂模型,成为许多领域不可或缺的科研利器。

例如,在生物化学领域,该方法可以用来复制和预测生物分子如蛋白质的折叠和对接,揭示生命的奥秘;在材料领域,利用分子动力学可以模拟材料在特定环境下的性质、相变过程和稳定性,从而发现高性能的新材料。

分子动力学被发明后的很长一段时间内,登上各领域顶级刊物的研究论文可谓硕果累累,但回顾起来会发现,这门技术在产业落地方面却很少见比较亮眼的成绩。其实,在算法探索方面,分子动力学方法已经走得比较远了,最大的瓶颈就在于计算效率。

而究其原因,分子动力学的核心优势,同时也是导致它计算效率低下的局限性所在。

持续多年的计算效率难题

这要如何理解呢?

我们知道,与其他的分子模拟方法如蒙特卡洛方法显著不同的是,分子动力学引入了时间这一重要维度,可以计算粒子系统随时间推移而发生的动态性质演化,模拟的质量也更高。

与此同时,分子动力学的痛点也在于时间。为了能够与自然过程的动力学相匹配,我们想要的模拟时间跨度当然是要足够长的,这样才能从模拟中得出在统计学上有效的结论,如果模拟时间过短,就无异于仅通过观察一个不完整的脚步就声称得出了人类如何行走的结论。

但现实的难题是,计算机的算力有限,需要对模拟体系的大小、时间步长和总持续时间的选择加以限制,以便计算任务可以在合理的时间内完成,当计算资源受限时,必须缩小模拟体系规模或缩短体系的演化时间,否则模拟效果就会大打折扣。如果要对于大体系(数十万上百万量级)进行计算模拟,就只能在模拟速度和模拟质量之间做出取舍了。一般来说,现有超级计算机每天能够实现的大体系分子动力学模拟时长,几乎都是在皮秒到纳秒的时间尺度。

这无疑是拦在分子动力学技术迈向产业落地的路上的一堵高墙。

拿药物研发行业举例,一直以来,分子动力学技术都难以成为科研人员选取的主流研究方法,这是因为要想研究药物小分子的结构和性质,模拟的时长至少也需要到微秒级别(可能还不够),即便是每天模拟10纳秒的高性能计算机,都需要100天的时间才能模拟1微秒的蛋白动态构象,而为了找到合适的药物分子结构,需要模拟的分子数量至少也是成百上千的,因此如果硬是要靠分子动力学来取代传统实验的筛选,完全是天方夜谭中的天方夜谭。分子动力学模拟要想真正步入新药研发的产业应用,至少还需要三四个数量级的加速,人们普遍认为这需要好几个代际的软硬件效率革命,等上几十年都不为过。

谁曾想,分子动力学发展历史上的一位传奇人物的登场,直接掀起了一场颠覆性的计算效率革命。

David E. Shaw,这位叱咤金融量化领域多年的大牛,在他人生的五十岁之际,毅然转身投入到生物计算的事业中,带领一群顶尖的技术人才,于2007年发明出了分子动力学模拟加速专用超级计算机——Anton(安腾)。

它能够以3-4个数量级的加速比更快地计算模拟更大体系规模、更长模拟时长的生物大分子运动,将分子模拟从纳秒时代带入了微秒甚至毫秒时代。

超算安腾:为加速分子动力学模拟而生

事实上,为了适应各领域计算密集型任务的需求,超级计算机最早在70年代就出现了,后来的Frontier(前沿)等世界最快超算设备也都算力惊人,能够在极短的时间内处理庞大的数据和复杂的计算任务。

但论针对分子动力学模拟的计算任务,通用型超算却远比不上安腾,安腾的实测计算效率比Frontier还要快至少几十倍以上!这是因为安腾的设计初衷只有一个,那就是为了专门加速分子动力学模拟计算。

超级计算机安腾(Anton)图片来源 D.E Shaw Research

从硬件上的芯片、主板和布线,到配套的动力学模拟软件,David E. Shaw团队都做了特殊定制。具体来说,超算安腾有两大突出的创新:

一是采用深度定制的ASIC芯片,可以针对性地执行分子动力学模拟中最消耗算力的任务模块如分子之间相互作用力的计算,为其提供硬件算法上的优化,同时由于这类任务属于通讯密集型,每个节点需要执行的运算并不复杂,对单个计算单元的计算能力要求也就没那么高,所以安腾并没有使用其他并行计算硬件中常见的缓存,而是把更多的硅片面积留给通信和计算性能和优化。

二是在通信网络方面,为了满足分子动力学模拟的快速大规模并行计算需求,安腾将整个服务器紧密排列在一个正方体机箱中,这样就可以降低网络的传输距离,提高节点间通讯效率。

经过如此强大设计的超算安腾一问世,就成了生物计算领域当之无愧的最强王者,破解了多年来分子动力学模拟的计算效率难题。随之而来的,就是分子动力学终于不再局限于学术研究的范畴,而是真正实现了大规模的产业化应用,尤其是在药物研发行业显示了巨大的市场潜力。

正是在超算安腾的帮助下,美国的一个年轻公司Relay Therapeutics在2016年成功确定了一款用于治疗胆管癌的抑制剂药物RLY-4008的结构,Relay利用安腾重塑了新药研发的技术手段,把获取对蛋白质靶点的认识从过去基于静态图转变为基于蛋白质运动的动态影像,这被他们称为“基于运动的药物设计”(Motion Based Drug DesignTM,MBDD)。

Relay提出的MBDD范式 图片来源 Relay官方

在这种新范式下,这款新药的发现仅仅花费了18个月、不到1亿美金,极大地缩短了从药物发现到临床前研究过程中90%的投入时间与成本,打破了药物研发行业的“双十”魔咒。

回到1950年代,Alder和Wainwright曾在布鲁塞尔的统计力学大会上,报告了他们关于使用分子动力学模拟多体系统的研究论文。论文中,他们不仅第一次令人信服地向人们展示了分子动力学的技术价值,而且还特别对这门技术的未来做了畅想:更强大的计算设备将带来更大的可能性。

五十年后的超算安腾,就是对这一旧时预测的完美注脚,也必定会是将来分子动力学发展的重要路径指引。在生物计算和药物研发之外,更多运用分子动力学技术的科学领域,正呼唤着类似安腾这样的专用超级计算机,以创造更多产业落地的可能性。