科技巨头为何纷纷投身专用超级计算机?从降维打击的超算安腾说起

近年来,全球科技巨头纷纷加大对专用超级计算机的研发力度,力求在瞬息万变的未来市场占据主导地位。例如,今年早些时候,算力巨头英伟达推出了专为AI任务设计的企业级超算Eos,其在纯AI计算领域的性能堪称翘楚。与此同时,特斯拉也不甘示弱,为加速自动驾驶技术与人形机器人项目的研发,其自主研发的超级计算机Dojo已于2023年7月开始落地投产,其强大的算力已在全球范围内崭露头角。为何科技巨头纷纷投身专用超级计算机?

来源:特斯拉

投身专用超级计算机  只为实现最佳计算效率

全球超算竞赛持续白热化,从不断刷新的全球超算Top500排行榜中可见一斑,尤其在短短六年间,最强超算的性能增速超过了十倍。然而,除了围绕运算速度的激烈角逐,专用超级计算机领域逐渐崭露头角,成为一个不可忽视的焦点。这类超算在特定应用场景下追求计算效率的极致优化,通过牺牲一定的通用性,实现针对特定问题的最高性能表现和计算效率,从而在各专业细分领域展现无可比拟的竞争优势。不过,这类专用超算由于往往不会参选诸如超算Top500的榜单,一直以来都鲜少受到关注。

科技巨头们纷纷研发专用超算,是因为它们意识到只有针对特定领域或任务进行深度定制化设计,才能有效克服通用超级计算机在处理复杂计算密集型问题时可能出现的数据传输慢、内存访问效率低等瓶颈。通过定制硬件、软件架构和算法优化,专用超算不仅在科学研究、工程技术等领域实现重大突破,抢占技术高地,而且在保证高性能计算需求的同时,降低了成本和能耗,满足了企业和研究机构追求科研创新与经济效益的双重诉求。

近期,随着AI大模型的兴起,针对算力需求的AI超算也开始崭露头角,专门解决大规模密集AI训练和推理等计算难题,再次证实了专用超算在特定领域内的巨大价值和潜力。

如果要谈论专用超算,那么在生物计算领域最为知名的安腾(Anton)超级计算机无疑极具代表性。它在执行分子动力学模拟任务时展现出了惊人的计算效率,甚至比通用超算Top500榜首的最强超算 Frontier还要高出50 倍以上。自 2007 年首次发布以来,安腾超算迭代升级了三次, 每一代在执行分子动力学模拟时的计算效率都要比同一时期最强大的通用超算快约100倍。凭借其在高性能计算领域的出色表现,安腾超级计算机曾两度荣膺高性能计算领域的最高荣誉——“ACM戈登贝尔奖”。

安腾超级计算机

安腾超级计算机凭什么能降维打击通用超算?

在 1683 年的荷兰,生物学家安东尼·范·列文虎克(Antonie van Leeuwenhoek)自制显微镜,为人类打开了认识微观生物结构和生命现象的窗口。

三百多年后,一台以他的名字命名的计算显微镜——专用超级计算机「安腾」(Anton),在美国的 D. E. Shaw 研究所横空出世,极大地加速了分子运动模拟的计算过程,使得我们能在微秒级别上看到蛋白质运动的「影片」,更进一步打开了微观世界的“视界”。而在超算安腾出现之前,我们只能看到蛋白质运动的「照片」。

分子动力学模拟(Molecular Dynamics Simulation, 简称MD)旨在揭示生物分子在原子级别上的运动规律和相互作用机制,为科研人员提供一个观察药物靶标分子行为的超高分辨率窗口,进而助力设计出更为精准的药物疗法来应对各种疾病。自上世纪80年代以来,计算效率一直是制约分子动力学模拟技术在生物计算领域取得重大突破的关键瓶颈。由于分子行为模拟涉及海量的计算需求,在计算速度受限的情况下,能够模拟的实际生物时间尺度相对较短。而安腾超级计算机(Anton)通过优化计算能耗和提升计算效率,成功地延长了此类分子模拟的可持续时长,为科学研究开辟了新的途径。

在安腾超级计算机的助力下,美国在基础生命科学研究和生物制药领域取得了显著优势,许多基于安腾超算进行的蛋白质折叠和分子动力学模拟的重要研究成果,已在Nature、Science、Cell等权威学术期刊上陆续发表,其科研成果的数量和质量上的突出表现,使得全球科研工作者都为之震撼。

不仅如此,在科研成果转化为实际应用的过程中,安腾超级计算机同样发挥了关键作用。它极大地推动了美国生物制药领域的技术创新和产业发展,创造出可观的市场价值,为新药研发、疾病治疗和医疗健康科技进步注入了强大动力。

Relay Therapeutics 这家美国公司成为药物研发行业龙头的背后,就离不开安腾超算。

新药研发是个黄金赛道,但它回报周期长、成本高,在以往的经验和认知中,要研发一款新药起码要花上 10 年、10 亿美金。而且这个领域充满了失败,据一项来自麻省理工学院的研究统计,2000 年至 2015 年间开发的候选药物中,有 86% 以失败告终。而 Relay 这家于 2016 年才创立的年轻公司,竟仅用了 18 个月、不到 1 亿美金的投入,就确认了一款胆管癌治疗药物 RLY-40089(一种高度选择性的 FGFR2 不可逆和口服小分子抑制剂)的结构,在药物发现行业一鸣惊人。

Relay成为行业新星的背后,离不开安腾超算。从技术路径上来说,Relay成功的关键,在于其创造性地提出了基于运动的药物设计(Motion Based Drug Design(TM),MBDD)的方法,这种方法将以往的蛋白质静视图转变为蛋白质运动的动态视图,这有助于在突变蛋白中发现新的变构袋,从而开展对难成药靶点的研发。

而让蛋白质动起来的,就是第二代安腾超级计算机(Anton2)。Relay 在公司成立伊始,就跟 D.E.Shaw 研究所建立了合作关系,他们的研发人员利用超算安腾对药物靶点和成药小分子的结构进行分子动力学模拟和筛选设计,从而突破了长时间大尺度分子动力学模拟的计算瓶颈。

图片来源:hpcwire

如果没有安腾超算,恐怕 Relay 就不会那么快在 2020 年就登陆纳斯达克,成为全球第二家上市的 AI 制药公司。

另一个值得一提的案例,是在 2020 年 3 月 27 日,D. E. Shaw 研究所发布了由安腾超算模拟的、100 微秒新冠病毒 3CL 蛋白酶 MD 模拟动画及数据。这种蛋白酶是新冠药物开发的一个热门靶点,安腾超算以最短的时间,当时针对 3CL 蛋白酶研发抑制剂提供了非常宝贵的数据。这长达 100 微秒的模拟结果,安腾这台分子动力学模拟专用超算只用了十几天的时间完成计算,这是当今全球最强超算也难以企及的。

那么,为什么安腾超级计算机能算这么快?

显而易见的原因就是它在设计之初就只瞄准了一种计算问题,即加速分子动力学模拟计算。从最初的规划阶段开始,安腾超级计算机就被定向设计为专注于解决单一但计算密集型的分子动力学模拟问题,区别于通用型超级计算机需要应对多种不同类型计算任务的特点。正是这种对特定计算领域的深度聚焦,使安腾在分子动力学模拟方面突破了通用超级计算机的传统性能极限。

安腾超级计算机在进行分子动力学模拟时,尤其注重优化针对通讯密集型并行计算问题的解决方案。不同于普遍服务于访存密集型任务的GPU和通用超级计算机,安腾采取了集成定制化ASIC专用芯片的方式,以最大限度地减少无效数据传输,优化数据存储布局与本地计算操作,并简化指令集以规避非必要的计算步骤。此外,超算安腾通过细粒度划分芯片内部的计算任务,并根据不同精度需求进行差异化调度和分配,使得在模拟分子间复杂相互作用时,能够实现远高于一般计算平台的高效计算性能。

同时,安腾超级计算机的设计理念严格遵循了阿姆达尔定律。这一定律由计算机科学家Gene Amdahl于1967年提出,描述了在系统性能优化过程中,某一组件的改进对其整体性能提升的影响。D.E.Shaw研究所运用这一原理,找准了系统性能提升的关键瓶颈,有针对性地对软硬件资源进行集中优化,以牺牲一定程度的通用性为代价,换取在分子动力学模拟计算领域的巨大性能提升。

中国超算之路:专用化大有可为

在世界超算的竞技场中,中国显然也是其中一支实力强大的队伍。在 2023 年底的超算 Top500 榜单统计中,中国最强超算「神威·太湖之光」已经达到了 93.01 PFlop/s(接近每秒十亿亿次浮点运算)的速度。2014-2017 年期间,「天河二号”和「神威·太湖之光」和「天河二号」还曾连续 4 年问鼎 Top500 的榜首。这些闪亮的数字和名次都显示了我国通用超级计算机冲击科学研究顶峰的势头,但在特定科学领域的应用上,国内的整体步伐则显得没有那么快,而且应用领域较单一,目前主要还是集中在量子计算或者人工智能方面,大规模产业化落地的成果也不是十分突出。

通用型超算固然算力惊人,但在特定的计算问题上,未必比得上规模更小的专用超算。对中国超算的未来发展而言,应用于特定领域的专用超算无疑是一片蓝海,这也是安腾超级计算机带给我们的启示。

不过,在专用超算这条赛道上,无论是从 0 到 1 还是跟跑世界顶尖水平,都不是简单之事。就以安腾超级计算机为例,目前全球仅有的几台机器分别位于美国纽约市 D. E. Shaw 研究所和匹兹堡超算中心,其他机构需要提交美国国家科学院独立专家委员会一份研究提案,可以排队免费使用,但并不接受其他国家学术机构的申请,这已然形成了一种技术垄断。

不仅是美国,其他有实力的国家也都在竞相打造专用超算,比如英伟达 CEO 黄仁勋最近大力鼓吹生物计算,开始和制造商诺和诺德(Novo Nordisk Foundation)联手,在丹麦建立世界上最强大的 AI 超算「Gefion」。在去年年底《自然》发布的“2024 年值得关注的科学事件”中,专用超级计算机也有上榜:文章预测 2024 年研究人员启动欧洲首个百亿亿次的超级计算机「Jupiter」,它每秒能执行一千万亿次计算,后续将被应用于构建医疗目的的人类心脏和大脑数字孪生模型,以及进行地球气候的高分辨率模拟。美国也会安装两台百亿亿次级别的超级计算机,一台是位于伊利诺伊州勒蒙的阿贡国家实验室的「Aurora」,用来绘制大脑神经回路地图;另一台是位于加利福尼亚州劳伦斯利弗莫尔国家实验室的「El Capitan」,它将被用于模拟核武器爆炸效果。

总之,专用超算摆在我们面前的机遇是巨大的,同时这场科技的角逐显然是激烈的,而研发之路必然道阻且长,我们可能会走得慢,但方向要走对,我们需要突出重围,打造一台属于中国自己的「安腾」。