软硬兼施,NVIDIA让“大型语言模型”听得懂生物学专业语言

领先的制药公司、生物技术初创企业和前沿生物研究人员正在使用NVIDIA BioNeMo LLM服务和框架来开发用于生成、预测和理解生物分子数据的AI应用。

图片由Mahendra awale提供,通过维基共享资源依据CC BY-SA 3.0协议授权

科学家们致力于探索DNA、蛋白质和其他生命体的“基础构建”,以期获得全新的洞察,而今日在NVIDIA GTC上发布的NVIDIA BioNeMo框架将为其研究提供加速,其全栈计算能力为医疗领域带来了更多可能性。

NVIDIA BioNeMo框架用于训练和部署超算规模的大型生物分子语言模型,帮助科学家更好地了解疾病,并为患者找到治疗方法。该大型语言模型(LLM)框架将支持化学、蛋白质、DNA和RNA数据格式。

NVIDIA BioNeMo是NVIDIA Clara Discovery药物研发框架、应用和AI模型集的一部分。

正如AI通过LLM来学习如何理解人类语言,该框架也在学习生物学和化学语言。NVIDIA BioNeMo使基于生物分子数据的大规模神经网络训练更为轻松,助力研究人员发现生物序列中的新模式并获得新洞察。研究人员可将这些洞察与生物特性或功能乃至人类健康状况联系起来。

NVIDIA BioNeMo框架使科学家能够使用更大的数据集来训练大规模语言模型,打造出性能更强大的神经网络。NVIDIA的GPU优化软件中心——NVIDIA GPU Cloud上将提供该框架的抢先体验。

除语言模型框架之外,NVIDIA BioNeMo还提供一项云API服务,该服务将支持越来越多的预训练AI模型。

BioNeMo框架支持更大的模型和更准确的预测

如今,使用自然语言处理模型来处理生物数据的科学家一般会训练相对较小、需要自定义预处理的神经网络。通过BioNeMo,科学家可将其扩展为具有数十亿参数的LLM,捕捉分子结构、蛋白质溶解度等信息。

BioNeMo是NVIDIA NeMo Megatron框架的扩展,可实现大规模自监督语言模型的GPU加速训练。这一针对特定领域的框架支持以SMILES化学结构标记表征的分子数据、以及以FASTA氨基酸和核酸序列字符串表征的分子数据。

OpenFold联盟创始成员、哥伦比亚大学系统生物学系助理教授Mohammed AlQuraishi表示:“该框架使整个医疗和生命科学行业的研究人员都能利用快速增长的生物和化学数据集。这样就能更轻松地发现和设计出精准针对疾病分子特征的治疗方法。”

BioNeMo服务提供用于化学和生物学的LLM

NVIDIA BioNeMo LLM服务将为希望快速掌握数字化的生物学和化学领域应用的LLM的开发者提供四个预训练语言模型。这些模型针对推理进行了优化,并将通过NVIDIA DGX Foundry上运行的云端API提供抢先体验。

  • ESM-1这一最初由Meta AI Labs发布的蛋白质LLM能够处理氨基酸序列,最终生成用于预测各种蛋白质特性和功能的表征。它还提高了科学家理解蛋白质结构的能力。
  • OpenFold这是由学术界和产业界共同成立的Openfold联盟创建的sota蛋白质建模工具,它将可以通过BioNeMo服务提供其开源AI工作流程。
  • MegaMolBART这一基于14亿分子训练而成的生成式化学模型可用于反应预测、分子优化和新分子的生成。
  • ProtT5该模型是在慕尼黑工业大学RostLab的带领下合作开发的,NVIDIA也是该项目的参与者之一。PortT5将ESM-1b等蛋白质LLM的功能扩展到序列生成。

未来,使用BioNeMo LLM服务的研究人员将能够通过fine-tuning以及p-tuning等新技术,在几小时内完成LLM模型的自定义,提高应用的准确性。相比原来动辄数百万个样本的数据集,p-tuning训练方法只需要包含几百个样本的数据集。

初创企业、研究人员和制药公司纷纷采用NVIDIA BioNeMo

生物技术和制药行业的专家正在采用NVIDIA BioNeMo,为新药研发提供支持。

  • 阿斯利康和NVIDIA使用Cambridge-1超级计算机开发了 BioNeMo LLM 服务中的 MegaMolBART模型。这家全球生物制药公司将使用BioNeMo框架,在涵盖小分子和蛋白质的数据集上训练一些全球最大的语言模型。该数据集日后还将涵盖DNA。
  • 麻省理工学院和哈佛大学旗下博德研究所的研究人员正在与NVIDIA一起使用BioNeMo框架来开发新一代DNA语言模型。这些模型将被整合至Terra中。Terra是一个由博德研究所、微软和Verily共同开发的云平台,生物医学研究人员能够通过该平台,安全、大规模地共享、访问和分析数据。这些AI模型还将被添加到BioNeMo服务集中。
  • OpenFold联盟计划使用BioNeMo框架来推进其AI模型开发工作。这些模型可根据氨基酸序列来预测分子结构,并达到接近实验的准确性。
  • Peptone专注于构建固有无序蛋白质(缺乏稳定3D结构的蛋白质)的模型。该公司正与NVIDIA一起使用同样作为BioNeMo基础的NeMo框架来开发ESM模型版本。该项目计划在NVIDIA的Cambridge-1超级计算机上运行,将推动Peptone的新药研发工作。
  • 位于芝加哥的生物技术公司Evozyne将工程与深度学习技术相结合,致力于设计能够解决长期治疗和可持续发展难题的新型蛋白质。

Evozyne联合创始人兼计算主管Andrew Ferguson表示:“BioNeMo框架使我们能够在设计-构建-测试周期内,高效利用LLM的力量,基于数据进行蛋白质设计。这将直接影响我们新型功能性蛋白的设计,并将在人类健康和可持续发展方面得以应用。”

NVIDIA初创加速计划成员、生物技术初创企业Peptone的机器学习负责人Istvan Redl表示:“随着大型语言模型在蛋白质领域的应用日益广泛,高效训练LLM并快速调整模型架构的能力变得非常重要。我们相信BioNeMo框架将满足可扩展性和快速实验这两大工程方面的需求。”

即刻注册申请NVIDIA BioNeMo LLM服务或BioNeMo框架抢先体验。如有意向亲手体验BioNeMo中的MegaMolBART化学模型,请向NVIDIA LaunchPad申请免费LLM训练和部署实验室。