2023年,随着大模型技术潮流来袭,很多学术和工业机构都争相发布大模型或者基于大模型的AIGC服务,还有很多想入局的机构,他们很快发现,高性能显卡资源非常紧俏。
我想说的是,对于望卡兴叹的人来说,公有云上的计算资源则是非常不错的替代方案。之所以这么说,是因为,很多人都想搭上大模型的顺风车,进而会误以为自己也需要显卡。
从我在几个大模型微信群里的体验来看,一开始群里很热闹。然而,热度很难维持在高点。不久后,一部分人可能会进入更深层次的研究,另外一部分人则看完热闹就撤了。
热度最高时,会有少数人会探讨模型技术细节,更多人则关心拿什么显卡来做训练/推理,言语间,很多人都会因为手里缺少显卡资源而心有不甘,生怕错过大模型的机遇。
冷静过后,很多人也会想自己是否真的需要高性能显卡。思前想后,一些人充值了ChatGPT的Plus会员,以最简便的方式,在第一时间了解世界上已知的最强的大语言模型。
ChatGPT的优良表现让很多人高估了整体大语言模型的表现水平。按照Gartner技术成熟度曲线的经验来看,现在还处于技术吹捧期,现在一拥而上的企业当中,注定有很多会离场,会离场的企业其实不需要这么多显卡。
不得不说,大模型还处于发展的早期阶段,我也相信,在经历过百模大战、百花齐放的阶段之后,能留在大众视野里的肯定会是少数。
这是因为,大模型要的不仅是技术和工程实践经验,还要有高质量的训练数据,还要能负责任地运行,还需要长时间的大量投入,如果投入没有落地为生产力,那么自然不可持续。
总之,阻碍大模型的发展和落地为生产力的原因有很多,不只是算力。
对于更多普通企业用户来说,要做的事就是选出更好的底模型,要么直接调用API,要么基于底模型做微调即可。
对于想要更多研究大模型,甚至把大模型当业务的企业,如果实在找不到充足的资源,那么可以试试把目光转向公有云。
亚马逊云科技提供多种算力资源,理论上,它能在最短的时间里,帮助企业从零开始训练出一个大模型。如果企业觉得模型效果不好,可以对模型进行优化或微调。如果找到了新的技术路径,大可以将这些资源释放掉。
亚马逊云科技大中华区产品部总经理 陈晓建在亚马逊云科技中国峰会上表示,“现如今,创新至关重要,而云技术能更快、更高效地帮助企业创新亚马逊云科技广泛和深入的服务可以让客户摆脱基础架构的束缚,专注于创新。”
事实上,亚马逊云科技上的算力资源非常丰富多样,在Amazon Nitro系统的帮助下,亚马逊云科技开发了非常多的EC2实例类型,而且,在实例性能和整体安全性上都有了质的提升。
为了降低算力资源的成本,亚马逊云科技有包括Graviton系列ARM处理器芯片,还有用于机器学习训练的Trainium和用于机器学习推理的Inferentia,其中,自研的机器学习芯片都可以作为GPU的替代品。
在HuggingFace BERT模型训练时,基于Trainium的Trn1实例和通用的GPU实例对比,在训练的吞吐率上面,单节点的吞吐率可以提升1.2倍,而多节点集群的吞吐率可以提升1.5倍,从成本考虑,单节点成本可以降低1.8倍,集群的成本更是降低了2.3倍。
增强型Trn1n实例的网络带宽跃升至1.6Tbps,可将万余个Trainium芯片构建在一个超大规模集群上,支持对超大模型进行并行训练。增强型Trn1n实例可以用来训练参数规模越来越大的大模型。
基于第一代Inferentia的Inf1实例,与基于通用GPU的EC2实例相比,带来了70%成本的降低。基于Inferentia2的实例在吞吐和延迟方面均有大幅优化,甚至可以用来大规模部署复杂的模型,例如大型语言模型和Diffusion类模型。
Inferentia在设计的时候就考虑到了吞吐率和延迟的优化,在推理BERT模型时,In2实例的吞吐高出三倍,延迟降低了8.1倍,而成本只是通用GPU实例的1/4。在推理Stable Diffusion 2.1时,Inf2实例可实现50%的成本节约。
除了自研芯片,亚马逊云科技上还提供了第三方的训练和推理芯片。
比如,EC2 DL1实例是基于英特尔Habana Labs的Gaudi加速器,Gaudi既能用于训练,也能用于推理,采用Gaudi加速器的EC2 DL1,其性价比相较于用GPU的EC2实例可提高最高40%。
如果用户还是想用GPU来做训练,那么也可以选择亚马逊云科技的EC2 P4系列实例,它采用的是英伟达的A100 GPU,如果想要做更大规模的训练,还可以将EC2 P4部署在 EC2 UltraCluster 的超大规模集群中。
至于最新的H100显卡,也可以关注亚马逊云科技的EC2 P5实例,目前,或许是H100的数量有限,亚马逊云科技的EC2 P5实例也需要额外填表申请才能使用,开放使用也是时间问题。
正如陈晓建所言,“面对算力的需求井喷所带来挑战,我们通过自研芯片提供更好的性价比,通过各种丰富的计算、网络、存储等各种产品的组合应对突发的算力需求,通过Serverless有效降低运维的复杂性,从而简化算力的使用,全面满足用户的多样化的算力需求。”
亚马逊云科技非常务实地提供多种算力服务。
我们还注意到,Amazon EC2 G4ad 实例也用了AMD的显卡,不过G4 实例主要是做推理和图形加速的。前不久亚马逊云科技负责EC2的Dave Brown出现了AMD发布会上,未来是否会推出基于MI300的EC2实例,也未可知。