2022年8月底,英伟达刚发布了不那么好看的第二季度财报,股价也随之做出反应,加上这两天数据中心级高端显卡对中国禁运的消息传来,股价又迎来一波抖动。
作为吃瓜群众,简单看看这个事儿的几个影响:
1,影响跨国企业的商业信誉。
企业级市场、数据中心市场稳定的供给非常重要,像这种说禁运就马上就断货的操作,实在其实有损企业的商业信誉。
有此先例,不免让很多用户担心朝不保夕,修改技术路线。所幸,后来有了延期的操作,不然会有更深远影响。
2,禁运对数据中心技术架构影响。
英伟达的显卡大概两三年更新一代,每一代的性能提升都非常大,性能大致上可以参考CUDA个数,比如从P100到V100,CUDA增长了42%,从V100到A100提升了35%。
而且,伴随着工艺和架构的进化,带来的性能提升非常大。如果不用新卡,同等性能之下,运营成本负担也会大大提升,特别是电费,在双碳背景下,此举会带来很大额外压力。
3,禁运对技术发展的影响。
目前主要是对HPC高性能计算和机器学习的影响。
HPC高性能关系到前沿基础科学研究领域的发展步伐,这些领域包括分子动力学模拟、生物制药、材料电子结构计算、材料模拟、生命科学等,人们越重视基础科学,就越应该关注显卡。
此前超算领域已经有过一些关于CPU禁运的先例,所以大家对禁运应该不陌生。
机器学习领域,如今常用的各种人工智能服务,包括刷脸,语音识别,背后多少都靠高性能显卡来训练模型,禁运会增加这些服务提供商的成本,但更重要的是,可能影响一个国家在机器学习方面的探索。
眼看着如今机器学习模型越来越大,有些模型参数多的都达到了Trillion(万亿)级别,比如GPT-3和Switch Transformer这种语言模型顶流,这些模型能做一些非常不可思议的事情,发展前景令人向往。
机器学习的核心思想就是大力出奇迹,非常依赖高性能加速器来训练模型,没有显卡就少了很多可能。
比如,最新的H100显卡,搭配上NVLink Switch System能连接256块H100构建集群,能将大型语言模型提升30倍。如果没有这些,机器学习的发展步伐无异于中了减速Buff。
4,对技术服务商的影响。
英伟达发布H100的新闻稿里提到,AWS、Google Cloud、微软Azure、Oracle Cloud、阿里云、百度AI云和腾讯云,都会提供基于H100的实例。此外,戴尔、HPE、思科、Atos、联想等OEM厂商还将提供一系列采用H100的服务器产品。
一直以来,美国都是限制一些国家将高端技术用于特定领域,如果按照这一原则,一些国内的公有云服务商应该还是能拿到H100,除非全面禁止向960万平方公里的土地上使用这些产品技术。
技术服务商,特别是国内公有云服务商可以考虑借鉴AWS的做法,自己研发类似AWS Trainium的专用的机器学习训练芯片,因为只有云服务商具备将芯片做起来、并用起来的规模和技术优势。
而且,对云服务商来说,此举既可以丰富产品类型,也能收获更强的供应,提高技术路线的把握能力。对用户来说,云能屏蔽下层硬件差异,降低使用中的障碍。如果云厂商要做替代,建议尽可能拉上国产GPU厂商。
5,国产利好。
理论上肯定是利好国产GPU市场的,但国产GPU挑战特别多,尽量拉上云厂商路才好走。
第一个,是技术本身的差距,硬件积累和软件生态的积累首当其冲,其难度大致上可以参考国产CPU市场,但好在技术上的难度会低很多。
第二个,如何保证稳定的供给?即使将来具备了英伟达同等硬件性能和软件生态,这种先进技术还能否不受约束地随便用,至少可见的未来,芯片领域还需要台积电的供应,同样可能受制约。