把显存扩容20倍?DeepSeek训练成本再降低95%!

现在越来越有体会:显卡核心性能能决定模型的计算速度,而显卡的显存容量,决定了能处理的数据规模和训练的效率。

特别是最近这几天,在本地部署DeepSeek的时候,很多人会发现,如果显存不够,那么模型根本无法运行。

我在个人台式机上测试后发现,8G显存的显卡只能推理8B或者14B的模型,如果推理32B的DeepSeek,就得需要RTX 3090或者4090这种级别的高端显卡了。

然而,高端显卡的价格已然非常感人,那些用在企业数据中心里的高端显卡,价格更是了不得。

有没有低成本的显存扩容解决方案呢?

还真有。

此前,网上就有动手能力强的人,把显卡上的显存颗粒用热风枪吹下来,换上新的大容量显存颗粒,以此来进行扩容。比如,RTX 3070的8G显存变成16G。

然而,这种方式不仅直接让显卡失去保修,后续运行的稳定性也无法保证。

最近注意到,一家叫铨兴科技的公司,通过一个叫添翼AI扩容卡的东西,可以把显卡的显存容量提升10-20倍,扩容后仍有很高的稳定,使用寿命也很长。

这块长的像M.2 SSD的AI扩容卡,除了支持对英伟达的显卡扩容显存以外,也支持对天数智芯的算力方案进行扩容。

官方介绍提到,铨兴科技通过超显存融合技术,可将单机显存最高扩展至8TB,成功实现了DeepSeek-R1 671B大模型极低成本的全参训练,成本相比行业平均水平降低95%。

铨兴科技联合浪潮云发布了内置DeepSeek满血版模型的海若一体机,可为政企客户提供大模型智能应用落地的一体化解决方案。

DeepSeek-R1 671B的训练使用了2048张H800显卡,成本约为4千万人民币。

而铨兴科技的训推一体机只用16张显卡,就能完成DeepSeek-R1 671B模型的训练,训练的硬件成本不到150万元人民币,较行业平均水平降低95%以上。

要做到这点,需要两项关键技术:

自研的添翼AI扩容卡。添翼AI扩容卡通过显存扩展技术,可将单机显存容量提升至8TB,大幅超越传统GPU架构的显存数量,显著提升了硬件资源利用率,满足超大规模模型的训练需求。

自研AI Link训练框架。铨兴科技优化了分布式训练中的通信效率和资源调度,实现显卡与扩容卡的高效协同,大幅降低硬件门槛。

铨兴科技训推一体机推出后,显著降低AI企业模型研发成本。在降低成本的同时,仍能确保模型训练的完整性和性能,训练效果媲美传统高端集群。

铨兴科技训推一体机支持以单机完成训练和推理任务,简化了分布式系统的复杂性和运维难度。此外,它还支持模块化扩容,可从小规模模型训练平滑过渡到万亿级参数模型的训练需求。

据了解,铨兴科技核心自研技术已在多个领域实现落地应用,包括智慧政务、智慧法务、高校科研、金融风控、高校教育、算力中心。

这种技术固然令人为之振奋,但目前关于添翼AI扩容卡的公开资料还比较少,并不知道其具体的工作原理,也不清楚相对于纯HBM(或者GDDR)显存会有哪些性能差异。

想要了解这些信息,欢迎大家关注2025年3月27日即将举办的2025人工智能基础设施峰会,铨兴科技的专家将在现场进行解读和分享。