DeepSeek带来的机会,更多属于亚马逊云科技这种大型云厂商

虽然DeepSeek以较低的算力门槛,吸引更多小规模的云厂商和更多硬件厂商加入了AI算力建设浪潮。但长远来看,以亚马逊云科技为代表的大型云服务商将成为AI技术发展机遇中的更大受益者。

2025年1月20日开源的DeepSeek-R1模型不仅有媲美全球顶尖AI模型的智能水平,对于算力门槛的要求也非常低。一时间引起了广泛关注,国内外很多云服务商都顺势推出了托管的云服务,很多硬件厂商也推出了DeepSeek一体机的方案。

在我看来,虽然推出一体机方案的硬件厂商和小型云厂商可以靠DeepSeek招揽客户,但从技术发展和实际应用方面来看,这不会是企业应用大模型的主流方式。长远来看,大型公有云会是更多人的选择。

DeepSeek一体机方案的不足

虽然DeepSeek一体机为特定场景提供了部署便利,采购一体机方案在本地部署,满足了用户把本地数据保留在本地的需求,但从整体来看,与公有云模式相比,一体机的方式存在明显局限性。

首先,最显著的问题就是弹性不足。大模型应用有明显的业务高峰和低谷,白天和夜晚的访问量会有很大差距,如果用户有较高并发需求则需要配置更多资源。而如果资源配置过多,在业务低谷时段就会有更大浪费,因为一体机的配置是固定的。

第二点,在于运维和稳定性保障不足。公有云有专业的运维团队,而一体机的运维服务通常依赖用户自有团队,或厂商提供的基本保障服务,运维响应速度和稳定性保障能力较低,当面对较大规模、较复杂环境时,运维难度和风险都会增加。

第三点,在于成本方面。不久前,亚马逊云科技发布了全托管的DeepSeek-R1服务,支持用户按照实际处理Token数的方式来付费。而一体机一次性采购的方式,前期需要有大量资金投入,8卡(H20或者H200)的配置成本并不低。

第四点,在于技术迭代和灵活性较差。DeepSeek-R1是很强的模型,但这显然不是最后一个模型。如果有新的更强模型出现,企业想要迁移到新模型,现有的一体机能否支持新模型?一体机上专有的优化技术能否支撑新模型?企业能否忍受使用旧模型?

小型云服务商的不足

小型云服务商,或者算力资源提供商,在提供DeepSeek类大模型服务时,也存在几个非常显著的问题。

首先,资源规模和弹性扩展不足。与大型公有云厂商相比,小型云服务商的资源规模和弹性扩展能力有限,业务高峰期可能会影响用户体验。而弹性扩展能力对于大型公有云来说,属于基本盘。

第二,AI生态工具链的欠缺。大型公有云服务商通常有较为完善的AI生态体系,涵盖数据存储、模型训练、优化、部署、监控、安全管理等完整工具链。小型云厂商的服务可能相对单一,用户需要自行搭建工具链,使用复杂、成本高。

第三点,在安全合规方面的不足。大型公有云拥有全球统一的安全合规标准,提供全面的安全保障措施。安全体系建设成本高、难度大,安全合规能力有限,数据合规和隐私保护能力较弱,可能影响用户信任度。

第四点,技术优化能力不足。不久前DeepSeek开源周介绍了很多令人赞不绝口的优化技术,基于这些技术提供了成本很低,收益很高的在线服务。对此,大型公有云厂商可迅速借鉴和应用,而小型云厂商可能难以快速跟进,从而影响在线服务的竞争力。

这些是我不看好小型云服务商做DeepSeek类AI服务(也就是MaaS-模型即服务)的主要原因,也是我看好亚马逊云科技这种大型云服务商的原因。

为什么亚马逊云科技在AIGC时代更具优势?

首先,遍布全球的庞大基础设施群提供超强的弹性扩容能力。亚马逊云科技已覆盖36个区域、114个可用区。为支持AI创新,不断优化数据中心的电力分配、冷却系统、机架设计,支持AI超级系统以更强的性能和更低成本满足用户需求。

自研芯片提供芯片级领先优势。作为业界首家自研芯片的云供应商,亚马逊云科技依托Nitro平台提升了EC2产品线的整体竞争力,自研的Graviton、Trainium等芯片产品,每次升级都带来两位数级别的性价比提升。

针对AI场景,亚马逊云科技发布了Amazon Trainium2芯片,EC2 Trn2实例以及UltraServers。相比GPU实例,Trn2实例性价比提升30-40%。搭载64颗Trainium2芯片的UltraServers可用于超大规模AI模型训练与推理。

Claude模型将使用Trainium芯片。亚马逊云科技携手Claude的开发者Anthropic,联手打造名为Project Rainier的EC2 UltraCluster(超算集群),其中包含数十万颗Trainium2芯片,所达到的算力是前一代AI模型训练所需算力的5倍以上。

亚马逊云科技还发布了第二代UltraCluster网络架构(10p10u网络),带宽高达10Pb/s、延迟低于10μs,支持超过2万个GPU协同训练。搭配SIDR协议,显著提升了分布式AI训练中的可靠性,将提升其在分布式AI训练场景中的优势地位。

在安全方面,亚马逊云科技将安全嵌入基础设施与服务全生命周期,确保全球所有区域采用统一的最高安全标准,为企业提供灵活、安全的云计算环境。同时,亚马逊云科技持续引入自动推理技术,确保关键系统按预期运行。

亚马逊云科技在多年发展中构建了业界最为丰富的AI生态体系和工具链,涵盖数据存储、数据湖、模型训练、模型调优、部署、监控、自动化运维、安全管理等完整服务链条,这些都极大降低了企业的技术门槛和使用成本。

AIGC推动IaaS市场继续快速增长

在一些人看来,DeepSeek出现之后,以后就不需要投入太多资源做AI服务了。但实际上,包括亚马逊云科技在内的多家巨头继续在AI领域不断加码。亚马逊在2025年的资本支出预计将达到1000亿美元,“绝大部分”将用于AI和云服务本身。

AI正推动云市场的发展。根据IDC最新发布的《2025年IDC MarketScape:全球公有云IaaS报告》,随着企业将更多工作负载迁移到云并创建新的云原生应用程序,公有云IaaS继续快速增长,2025年预计将达到1880亿美元规模。

IDC将亚马逊云科技评为“领导者”,在能力和战略的两个维度上都领先。IDC在报告中更是直接给亚马逊云科技“带货”,表示:当用户需要最广泛的云服务组合以及经过验证的可扩展性和创新能力时,可以考虑亚马逊云科技。

报告还指出,AI技术正在深刻改变云基础设施的技术格局。尤其是推动了GPU、TPU、FPGA等专用硬件的大量投资与创新。此外,AI对于优化云基础设施的运营效率和成本,提高云安全水平,提高云服务水平都有巨大作用。

IDC报告指出,云部署决策不该只关注成本,还需考虑服务集成度、供应商覆盖范围及开放标准支持。IDC建议企业优先选择具备强大安全功能且支持系统可观测性的云服务商,以提升安全性和运营效率。

结束语

短期来看,DeepSeek等大模型吸引了中小云服务商和硬件厂商加入AI发展浪潮。但长远来看,算力规模、技术创新、安全合规和生态体系的综合优势,将使亚马逊云科技这样的头部大型云服务商,更有能力承接AI技术蓬勃发展所带来的巨大机遇。