2025年1月20日,来自杭州的深度求索公司发布DeepSeek R1大语言模型,单单是凭着可媲美OpenAI o1模型的高智能水平,就足以刷屏了。
更优秀的是,它的训练成本相比 OpenAI o1降低了98%以上,直接刷新了人们对AI算力的看法,让算力芯片、算力基础设施和模型开发者们开始怀疑人生。
DeepSeek掀起了大模型效能革命
![](https://pic.doit.com.cn/2025/02/image001-2.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_607)
这还没完,DeepSeek R1模型还开源了权重参数,任何人都可以免费下载,更令人激动不已的是,它是以MIT的方式开源的,这意味着任何人都可以免费将其用于商业用途,直接用它来搭建商业服务。
在DeepSeek R1造成轰动之余,包括亚马逊云科技等在内的几家大型科技公司很快就宣布上架DeepSeek R1。所谓上架,指的是将模型放到公有云服务中,用云上的资源运行这款大模型。
目前,满血版的DeepSeek R1有6710亿参数,大部分部署的DeepSeek R1都是蒸馏版。所谓蒸馏版是指将DeepSeek R1作为教师模型,让较小‘学生模型学习其输出,从而在缩小模型规模的同时,保留大模型的核心能力。
![](https://pic.doit.com.cn/2025/02/image003-4.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_655)
深度求索公司开源了6个蒸馏版模型。之所以模型的命名带有Llama和Qwen字样,是因为蒸馏的时候是把Llama和Qwen的小模型用作了学生模型,把DeepSeek R1用作老师模型。
即便是蒸馏后的模型依然很强,比如,DeepSeek-R1-Distill-Qwen-32B在多个基准测试中甚至超过了OpenAI-o1-mini。看到这么强,又免费可商用的模型,是不是想立即体验一下这款超强的模型呢?
部署DeepSeek R1的技术选项
对于普通个人用户来说,首选的就是DeepSeek官方的在线Web服务或者手机App。然而,截止到2月6日,由于遭受着DDoS攻击以及大量新用户的涌入,深度求索的在线服务目前不是很稳定。
企业用户在本地化部署模型时,不仅要投入高额硬件采购成本及专业技术团队建设费用,而且,在业务需求尚未明确、模型技术持续演进的市场环境下,频繁的硬件升级和技术重构将导致沉没成本风险。
相较之下,公有云服务通过按需付费的弹性模式,既规避了前期重资产投入,又能即时获取最新模型能力,在成本效益与技术前瞻性之间实现了最优平衡。在亚马逊云科技平台上,目前可以用四种方式部署DeepSeek-R1及其蒸馏模型。
![](https://pic.doit.com.cn/2025/02/image005-3.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_543)
第一种,在Amazon Bedrock Marketplace部署DeepSeek-R1模型,这是上手最快的方式,目前6个蒸馏模型也全都可选。
![](https://pic.doit.com.cn/2025/02/image-13.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_614)
第二种,通过Amazon SageMaker JumpStart部署DeepSeek-R1的6个蒸馏模型。JumpStart给了开发着更多权限和操作空间,这种方法适合机器学习专家。
![](https://pic.doit.com.cn/2025/02/image009.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_375)
第三种,利用Amazon Bedrock的自定义模型导入功能部署DeepSeek-R1-Distill模型,上图展示的是导入蒸馏的8B Llama模型,这种方式提供了多样化的模型选择。
第四种,则是租赁Amazon EC2实例来部署DeepSeek R1模型,理论上可以部署任意规模的模型,这种方式有超高的自由度,但技术难度也最大。
亚马逊云科技打通从部署DeepSeek模型到构建应用的全流程
除了可以部署大语言模型,亚马逊云科技还可以作为大语言模型的诞生地,作为生成式AI大语言模型运行的最佳场所。随着DeepSeek上架到亚马逊云科技,这便打通从部署DeepSeek模型到构建应用的全流程。
具体而言,可以分为三个方面:
第一,亚马逊云服务为模型训练提供便利。
亚马逊云科技不仅用英伟达的高性能显卡打造了P5、P4d等用于训练的P系列实例,还推出了基于自研Trainium芯片的Trn系列实例,它能提供更高的性价比。EC2实例搭配UltraCluster网络架构,可以构建大规模集群来高效地训练大语言模型。
不久前,亚马逊云科技推出了新一代Amazon SageMaker,集成了数据分析、大数据处理等功能。其中,Amazon SageMaker AI部分可以帮助用户完成模型的开发、训练和部署的全流程。让大语言模型在云上诞生。
第二,亚马逊云服务提供了多样的模型选择。
横空出世的DeepSeek V3和DeepSeek R1模型带来的影响还在持续发酵,超低的成本和超高的智能水平让更多人意识到,模型创新还远没有结束。作为技术的使用者,需要掌握选择模型的权利。
亚马逊云科技提供了多种模型供用户选择,不仅可以提供来自AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI、Luma AI、poolside、Luma AI等领先厂商的模型,自己也开发了Amazon Nova系列大模型。
企业在基于大模型构建应用时,需要综合考虑延迟、成本、微调能力、知识库协调能力、多模态支持等多方面能力等。比如,当需要快速响应场时,就不要开启DeepSeek R1的深层思考模式。当需要文生图的能力时,DeepSeek-V3这种文生文模型也并不适用。
第三,亚马逊云服务提供了各种构建模型的功能服务。
选好模型之后,还有很多工程化难题也亟待解决。Amazon Bedrock提供多种工具服务,可以让包括DeepSeek-R1在内的领先模型都能轻松获取这些实用功能,并由此进入构建应用的快车道。
Amazon Bedrock可以优化模型推理的效果,降低延迟和成本。它提供的延迟优化推理、模型蒸馏、提示词缓存等都可以提高推理效率。模型蒸馏可以将速度最快可提高500%,成本降低75%,DeepSeek-R1的六个蒸馏模型就是典型的蒸馏后的模型。
Amazon Bedrock帮企业利用自己的数据。模型微调功能,RAG知识库,以及新的GraphRAG知识图谱功能,都能帮助企业利用自己的数据,把数据给到模型,让模型更懂企业的业务,从而提高模型的表现。
Amazon Bedrock帮用户解决安全问题。Amazon Bedrock不断丰富其Guardrails功能,以简化企业实施负责任AI的投入,例入为其加入自动推理检查功能,从而能够轻松识别事实性错误,以提升生成回答的准确性。
Amazon Bedrock帮助其企业快速落地多智能体。Amazon Bedrock提供了智能体功能和多智能体协作功能,智能体可以执行相对复杂的工作,多智能体协作功能可以通过编排多个并行工作的智能体来加速任务。
![](https://pic.doit.com.cn/2025/02/image-16.png?x-oss-process=image%2Fquality,q_50%2Fresize,m_fill,w_1024,h_470)
亚马逊CEO Andy Jassy分享了亚马逊部署AI时的三个洞察。首先,随着生成式AI应用规模的扩大,计算成本变得至关重要,人们渴望获得更高的性价比;其次,构建一个真正优秀的生成式AI应用实际上非常困难;第三,开发者想要自由选择他们想要使用的模型,因为永远不会有单一的工具能够统治世界。