【算力先锋】AI服务器奇货可居,宝德黄文杰:以差异定制化加速行业应用

关于「算力豹」(微信公众号搜索:dethinktank)

▲算力豹·算力先锋计划以“算力创变,致胜未来”为主题,采访对象覆盖多数国内服务器、云服务、GPU、CPU、大模型等创企,邀请企业核心人物讲述创业故事和产业见解。

算力先锋本期邀请嘉宾

黄文杰
宝德计算IA BU总经理、红星研究院总经理

近期,OpenAI的Sora和谷歌Gemini 1.5的推出使得AI技术的应用场景进一步拓宽,无论是多模态模型的训练还是应用侧推理都将对算力及其基础设施提出更高要求,加剧了市场对“硬通货”——AI服务器的争抢,产业中涌现出了一大批有技术、有实力的国产服务器品牌。

作为中国领先的计算产品方案提供商和AI服务器市场TOP3,宝德计算机系统股份有限公司(以下简称“宝德计算”),在这AI热潮中是第一线受益者,据宝德计算IA BU总经理和红星研究院总经理黄文杰介绍,宝德计算2023年在英伟达企业级业务出货同比增长的幅度达到接近200%

当前AI行业面对巨大的算力缺口无非两条出路:一是力大出奇迹,暴力囤积新设备,靠增量来提升算力;二是持续的创新服务器,靠提质来提升算力。宝德计算黄文杰谈道,他认为身处AI狂潮中的厂家需要对市场有判断能力,还要找准自己在行业中的定位,这意味着企业需要具备研发力来“造血”,以及将产品竞争力作为“硬功底”。最后他提出,企业需打造差异定制化来为客户场景找到综合最优解

01 发力多元算力,演绎赋能故事

从1993年中国第一台服务器诞生至今,国产服务器的发展已走过31个年头。互联网是IT产业的第一波大热潮持续了50年, AI是接替甚至是超过互联网的第二波大热潮。黄文杰介绍说,在2016年GPU的性价比突破了临界点,算力、数据、算法三个方面都达到一个临界点,AI便驶上了快车道。

早在1997年,宝德计算便进入服务器领域,经20多年的技术沉淀和市场经验,目前已完整布局了AI训练、AI推理、AI边缘以及AI集群等全栈算力产品解决方案。“经历了互联网和AI两个时代,宝德计算始终以满足客户的需求来为导向规划自己的产品图谱。”黄文杰谈道。

在互联网时代,宝德计算2014年开始用AI服务器来做高性能计算(HPC)的加速节点。2016年起,AI服务器在互联网行业快速发展,彼时宝德计算大批量出货AI服务器,专注互联网领域的两大应用——智能推荐在线内容审核,满足互联网客户对于视频的需求。当大模型场景在去年初爆发,预示AI大模型时代接替互联网时代,宝德计算提前推出AI大模型需要的服务器产品,积极拥抱大模型的发展需求。

该图由百度文心一格大模型生成

为应对AIGC和大模型的AI算力困局,宝德与NVIDIA GPU、英特尔®GPU和英特尔®至强CPU Max系列等业界领先产品加速适配和测试,迅速整机化和系统化,为大模型训练和推理夯实算力根基。

以宝德自研AI服务器PR4910E为例,它搭载了第五代/四代英特尔®至强®可扩展处理器,最大核心数高达64,支持10张GPU加速卡,能为大模型训练和推理提供强有力的算力支撑。该产品可以满足完成文本生成图像、数据传输、复杂的图形渲染、视频解码等需求。 

宝德AI服务器PR4910E

02 定制化需求下沉,加速渗透行业解决方案

传统的按需定制都体现在应用层,如今随着AI势头汹涌,在操作系统以及芯片级方面的定制化与标准化结合成为趋势。黄文杰认为,AI最主要的场景是训练、推理以及边缘端,所以不同应用场景对算力和技术的需求侧重点不同,需要灵活地调整和重新构建系统的各个方面。

黄文杰在访谈中聊到,他刚毕业便投身进了计算机硬件产品和解决方案的工作,2008年加入宝德计算,历任研发、产品、市场等核心岗位。作为一个资深产品人,黄文杰深知服务对于AI服务器市场竞争的重要性,抓住AI基础设施的定制化趋势,坚持为宝德计算打造产品差异定制化。据他描述,宝德计算在AI服务器差异定制化方面已与竞争对手拉开差距。宝德计算的产品覆盖高中低端,已达到高度的灵活性,根据不同的应用场景推出不同的产品,进而找到实现AI的最佳途径。

如今,不少AI公司争相采购AI服务器,尤其是大型互联网公司如百度、阿里、腾讯、字节跳动等等,也有“扎堆跨界”AI服务器的公司。黄文杰分享到,互联网大厂在GPU方面,有丰富的技术经验积累,懂应用,也有大量的数据,而跨界公司大部分着力点在算力租赁,与宝德计算是合作关系。宝德计算这类厂商在过去被称作设备商,黄文杰谈到,在AI行业的发展中,有定制化需求的客户逐渐不满足于只购买设备,希望得到一体化的解决方案,以集成的解决方案来体现自己的品牌,这就给了宝德计算探索AI解决方案的动力。

基于客户和行业的具体需求来做延伸,宝德计算在软硬件方面都有加强投入。

在硬件方面,黄文杰表示,一方面,宝德计算将成立新的项目组,持续投入到如4U16卡液冷、4u8卡风冷、8U16卡风冷等AI产品的研发创新。同时,加强在单机性能方面的研发和技术创新,通过更高带宽、更低延迟、更快计算来提升整机性能。在软件方面,英特尔今年将在北京启动创新中心,宝德计算携手英特尔AI软硬件基础技术,推出AI数字人,为数据中心打造高效便利、普惠的AI基础设施。

4张GPU卡+CPU液冷 宝德PT6630W3

03 算力需求匹配,液冷降低能耗

AI服务器的建设并非纯粹的堆积,在产业发展过程中,技术创新应用与算力需求之间也出现了某些不和谐,如硬件可用性、算力成本、系统集成和扩展等原因,都可能致使某些工作负载过度浪费GPU资源。

注重算力对应供求关系的匹配,促进数字经济和实体经济深度融合成为最广泛的共识。据黄文杰描述,宝德计算积极携手产业链上下游生态伙伴,加强软硬件生态测试、适配以及方案创新,加强更多细分应用场景的丰富和深化。

黄文杰分享到,宝德计算兄弟公司中青宝旗下子公司宝腾互联在深圳观澜和四川乐山拥有两座自建高等级数据中心,并且投资建设运营成都智算中心B区云数据中心部分,提供机柜租赁等服务,具备云计算数据基础架构环境,可提供机架1500个,按国标GB50174 A级标准和国际标准T3+以上标准设计。

【为深入探讨算力、存力与数据要素如何共同促进数字经济的发展,DOIT将于4月24日在成都举办“2024数据基础设施技术峰会”。此次峰会将汇集业界专家、学者、技术开发者和企业决策者,共同探讨数据基础设施技术的未来趋势,以及如何利用这些关键要素共塑企业和社会的未来】

宝腾互联(成都・智算)云数据中心实景图

宝德计算在北京也有智能生产基地布局,旗下昌平工厂采取“京牌京造”+“京产京销”模式,产品覆盖信创和通用领域,预计年产能15万台PC和2万台服务器、存储。

AI算力提升也带动液冷行业需求快速增长,目前业界已经开始试点采用液冷技术以及绿色电力等技术降低算力能耗。黄文杰谈道,液冷在2023年和2024年相对前一年的同比增长均在50%左右,液冷在数据中心里的比例将来会逐渐地提升。宝德研发推出单机、机柜级和数据中心级一体化液冷解决方案,产品覆盖全线,包括冷板、浸没等。黄文杰分享说,宝德计算液冷业务在2023年有上亿元的出货,发展势头强劲。

据介绍,宝德计算单机液冷首推PR2715WL/PR2715EL,分别采用第三代/第四代英特尔®至强®可扩展处理器,基于冷板式液冷技术,部件级精确制冷、降低制冷成本和提升制冷效率等优势。整机柜液冷以宝德液冷整机柜系统Poseidon1000E为优选,依据不同液冷规模分别提供风冷-液冷和液冷-液冷的机柜液冷方案。前者改造成本低,即买即用,适用于小规模,后者散热功率范围大,适用大规模散热集群。

单机液冷PR2715WL/PR2715EL
单机液冷PR2715WL/PR2715EL

结语算力建设热度持续,AI服务器奇货可居

IT产业发展长期以芯片为主导,算力设备的上游现今受AI芯片供应限制,如CoWoS制程产能和HBM高速显存产能有限,而服务器产品的更新基本与芯片发布同频,高端AI服务器供不应求的局面短期难有缓解的迹象。

服务器公司看到需求是爆发的,但是供应极度紧缺。”黄文杰坦言,各个厂家如果想抓住机会,首先是对市场有一个正确的判断,第二个是提前做好备货、周转的准备。若没有足够的产出准备来迎接机遇,那就只能跟在后面“吃土”。“我们是几乎每天都在研判趋势”,黄文杰说,而通用服务器则是看每个公司的产品竞争力。

据了解,宝德计算的产品备货覆盖当下大部分需求,对于市面上缺货产品制定了半年的备货计划,其他产品有三个月以内的备货计划,保障滚动出货。“整个产业快速发展,我相信宝德计算的业绩能够持续保持快速增长。”黄文杰坦言。

如同黄文杰描述的那样,宝德计算坐拥20多年的技术沉淀和宝贵市场经验,在技术创新中深度融合人工智能、机器学习等新技术,将AI的能力带到更接近数据和终端用户的地方。另一方面,宝德计算协同操作系统和中间件等生态伙伴完善算力布局,未来在赋能AI、云计算、大数据等新兴技术创新和应用,推动金融、电力、医疗、教育等行业数字化转型发展的道路上,宝德计算或将收获满满。

*为深入探讨算力、存力与数据要素如何共同促进数字经济的发展,DOIT将于4月24日在成都举办“2024数据基础设施技术峰会”,宝德计算将在峰会分论坛智算中心创新论坛进行主题分享,敬请期待!

关于「算力豹」(微信公众号搜索:dethinktank)

·END·