年初,规模15000卡的国产单池万卡液冷集群落地上海临港;
4月初,”万卡级别“的青海三江源国家绿色智算算力调度平台立项;
中国电信京津冀国产万卡液冷算力池将于6月份建成;
中国移动董事长:打造一批万卡级智算集群……
随着AI技术的飞速发展,特别是AI大模型对算力的需求快速增长,算力集群的规模正以前所未有的速度扩张,从千卡到万卡,再到未来的十万卡、百万卡,这一趋势已成为智算产业发展的必然。
据《2023年中国智能算力行业发展白皮书》报告显示,AI大模型相关行业占中国智能算力总需求的58.8%。近日,华为副总裁周跃峰博士在一次会议上表示,AI大模型集群规模已迈入万卡、十万卡时代。
然而,这一进步的背后,国产智算产业却面临着高端AI芯片获取的难题。在中美科技对抗的国际大背景下,如何突破高端芯片的束缚,成为国产智算产业必须深入探讨的紧迫话题。
算力集群扩张的必然与挑战
算力集群的扩张并非简单的数量堆砌,而是AI技术进步的必然结果。这一扩张趋势在国际科技巨头的行动中得到印证,如微软计划为GPT-6训练规划一个包含10万张H100的算力集群。
然而,芯片数量的增加并非与性能呈线性关系,而是带来了更大的不稳定性和协作难度,尤其是在分布式计算系统的并行加速比优化方面。特别是在当前的产业环境下,国内的AI芯片种类繁杂、架构不一,不同类型芯片和算力设备之间的协作难度更上一层。
国产智算产业面临着双重挑战
在这一背景下,国产智算产业面临着双重挑战:一方面,需要提升芯片的算力和效率,以支撑稳定高效的训练;另一方面,如何更好地解决多元异构算力的协作,实现不同类型、不同版本的异构集群的高效联合。这不仅是技术层面的挑战,更是对产业生态的一次大考。
国产智算的生态构建与实践
面对挑战,国产智算产业并非无计可施。技术创新、产业政策支持、市场需求驱动、自主研发、国际合作以及人才培养等多方面的努力,正在逐步推动国产芯片技术的不断进步。然而,要真正解锁AI算力问题,关键在于构建一个良好的产业生态。
郑纬民院士曾指出:“目前国内已经有30多家公司推出了国产AI芯片,但用户不太喜欢用,核心问题就是生态不好。”而国内当前无论是在底层的基础设施建设,还是软件层面的编译、加速等等方面,都缺乏一个可以支撑智算产业发展的完整生态体系。
在这样的认识下,国产智算厂商开始强化AI生态赋能。例如,百度的文心4.0通过百度智能云的万卡集群进行训练,支持模型的稳定高效迭代进化。百度智能云上万卡训练集群的加速比和有效训练时间,达到95%以上。
中国移动则发布了《面向超万卡集群的新型智算技术白皮书》,其中强调了实现超万卡集群中的高效训练和长期稳定性所面临的挑战,如算力发挥、网络稳定性、故障排查修复等。白皮书提出了一系列创新的设计原则和关键技术,旨在推动智算中心向更高效、稳定和绿色的方向发展。
此外,宁畅提出的“全局智算”战略、中科曙光的“立体计算”体系、浪潮信息发布的“元脑企智(EPAI)”平台等,都是对软件生态的有益探索。通过“软硬兼施”的均衡能力,国产智算产业正在逐步构建起一个更加完善的产业生态。
国产智算的机遇与展望
万卡时代的来临,为国产智算产业带来了前所未有的机遇。随着AI技术的深入应用,每个行业、每家公司都可能训练自己的大模型,带来充沛、高效、稳定的AI算力需求。在这一过程中,十万百万级集群、多元异构的算卡,将以高效一致的步伐进行协作,这将成为中国智算行业的关键挑战。
然而,挑战与机遇总是并存的。通过技术创新和产业生态的构建,国产智算产业有望在万卡时代实现跨越式发展,迎来更加广阔的发展前景。据科智咨询最新发布《2023-2024年中国IDC行业发展研究报告》显示,2023年中国传统IDC业务市场规模为1456.4亿元,同比增长6.4%。伴随人工智能带动的智算需求爆发,预计到2028年,相关市场规模将超2500亿元。
2019-2028中国传统IDC业务市场规模
未来,国产智算产业需要继续深化技术创新,加强产业政策支持,激发市场需求驱动,推动自主研发,拓展国际合作,重视人才培养,特别是在软件生态建设上下大力气。只有这样,国产智算产业才能在万卡时代解锁高端芯片的束缚,实现跨越式发展,迎来更加广阔的发展前景。
为进一步推动智算产业的生态构建与合作,中国IDC圈将于2024年6月18日在深圳举办“中国智算生态发展大会”,大会将邀请院士专家、政府主管部门、大模型企业、智能算力供应商、云厂商、电信运营商以及芯片企业、服务器企业的专业人士参与,共促产业链上下游交流与共赢。大会官网地址:http://www.idcquan.com/Special/2024CICEDC/
中国智算生态发展大会
关于大会的更多信息,请联系:李女士13693541767