近期,紫光股份旗下新华三集团召开2024媒体与分析师沟通会,以“×AI”(乘AI)为主题,全面拥抱“人工智能+”时代的无限机遇,会上紫光股份董事长、新华三集团总裁兼首席执行官于英涛明确了三大重点——深化“AI in ALL”,提升产品与解决方案的智能化;加速“AI for ALL”,用技术、产品赋能各行业;发挥算力和联接领域优势,放大智算资源价值,提升计算效率。
我们知道,智算是AI时代的关键技术趋势,但智算不只是算力的堆叠,AI技术与基础架构之间还要关注底层数据的统一管理和规范,合理的调度,存储,还有考虑到AI汹涌的耗电量,必须要关注绿色节能。
对此,新华三集团高级副总裁、云与计算存储产品线总裁徐润安在专访中表示,新华三构建了完整的产品和解决方案体系——数据×AI,调度×AI,算力×AI,存储×AI,绿色×AI,通过五大×AI切入点与N种产品方案相结合,帮助用户实现AI与基础架构及业务的深度融合。
“我们的关注点主要是新华三如何高效管理和分配计算资源,存储怎样加速大模型训练,不同系列AI服务器的应用场景选择。”
调度×AI中的傲飞算力调度平台
作为新华三的创新能力之一,傲飞算力调度平台是提升算力资源利用率的关键工具,现在新发布的是3.0版本,从最初的1.0用于高效科学计算,2.0面向混合智算+科学计算,到了3.0正式对外支持智算中心平台的建设。通过智能调度算法,实现高效的计算资源管理,尤其在多元异构环境下。而且无论是本地数据中心还是云端资源,傲飞平台都能实现快速分配和灵活调度,确保资源的最佳利用率。
在集群模式上,傲飞平台可以通过小集群的形式进行扩展,每个集群由1台、3台或5台设备组成,灵活应对资源扩展需求,随着企业资源规模的增加,集群不断扩展实现,实现大规模分配和调度支持客户应用。
在实践方面,新华三在去年发布了私域大模型百业灵犀,正式发布前,傲飞平台已经进行了超万个计算节点的测试,每台R5300服务器上可以配置8个GPU卡(每个计算节点包含8个GPU卡),即傲飞平台已经具备支持和优化万卡规模的能力,能够设计和验证与之匹配的方案。
徐润安还指出,管理万卡更主要的是业务拉通,具体流程包括接收客户任务后,进行初步的大数据分析;根据任务需求,进行模型的训练或微调;对模型进行评估,最终部署完成客户提交的任务,新华三通过结合硬件资源管理和业务流程优化,覆盖整个任务的生命周期,确保每个环节的高效运作。
未来,新华三将继续优化和整合傲飞的平台功能,以应对更复杂的计算需求和更广泛的应用场景。傲飞的能力还基于新华三的硬件基础,对各家GPU供应商的产品性能和特点都有认知,还有对算子的能力,GPU哪些算力能力比较强,能否进一步往下层调度,这些都有助于傲飞平台甚至更多新华三产品的迭代。以后计算和存储资源都将越来越多集中到云上,实现资源的透明化管理,更要持续关注调度平台的能力。
算力×AI中,训练和推理不一定做选择题
算力方面,新华三推出面向智算中心的多元异构算力平台H3C UniServer R5300/R5500 G7系列服务器和算网融合的H3C UniServer E3300 G6边缘AI服务器。不同系列AI服务器,面向用户的多样化行业场景该怎么选择呢,会按照训练和推理区分吗?
新华三集团云与计算存储产品线副总裁刘宏程表示,基于GPU形态和互连方式会有不同的两种产品,适用不同的应用场景。但随着国内GPU厂商的快速发展,训练和推理的界限逐渐模糊,高端的OAM模块虽然主要用于训练,但其功能亦逐渐延伸至训练后的少数场景,并预示着未来向推理形态的转型,我们定位主要用于未来推理场景的。基于现在国内GPU厂家而言,有一部分也会用于训练方式实现。过去在G5和G6系列服务器中,R5500系列主要用于训练,R5300系列主要用于推理,现在这种区分已经不再明显。
随着GPU异构生态的蓬勃发展和厂家数量的增长,传统上可能倾向于选择OAM模块或R5500服务器来应对需求。然而,近期一些大型智算中心项目开始创新性地采用R5300服务器进行训练,这一变革不仅满足了推理需求,还显著提升了训练后的推理效率。因此,R5300平台正逐渐承担起更多训练任务,并有望在未来支持更大规模的推理工作,展现了其广泛的适用性和强大的潜力。
我们知道,训练阶段是建立模型的基础,从去年到今年,随着大模型市场的逐渐成熟,推理的需求增长也颇为迅猛,达到训练需求的十倍甚至百倍。R5300服务器平台能够同时满足训练和推理的需求,体现同一平台的多功能性。
新发布的G7系列服务器是相较于G6平台的全面升级。目前,新华三G7系列多元异构服务器重点面向运营商、政府和金融行业,未来,将扩大覆盖所有行业,包括互联网和企业应用,以满足更广泛的市场需求。
存储×AI中,推出Polaris新一代AI存储系列
在存储方面,新华三推出的新一代AI存储——Polaris系列,将Storage For AI和AI In Storage两大思路融合为一。整体来说,Storage For AI是通过全闪介质、数据池化和AI智能管理特性满足AI业务负载对存储设备的性能和功能需求,AI In Storage则是融入AI技术在智能运维、智能加速、智能助手等工具,大幅降低存储设备在运维、管理、排障、规划、配置、优化等方面的工作量和成本。
新华三集团存储产品线首席产品经理关天舒表示:数据存储是AI大模型数据收集、预处理、训练、推理的关键一环,决定了能保存的数据容量、训练及推理的数据读取效率、数据的可靠性等。新华三下一代AI存储——Polaris系列通过软硬件协同创新为大模型训练提供超强的存储性能,实现checkpoint秒级写入;满足智算千万小文件并发和TB级带宽需求。基于AI技术的加持,智能预测存储集群容量使用趋势、提供扩容和业务调整建议,通过智能分层算法实现冷热数据分层存储,提高用户命中率和热数据读取性能;同时,基于大预言模型提供智能运维助手,根据业务负载动态调整CPU、硬盘功耗,极大地简化了用户运维难度,实现便捷、高效的管理体验。。
最后
新华三通过深化和加速“AI for ALL”战略,充分发挥其在算力和联接领域的核心优势,推动AI技术在各行业的广泛应用。无论是通过傲飞算力调度平台优化资源利用,还是通过存算融合加速大模型训练,实现AI服务器的多功能性,新华三正在引领AI时代的技术革新和行业变革。