GenAI新时代,金山云以大模型助力者打开增量空间

黄河发源于青藏高原巴颜喀拉山北麓,全长约 5464 公里,自西向东流经9个省市自治区,黄河所到之处,河水泛滥带来无穷灾难,但也有例外就是宁夏,素有九曲黄河富宁夏的说法。

如今,以生成式AI为代表的人工智能技术来势汹汹,谁能够抓住机会,就能立于不败之地。从最新第二季度财报显示:金山云的人工智能业务表现亮眼,第二季度收入大幅增长至3.26亿元,占公有云收入的26%,环比翻倍,在行业中处于领先地位,显现出其在人工智能领域的潜力及对机遇的把握。数据显示,金山云第二季度整体营收为18.9亿元,较去年同期增长3.1%,环比增长6.5%。其中,公有云收入达12.3亿元,同比增长6.5%,行业云收入为6.6亿元。

金山云做对了什么?有哪些成功的技术策略?

为此,记者采访了金山云高级副总裁刘涛,希望从中一探究竟。

金山云高级副总裁刘涛

“答案是围绕智算云所进行的一系列产品升级和落地探索。” 刘涛开门见山地说。

刘涛表示:“作为一家深耕云赛道十余载的中立云服务商,金山云一直重视技术创新和客户体验,始终保持与前沿技术同频,以契合多元化的客户业务新需求。”

这里的 “中立”非常重要。试想如果“金山系”、“雷系”也把大模型作为自己的赛道,即使你有强大的算力基础设施和技术作为支撑,但战略上竞争和冲突,一定会让其他大模型厂家敬而远之。

“中立”优势也收获了客户认可。目前专业大模型市场排前列的公司,大多都选择了金山云。从规模上看,一个大型的算力集群,不仅是算力,更是对规模组网能力的考验。

刘涛表示:高带宽是被GenAI催生出来的需求,技术本身没有那么成熟,其结果就会出现性能上的抖动。此外,多达上万根的网络布线在工程上也容易造成差错,这些都是网络层面必须要解决的工程难题。

“我们通过过去大概一年左右时间磨合,解决了大型集群能力的交付问题。我们自研的RoCE网络监控平台提供集群端侧和网侧的基础信息与指标、网络故障感知和告警、主动排障能力;在GPU自动化运维插件方面,通过整合资源管理、硬件监控和Kubernetes调度能力,实现秒级故障感知、分钟级完成故障自愈动作。”刘涛说。

金山云另外一个优势:大数据集群的能力也发挥了作用。

针对大模型训练中的CheckPoint快速保存问题,金山云提供了两套方案:1.高性能全闪文件系统可提供高达500GB/s的并行写入能力;2.并行文件网关加上全闪存储对象组合的解决方案,提供数十GB/s的写入能力。其中,前者用于模型训练缓存,后者用于数据存储。以Llama 70B训练中的CheckPoint为例,金山云的CheckPoint写入优化方案可以实现训练中断时间小于15s。

刘涛强调:专业大模型厂商往往会有都有自己的工程、任务调度、故障处理和文件原数的管理的平台,但是对于一些偏重应用类型的用户,他们没有那么强的管理和调度能力,以及CheckPoint的写入优化能力,也没有故障自愈恢复能力,他们希望云厂商能够提供一站式的服务。从数据的管理、清洗,到标注,金山云瀚海平台能够帮助用户更好地处理和利用数据,从而提高模型训练效果。此外,为了帮助大模型应用到业务场景,金山云瀚海平台提供了丰富的工具和接口,并协助用户进行业务系统的集成、模型的调优和适配等问题。这涉及到数据配方管理、SFT(Supervised Fine-Tuning,有监督微调)等技术,金山云有足够经验和能力帮助到用户。

同时,针对生成式AI客户对数据清洗的需求,金山云还整合星曜裸金属服务器EPC、大数据平台KMR和对象存储KS3推出了针对该场景的数据清洗解决方案,满足预训练数据集、微调数据集生成对于数据清洗的需求。

针对智驾等场景,金山云还提供公有云专区解决方案,这是一种创新的分布式云建设模式,能够满足客户对数据安全和合规性的高要求。金山云与客户私有云环境的身份验证系统进行集成,实现了统一的管理界面和API支持,为客户提供了便捷的使用体验。

用刘涛的话说:你想要算力,我可以提供;你想训模型,我可以辅助;工程上遇到问题,我可以做咨询;涉及大模型落地,我可以帮你梳理需要解决的问题。从这个维度来看,金山云可以被称为一站式MaaS解决方案服务商。

“在全球算力需求快速增长的当下,金山云将持续打磨核心技术,携手生态合作伙伴加速创新技术转化,为行业和企业的高质发展提供助力。”刘涛说。

前不久,金山云基于与英特尔长期紧密合作以及对其产品在业务表现上的信心,发布了基于英特尔®至强®6能效核处理器的第九代云服务器高效型SE9,在整机性能提升的同时,核心密度翻倍,充分释放技术红利。相较于线上主售机型,SE9单核性能提升30%,性价比提升超60%,最大套餐规格支持256核512G;在内存性能上,SE9的单CPU支持8个DDR5内存通道,频率高达6400MT/s,非一致性内存访问效率更优;在网络能力上,物理网络支持至2x100G,能够提供最高单虚机2400万PPS,支持单虚机内网吞吐最高可达100G,单虚机连接数最高可达400万;在存储能力上,搭载极速云盘ESSD,最高可支持单盘吞吐1GB/s、12万IOPS,访问时延低至0.2ms。

刘涛表示,GenAI将是一场深刻的革命,从大模型到自动驾驶、机器人应用等很多领域,人工智能技术的加持,就像大脑一样,为业务场景化注入了灵魂,势必会带来翻天覆地的变化。

雷军说过:“站在风口,猪也能够飞上天”。

这一次,卡位GenAI的赛道,金山云再一次证明了自己的眼光和实力,成绩的取得,不过是水到渠成。