存储技术发展是被应用推动的,在强大市场需求的加持下,存储技术不断演进和升华,如今,生成式AI是最当红的技术应用,得到了资本和市场的追捧。生成式AI技术的火热,也带动数据存储平台技术的发展,引发了硬件设计重构,其中以新华三存储硬件重构1.0、2.0和3.0为代表。
2024数据存储峰会期间,新华三集团副总裁、存储产品线总经理关天舒应邀接受DOIT总编宋家雨专访,畅谈有关技术发展和应用的话题。
宋家雨:请介绍一下新华三硬件重构1.0、2.0、3.0的概念。
关天舒:存储与其他基础设施产品一样,都是因应用的需求而发展,新华三基于多年对行业应用的深刻洞察,在几年前,把数据存储作为公司重点战略之一,并以存储重构1.0、2.0、3.0作为具体的产品发展路线。
存储重构1.0秉承AI in Storage发展的理念,借助AI技术让存储系统在性能、可靠性等方面变得更加高效。2023年,我们发布了Alletra MP存储产品,采用全局解耦架构,重新定义了AI通用存储性能和可靠性,同时也借助AI技术,让存储系统不断地自我优化,去提升它的性能,这是存储硬件重构1.0。
存储重构2.0是针对AI智算应用场景去做的变化,我们发现无论结构化存储,还是分布式存储都没有办法很好地满足智算场景的需求,所以我们需要从性能、可靠性、数据管理等多方面对存储进行重构,推出了Polaris X20000新一代高性能的存储产品,满足在AI时代百行百业的AI应用,释放整个智算生产力的创新价值。
重构3.0,是我们正在做的事情,基于我们的傲擎系统软件平台,以及多年硬件研发经验,进一步发展AI时代海量数据存储。
宋家雨:从新华三上一代分布式存储代表产品H3C UniStor X10000 G6到现在的Polaris X20000,发生了哪些调整和变化?
关天舒:在前几年的时候,云计算非常热,百行百业都在做数字化转型,做系统上云的工作。从而为分布式存储提供了机会,那时更多关注的是分布式产品形态下,扩展性架构的问题,提供更优的TCO存储方案。
Polaris X20000是我们存储重构2.0的代表产品,主要针对智算应用场景,智算系统建设的投资非常大,用户对于投资回报率要求很高,这对存储会有更高的指标要求,如今Chat GPT的参数是千亿规模,未来会达到万亿参数,从千卡集群到万卡集群,需要提供更加高效的数据供给,才能够提升智算系统的使用率。
在智算应用中,同一份数据需要在不同应用,比如文件处理、对象处理之间做数据的拷贝和搬移,甚至格式的转换,如此非常耗费时间,从而影响GPU使用率,这就需要存储提供高效的数据访问方式。与此同时,也因为智算投资非常大,用户希望GPU算力能够满负荷运转,因此要求存储不能有任何中断,必须要持续稳定地运行,对此,我们重新考虑了资源分配,并投入了近千名工程师,历时三年,研发了涉及数百万行代码的傲擎新一代数据存储软件系统平台。整个过程虽然非常艰辛,但还是非常有成就感,在这个软件平台的加持下,才有了当前的Polaris X20000这款产品。该软件平台也将是新华三存储未来发展的坚实基础,我们会继续结合行业应用,进一步发展在AI时代的海量数据存储。
宋家雨:新的存储技术,如EDSFF、CXL在硬件重构中的位置?H3C Polaris X20000有没有结合E3.S CXL 2.0内存池的技术?
关天舒:EDSFF、CXL两个技术非常重要。其中,EDSFF是企业级数据中心领域SSD盘形态的新规范,它对盘的密度、散热有很大提升,现在比较成型的产品是E1.S和E3.S。我们Polaris X20000系列中有一款产品,能够在2U空间支持48盘位E1.S,提供业界最高存储密度,这就是新技术带来的好处。在未来数据中心里边,E1.S无论在能效还是性能的处理,在各个方面会有全方位提升。
CXL则是基于PCIe技术发展起来的数据传输协议,能够提高设备内、设备间的CPU、网卡、内存之间的数据互访,可以资源池化部件之间的缓存,实现内存级的数据直接访问,如此,系统内存瓶颈就被消除了,为未来存储系统处理性能提供潜力空间。
H3C Polaris X20000完全支持E1.S产品形态,也兼容了CXL 2.0标准。在Polaris X28000产品中,把四个分布式节点加上两个交换机,从原本10U的设备,做到2U空间里边,空间节约75%,能耗降低17%,从而轻松应对数据中心对存储系统性能和资源带来的挑战。
随着CXL 3.0的出现,未来有可能对存储系统带来新的帮助,甚至有可能重新定义智算中心组网的形态,实现算力资源池化、存储资源池化、内存资源池化。但这个事情,还是需要整个业界厂商一起共同努力才能够实现。
宋家雨:如何看待AI大模型在行业中的应用?
关天舒:这是新华三一直在做的一个事情。新华三成立了人工智能研究院,主要工作就是推动智能算力和私域大模型的创新发展。我们基于行业客户数据,再结合新华三硬件基础设施,以及在模型训练、微调及推理的系列经验,共同打造了多个基于专属行业的私域大模型,我们的经验是非常丰富的。
AIGC已经被公认为社会发展的第五次变革,前一段时间,一个小朋友拿了两个模型,一个是ChatGPT,还有另外一个模型去做一个辩论,从中学习、思考到更多的东西。可以说,智能化已经改变了我们的生活。但是现有的模型还是以通用大模型为主,基于通用数据去做训练,相反,行业大模型发展很慢。
当前,制约行业大模型发展主要有三个方面:一是算力的限制;二是行业缺少高质量数据,数据分散在企业不同部门,并没有完全共享;三是需要行业专家的参与。需要算法、数据、行业专家、大模型专家共同参与,才有可能实现垂直领域的行业模型。单独依靠行业企业单方的力量是比较难的,需要像新华三这样具备全栈大模型能力的企业共同去参与,才有可能完成。
新华三在政府、能源、医疗、教育等行业都在做垂直领域模型的突破,比如在冶金领域,用智能视觉去降低冶金冶炼中气泡的数量,提升冶金的水平。在医疗领域,我们联合北京清华长庚医院和清华大学共同研发了“灵犀医学脑血管病专病大模型”,基于海量脑血管病临床医学数据构建,为医生提供更为精准的医疗指导和个性化治疗方案,对于整个医疗的数字化,有一个很大的促进。
新华三作为业界领先的数字化解决方案领导者,秉承“精耕务实,为时代赋智慧”的发展理念,积极地同行业客户一起,促进行业垂直模型落地,随着越多大模型行业应用的落地,我相信智能时代也会加速到来。
宋家雨:如何看待现有存储产品与向量数据库技术的结合?
关天舒:这个问题要从全局智算系统的角度来看。向量数据库是一个面向非结构化数据,提供管理、存储、检索,把非结构化数据转化成高维向量,但本质还是数据库存储。
但站在智算角度,智算系统需要与存储、向量数据库做深度结合,才能去给客户提供更好的应用体验。在垂直行业私域大模型训练里已经用到了相应的技术。对于私域大模型训练,其实与通用大模型训练没有本质的区别。如何能让私域大模型达到预期的准确率?
现在来看,我们认为至少准确率要达到95%以上,这个私域大模型才是可以用的,未来可能需要更高的水平。在整个私域大模型训练工作中,要去做三方面的工作:第一个,从数据加载的角度,要保证数据治理和数据安全,对于全域数据做分级分类管理。第二个,做隐私计算数据安全的工作。第三个,才能对最终的全域的数据去做整合,形成一个高质量的数据集。然后就是数据训练模型的选择,我们常用的方法是将大模型和小模型的结合应用,小模型就涉及到向量数据库。我们通过小模型,向其他数据源做实时查询,以解决“大模型幻觉”问题,去提升整个行业模型的水平。
存储怎么跟向量数据库去做结合呢?
从存储本身来说,我们可能需要针对它的非结构化索引查询,做定制化的缓存,对于向量小文件要支持高速访问。针对行业场景IO模型去做内存优化,才能满足在整个训练前,快速提取和更新整个向量数据库的数据。
宋家雨:GDS这样的一个私有协议,有没有可能成为事实上的标准?
关天舒:如今智算系统大量采用GDS技术去提升GPU和存储之间的数据访问的效率。但一个技术能不能成为标准,首先看这个技术能不能对整个应用产生价值,能满足当前用户的需求。GDS需要原厂不断投入,不断发展这个技术,让更多应用厂商和系统厂商使用这个技术。第二就要有好的兼容性和开放性,需要兼容更多操作系统,需要将API接口,对存储厂商、盘的厂商开放,完善产业生态。第三需要使用开源的社区,让更多的厂商、更多的开发者进来,一起去解决问题,众人拾柴火焰高,这才有可能成为一个事实上的标准。