西瓜哥:GenAI和信创浪潮下 中外存储技术和产业走向简析

近日,知名存储KOL西瓜哥出席2024全球闪存峰会并发表精彩演讲,题为“GenAI和信创浪潮下,中外存储技术和产业走向简析”,面对这两大风口,当下企业面临的挑战与机遇,以及未来存储市场发展的深度洞察,引发听众的共鸣,以下为演讲实录:

 梁胜(西瓜哥):我今天更多讲的是技术相关的趋势,还有我自己的一些观察,仅代表个人观点,判断的对不对不好说,给大家一些思考,所以大家也不用特别费脑。

 今天观察了几点现象,跟大家说一下我的想法

    1.从国外存储创业公司来看,其实目前最大的风口是在AIGC方面,像融资最好的Vast Data、Weka这些公司基本都是乘对了这个风口,并不是他们的技术多厉害,一些对象公司技术也不错,但是可能他们没有在这个风口上。

    2.国内有点不太一样,国内信创更大一些,但是信创同质化也很严重,要做信创的东西是一个很大的机会点,不做信创就不行,但是信创做了也不一定行。国内这块热点是信创方面的支持。

    3.在中国创业的话,基本是受两个浪潮影响,一个是AIGC,一个是信创,在国外没有信创这个事情。

    4.在国内来看,信创影响更大一些,信创不完全是技术问题,还有政策方面。

    如图,在AIGC场景下该用什么来存储?分成几个阶段,数据注入、数据准备、训练、推理、归档,这几个阶段分析来分析去只有两个地方,从协议来讲,最主要的是需要文件;从特性来讲,有两个方向,要么是容量,要么是性能。容量代表成本,创业的话就往这些方面考虑,做文件存储、对象存储,做性能型的还是做容量型的,容量型的话成本低,因为AIGC以后数量会越来越大。

    小规模的场景,比如AIGC,用户做的比较小规模的场景,其实文件就够了,根本不需要什么对象。现在很多公司主要是做对象的,有一个新闻是发布了面向AIGC纯对象全闪的解决方案,性能很好,但是我觉得他们没有太大机会,因为小规模场景可能不需要对象,文件就够了;大规模场景需要对象,但是大规模场景的性能又不足够。大规模场景一般是对象+并行文件的组合,有时候做AIGC创业,其实最大的风口是在AIGC Checkpoint这一块的性能上。分析一下这些产品真正能卖出价钱的也是在性能上,因为并行文件系统能做得好的不多。所以为什么IBM的GPS现在焕发第二春?国内很多厂商都在用他的方案,这是很老的产品了,不能叫迭代,因为它确实很好地解决了性能的问题。

    一般性能文件对象问题其实在AIGC场景下,现在的解决方案基本能够满足,没有很大的Gap,所以它基本不在风口上,它的最大风口就是并行文件系统,就是Checkpoint这一块的写入。

    因为Checkpoint需要支持很多的性能和很多生态,可能是原来你没有做的,比如NFS over、RDMA,这些东西有些生态,特别是英伟达的生态必须要支持,因为现在基本上英伟达在生成式AI市场处于垄断地位。

    可以看到当年最大的Gap就是全闪文件的Checkpoint场景,也就是推理场景下的性能。如果创业的话,在这方面有产品,能解决客户这个痛点的话,你就在生成式AI存储最大的风口上;如果全闪文件要做大容量场景就不需要特别好的性能,因为如果是特别大容量的情况下,包括公有云厂商,全部会选对象存储,就是数据湖底座、AI底座,不会选文件,因为文件相对对象来说,它的扩展性还是要差一些,成本上也会略一些。所以你就把文件的Checkpoint性能搞好就行了。

    还有一个中型的场景,底层是一个数据库的对象,觉得并行文件系统太复杂了,Checkpoint怎么解决呢?上一些文件缓存产品,专门做文件加速的产品,如果需要很高文件性能的话就加这一层,但是这一层性能上也做不到并行文件系统的极致,所以在中型场景下可以做,大规模场景下还是需要并行文件+对象。

    针对美国用户投票的AI存储品牌调研报告,我们分析了报告里的内容,比如主存储里哪些公司做得品牌比较有名,用户投票给它,因为它是市场的领导者,它在市场上业务想象的份额是最大的。因为主存储在Gartner的定义里更多是偏块+文件的统一存储,对这个要求并不是特别高,但是生成式AI主要是文件多一些,所以在主存储里更多看到的是传统文件存储好的厂商,更多还是传统的NASFA厂商比较多一些。

    创新型领导者,用户认为哪些公司会在AI存储创新里脱颖而出?像Pure Storage是一个创业公司。它为什么有这么高的投票?主要是生成式AI大模型数量越来越多、数量越来越大,但是又要性能又要容量,怎么办?它有这方面的优势,因为它的QLC做得比较好,就是说要么把用户性能提上去,要么把用户成本降下来,这两点抓住了,就是创业成功的关键。

    文件和对象,生成式AI对Checkpoint要求很高,所以品牌调研里看到投票比较高的基本上是并行文件系统厂商多一些。戴尔虽然不是并行文件系统,但由于它是传统的存储厂商,所以在市场营销方面有很大的影响力。其实对象、块存储相关强势的厂商其实得票比较低,因为这块用到他们的机会比较少,因为Gap比较少,对象存储每个厂商做得性能有很大差距,也做不到Checkpoint要求的程度,所以主要成本做到足够低就可以了。

    创新型领导者,用户还是把票投给了Pure Strorage,因为在于它的成本优势上,在文件这块也支持QLC,而且支持的特别好。戴尔发布新闻要推出并行文件系统,现在还没有,它是分布式文件系统,但不是并行文件系统,因为它没有客户端,所以性能上还是有一定限制的。

    VAST Data的优势也是在成本,目前VAST Data其实写性能比较差。它是两层的架构,先写三副本到缓存层,然后再EC到QLC层。三副本往下写做缓存层时性能很差,因为一份数据要写三份,放大太大了,所以现在把缓存层也变成EC,在写的时候缓存也是EC这样写,写的数据量跟原来数据差不多,放大就变小了,大大减小了对网络上存储的数据量,性能就提上来了。马上会发布新的版本。

    为什么Pure Storage能做得这么好,它的主要差异化优势是用QLC自己做闪存模块,现在一个闪存盘每TB成本做得很低,号称“五年以后就可以把硬盘取”,但是我不太相信他的宣传,硬盘还是会长期存在的,而且它的容量做得很大。

    VAST Data我也比较看好,就是由于它的架构,它用了全共享架构,每一个上面的存储节点都可以看到所有的盘,相当于L路径分享短,直接写到盘。原来的架构L需要通过另外一个节点转发I/O,所以时延上、调度上都会差一些。这块规模会做得很大,会很好的媲美成本,它在成本上号称可以做到跟硬盘一样。确实如此,但需要一定的容量,需要到PB级,一般3个PB左右,如果有3个PB的数据量,一样的性能,肯定比硬盘便宜,这也是它的优势。

    Weka公司(以色列公司),做全闪并行文件系统,它的架构亮点并不是特别多,但是现在也融了很多钱,因为架构风口最强。用了分布式并行文件系统,做得简单易用,它本身就是全闪的东西,比较贵,自动分层到对象。

    如何抓住GenAI机会点?

    1.全闪文件QLC支持。

    2.大规模场景的话就是做并行文件,因为大规模场景,小量并行文件+大量的对象存储,当然对象存储没什么Gap,所有厂商都可以做。

    3.生态方面,刚需是英伟达的生态,MSO、RDMA等支持。

    目前如果创业选择机会点的话,就是以上这些。

    关于对信创的想法        

    1.目前业界在存储方面没有统一的定义,一般认为服务器是信创服务器,服务器有很多信创的现在要求,信创服务器+信创OS,上面装个软件则就是信创软件定义存储,基本上没有什么特别的要求。

    2.但SDS最大的成本是介质(硬盘),它的成本都在硬盘上,但是硬盘并没有信创产品。信创存储,硬盘都不信创,算不算?现在是模糊地带,因为没办法,也替代不了。

    3.内存和网卡、RAID芯片卡信创程度也非常低。

    4.FC和IB网络,这块虽然没有信创的产品,但是大部分场景都可以被以太网取代,从信创角度考虑不需要做太大的投入。但是FC做AI的话还是有一定的机会,不过市场不是很大。

    信创存储业界并没有标准,但是信创服务器的生态最为成熟,金融行业对信创的指导也最为规范。其他行业基本上没有。

    存储介质如何信创?

    上午最后一个主题演讲,谢老师讲了他们学生在做玻璃存储,我觉得是一个机会,除此以外还有华为在做光磁存储,华为发布了这个产品,但没有细节。目前看到信创介质还比较尴尬,只能用全闪,因为全闪我们有存储颗粒,有一大堆国产厂商都是做信创的东西,但是全闪还是比较贵的,从长期来讲,闪存的成本还是不可能取代硬盘,这是我个人的观点。

    硬盘没有信创怎么办?需要存储做一些创新,蓝光后面做一些分层,甚至可以用玻璃存储支持新的东西。我认为用了硬盘就是闪存+蓝光或+玻璃存储,可以思考介质的创新方向。

    QLC的介质成本到底有多低?

    ·这是从EMC当时对Pure Storage的目录架有一个分析,Pure Storage把QLC介质的成本报价直接报成TLC成本的1/3,所以狂推QLC市场。

    ·国内大普微已经推出了QLC SSD,因为用信创,我只能上全闪,如果有硬盘就不能用了,成本上还是有要求的,肯定QLC成本低一些。大普微目前做到的成本只有15%的降低,他们TLC、QLC价格可能差15%,也不错,但是还是差一些。以后国产存储要做信创的话,要尽快支持QLC,QLC的生态马上就会起来,因为信创逼的。国外其实已经起来了。

    存储网络如何信创?就是ROCE或TCP,好像没有什么特别的选择,而且这块我们不是特别烦恼,因为FC确实可以不用了,现在ROCE性能测试以后就会发现,包括带宽,FC都是有优势的。做信创,在NVMe-Fab的条件下,用以太网OK,没有问题。

    GPU信创?

    国内主要是华为在做这块事情,华为本身有一些供应链问题、生态问题。很多用户用英伟达平台,主要是CUDA生态太好用了,所以很多上面开源软件都是支持它的,如果换华为的话,可能软件的改动比较大。它的GPU生态对我们冲击影响也很大,虽然做信创存储,上面主机有很多GPU没有信创化,还得支持它这些东西,这样才能跟其他厂商发挥你的竞争优势,甚至还会逼你支持IB,因为英伟达主推IB,架构、性能上可能会更有优势一些,所以逼得很多存储也会支持IB,没办法,因为它的生态目前还有一定的优势,会影响到存储这边一些技术的选择。    

    如何抓住信创机会?

    1.信创兼容性是隐形优势,所有想象都是支持各种平台,但是它的性能、稳定性如何都不知道,用了才知道。所以投标时,都会满足,但是没有用过,建议大家还得小心,因为这个坑非常多。它能跑,不见得跑得稳、不见得跑得快。大家要看它的兼容性团队有多少人,要不断投入、不断迭代。

    2.QLC是机会点,但国内生态不成熟,目前只有大普微刚刚发布产品,其他产品还没有发布企业级QLC,还是在TLC里面做。

    3.高性能文件是创业的风口,一定要做分层对象,因为全闪文件性能成本太高了,不可能花很多钱全部买全闪文件,所以必须自动划分层,平时肯定存在对象里,要的时候再拉过来训练,训练完再放过去,并跟对象做很好的分层关系。

    4.信创高性能文件存储也需要支持GPUDirect和IB,可能会增加竞争优势。

    小结

    1.要做创业、做技术选择的话,Weka为什么比Lightsbit Lab发展得更好?两个都是以色列公司,一个做全闪块,一个做全闪文件,因为全闪目前在风口上,特别是并行文件,全闪块并不是,虽然它NVMe-OTP技术很厉害,但是我并不是特别看好它未来的发展,确实块的需求量还是少。

    2.GenAI的风口,并行文件系统风力最大。

    3.信创的风口拼的是软实力,特别是兼容性方面,普通用户投票根本搞不定,真正跑起来才知道稳定性性能怎么样,一般来说性能都会比同等的差一些,但是稳定性上会有很大的区别。

    4.存储创业目前处于低潮,几年前我出去讲课,每到一个地方,线下都有粉丝团夜场,当时很火,现在都没有人理了,可以看出来整个存储行业目前处于比较平淡的时期,特别是生成式AI对存储是一个机会也是一个不好的地方,因为大家现在有钱先抢GPU去了,有1000万,抢了GPU就没钱了,存储这边只能暂时先买一点点,先够用了再说。但是马上存储的春天就要来了,为什么?第一波浪潮,GPU的建设过去了第二波浪潮,数据上来了,训练数据越来越多。原来刚开始没有钱买存储,现在也都花钱买了,因为数据多了,放不下了,服务器该买也都卖完了。所以大家抓住这个机会,还是有一定机会的,会焕发第二春。

    以上更多是我的观察和感想,谢谢大家!