开启AI重构新篇章 HPE闪存存储的智变之路

在数据中心业务应用中,存储总是“背锅”的对象,任何数据慢业务性能下降,存储系统的性能总是第一个被怀疑的对象。HPE的研究发线,60%以上的问题其实都不发生在存储端。存储AI应用,为问题的解决推开了一扇窗,与此同时,大模型为代表的AI快速发展,也带来了新的存储硬件架构重构的新趋势。

2023闪存峰会上, HPE中国区存储事业部总经理张楠以《开启AI重构新篇章 HPE闪存存储的智变之路》为题,揭示了存储系统设计的最新变化。

以下全文基于本次演讲速记整理而成:

今天我的演讲内容是想通过AI重构带来的新变化,我们在上周跟新华三联合发布了HPE新的闪存产品,这是一个划时代产品,应该可以引领未来5~10年存储市场的发展方向。

HPE的前身,惠普(HP)是在80年代进入中国的IT企业,1999年在中国就卖出了第一台存储,那个时代,如果大家去看用户机房或者数据中心的话,大概率会看到MSA存储,很多行业数据中心,如医院、政府、图书馆、科研单位都在使用MSA存储,那个时代的用户对存储的认知,就是存下来。

今天我们在市场上看到的存储产品,其底层都采用虚拟化技术。在2005年以前,EVA存储在底层已经做到了虚拟化,大家可以想一下2000年初的时候,可以跨越阵列的100块盘去做RAID,到2005年~2015年,业务需求进一步发生变化,包括自动化智能、移动支付、出行生活和工作发生了很多变化,对存储的需求也随之发生了很多变化,尤其是2010年前后,虚拟化网关非常盛行的。很多用户会拿一个网关在存储之上去搭建起来统一的管理,虽然可能性能不好,可能也还会有很多的风险,因为网关是一个增加了的故障点,但是很多用户依然追求着虚拟化。一直到2015年,很多用户依然在做这件事情。

2015年被成为AI元年,直至今年的AI大语言模型,AIGC相关话题甚嚣尘上,对此存储其实是些应对乏力。大家如果了解HPE产品,也知道HP在17年前全球第一家存储实现了人工智能。过去6~7年时间,我们已经积累大量的实践用户模型,这个模型是指在应用上产生访存压力,我们有大量积累帮助我们可以更好的去实现AI应用。

当我们有了这些AI模型以后,我们就知道用户问题在哪,比如全球99%的用户这样配置他们的存储,它的性能是这个位置点,大概率你的存储会有这样的问题,这个模型可以去帮助用户去解决性能的问题,帮助用户大量减少运维时间。大家都知道,存储运维也有一个28法则,就是用户花了20%时间去解决80%的简单、非常简单的问题,但是却用了80%的时间去解决20%疑难杂症问题,如山东某制造型企业的用户,为了排查一个因为存储交换机参数问题,花费了3个月时间,因为他们根本不知道故障点在哪里,几乎所有合作方、运维人员现场排查了2~3个月,最后才定位到问题。但如果有了AI模型,可能只需要5分钟,就可以大概率知道问题发生在哪里,人工智能会帮你判断,这个就是存储人工智能的好处。

实际上,很多问题很难被发现,很多时候用户会说:存储运行平时看着挺健康的,无论压力大还是小,运行觉得还可以,但总觉得慢,与当初测试性能相差很大,也不知道问题出在哪里。这是因为很多问题是表象的,可能你的访存压力并不大,但延时很高,也许就是成千个虚机中的一个出现了IO冲突或者错误,影响了存储的FirmWare,一个虚机带坏整台存储,性能急剧下降。但是要想定位故障,对用户来说就太难了。

人工智能模型给存储带来的好处也是在过去几年,所有用过HPE主存储产品的用户会有一个体验, 3~5分钟就可以直接看到这台存储过去3~6个月,甚至一年时间存储性能的高峰和低谷,你可以看到这台存储设备为什么性能这么差,是磁盘的问题、端口的问题?还是存储交换机的问题?甚至应用的问题?我们都可以透过存储AI第一时间去发现过去发生的问题。

存储总是在背锅,一说数据慢业务慢,总觉得是存储的问题。我们发现60%以上的问题,其实都不发生在存储端。所以通过AI,我们可以解决很多这样的一个情况。

今天的演讲重点是存储硬件重构,他有几方面含义。

第一个含义就是架构,我们在未来产品上做了一个新的架构上的重构。

第二个是用户体验重构,用户的存储扩容、升级、运维,这种体验已经完全不再像过去了。

第三个是重构价值,有很多方面的因素,如绿色环保、降低投入等,这都是我们在承诺上要做的事情。

Alletra MP是存储重构的代表性产品, 我们叫AI原生存储。

为什么是AI原生?

刚才我讲到在过去七年,我们积累了大量经验在AI上面,所以在我们的控制器上,就集成了全球所有用户的使用习惯。这个习惯是植入到控制器里面的。随着FirmWare升级,用户就可以拿到最新的全球用户的使用习惯。这样做最大的好处就是:我不需要联网。大家总觉得你要做AI, 是不是要联网?确实如果你可以联网的话, AI效果会达到更好。但如果你不能联网,我们一样可以做这件事情,他会根据你的IT环境提炼出来最适合的性能、最适合的兼容性。

Alletra MP有三个重点的内容:

第一个是百分之百可靠性承诺。我们可以跟用户签署协议,承诺百分之百系统可用性,如果没有达标,我们会有相应的赔偿。

第二相对于上一代产品,我们有两倍的性能提升。

第三管理时间减少98%。

这几个数字,尤其是最后一个数字,大家可能觉得比较夸张,但这却是通过人工智能计算出来的,没有人工智能和有人工智能的差异就是这么大。

那么,话题回到架构重构的问题。

大家都知道传统存储主要是为了追求稳定性,但在灵活性、扩展性以及管理性,都没有软件定义存储那么的自由。对此,我们在这一代的产品上,强调的是流动的控制节点,固定的数据空间。对此,怎么理解呢?

无论我们做SAN存储、对象存储,还是文件存储,使用Alletra MP,你的计算节点是可以任意扩展的, 但存储资源可以不动。要知道,很多时候的用户需求,不过是增加一个新的存储协议,或者更好的存储性能,这种情况下,为什么我还要追加存储空间呢?

Alletra MP是一个完全存算分离的架构,好处就是更灵活、投资成本更低。用户可以一个节点为单位追加计算单元,而存储空间完全保持不变的,任意节点损坏,都不会影响系统的稳定运行,可靠性更高。目前,Alletra MP节点之间相对独立,但又完全关联起来,也就是说,A节点数据发生问题,需要切换应用,它可以按照A节点资源去进行切换。

Alletra MP作为天生AI存储,可以知道其每个节点的性能天花板在哪里,到目前为止,业内只有Alletra MP可以做到这一点,用户可以清楚的知道:性能消耗是30%,还是50%。如果有一台节点出现问题,这个节点里的一部分资源会切到B节点,另外一部分资源会切换到C节点,系统会平衡接管节点上的资源,这是一个被AI赋能的切换。所有事情都交由人工智能后端处理,去帮助用户解决问题。

目前应用市场发展都在看新的协议,包括NVMe、人工智能大模型等。我觉得大语言模型的出现,市场更加关注的是算力,但是我相信,存储的存力会变成下一波的刚性的需求。预计明年下半年,HPE也会有新产品和新协议出现,我们相信存储市场会迎来一个爆发期。

到那个时间点,我们的AI,我们的全新产品,包括架构重构,都可以帮助到用户,为用户提供一个更好的产品和解决方案。