浪潮李辉:智能重塑未来,存储如何变革?

人工智能、大数据、云等新技术兴起对存储发展带来哪些新的冲击,浪潮存储如何制定未来的发展路线?在日前的浪潮IPF2018大会上,浪潮存储研发总监李辉和Gartner VP Stanley,就智能时代的存储演进共同接受了媒体采访。

智能,拉近两大平行世界

今天我们生活的世界,形成了两个平行世界,一层是我们的物理世界,另一层则是由各种智能终端、传感器、服务器、存储设备所汇聚及衍生的数据及其交互行为,所形成的数字世界。这两个世界并非割裂,而是通过数据载体来交互信息和进行融合。

Stanley在IPF2018演讲

注:据Gartner数据显示, 2020年互联设备达到260亿台,移动设备74亿台

因为数据承载着人们的社交信息,我们才能与世界每一个角落交流;因为数据记载了每一条道路的信息,自动驾驶才能平稳地行驶于其上;也是因为数据汇聚了从订单导入、工序制定到机床生产等各环节的信息,智能产线才能开工运转。可以说,现在及未来任何一种商业模式、每个人的工作和生活,都将被数据及其内蕴信息的智能应用所改变。

从产业发展角度来看,只有站在两个世界之上,跨越物理世界和数字世界的交点(即进行智能时代的业务转型),才能获得完整的产业机会。而IT厂商的使命,就是为各行各业的再一次转型提供专业的数字化产品和方案。

AI改变IO的本质

“在智能时代,智能信息应用和数据智能技术两者是互促式创新。”Gartner VP Stanley表示。 “在数据存储的历史上,存储面对的应用是老三样,即数据库、文件和流媒体;今天,在智能时代驱动下,存储要面对新三样应用,即Cloud、Big Data和AI,这是智能应用的三层进阶和实现路径。”浪潮存储研发总监李辉表示。

新三样的数据挑战:规模、性能、共享与管理

老三样应用促使传统存储在性能、安全性、可靠性上有了比较好的解决方案,新三样应用对存储提出了更多的要求。

在智能时代,数据成为核心资产和基础生产资料,企业期望能做到数据及其所蕴藏信息的最大化共享。因此,李辉认为:“新三样应用不仅是把基础设施的资源价值最大化地挖掘出来,更需要把整个数据资源——无论是关键数据,还是以前认为没有价值的数据,价值都能够最大化地挖掘出来、贡献出来。其本质上是基础设施和数据资源在超大规模应用下进行共享的问题。”

这首先对存储规模提出了挑战。从云计算来看,云计算的应用多达几十种、上百种,客户可能有几百个、甚至上千个虚拟机,承载成千上万个虚拟桌面。作为它的整个后台,存储集群会规模很大。从大数据或者AI来看,其数据量非常之庞大,可能拥有十亿或者百亿的文件,构成一个庞大的数据链。这就决定了,大数据或AI需要借助一个很大的集群,包括服务器集群、存储集群或GPU集群来服务上层业务。

其次,新三样应用对存储性能提出了更大的挑战。无论是面向文件和对象的OPS的性能,还是面向云虚拟机环境下IOPS的性能,新三样应用都带来了第二个非常大的挑战,就是性能一定要足够高。比如现在一些应用,已经到了百万级的IOPS,已经到了TB级的带宽。

第三,云、大数据、AI需要在设施资源和数据资源的共享基础上进行再利用,这对数据的共享与管理带来挑战。现在及未来,客户追求的是全局最大化共享,而不仅仅是局部或内部共享。Stanley表示,“大数据或AI应用实际上需要把一些之前扔掉的数据重新拿回来做分析,扔掉的数据反而会产生很大的价值。”李辉表示,“数据要实现共享、要流动的话,可能牵扯到几百个乃至更多的数据存储节点,涉及数万个数据卷或者数百万个文件。这些数据资源,需要通过统一架构来支撑、统一管理平台来调度和组织,在共享和管理上有很多技术上的挑战。”

标本兼治,以智变促质变

新三样对存储系统带来了更高的技术要求,主要集中在六大方面:存储架构与数据服务、存储内外的高速互联、空间资源的超大规模池化、资源池内数据的超高速流动(即汇聚和分发)、对上层应用(尤其是云计算、大数据、AI应用框架、平台、生态)的超密对接、数据中心级的统一智能管理与调度。因为有上述需求,现在存储的构建方法和使用技术也有所改变。

对于这六大方面的技术需求,在存储系统上应标本兼治。

云计算、大数据和AI是智能应用的上层建筑,存储与服务器、网络和云平台则构成基础设施。首先,存储作为基础设施之一,其系统架构是本。架构的一致性和归一性会给数据中心基础实施带来互联互通、共享统管方面的保证,带来全方位的CAPEX和OPEX节省。其次,生长于架构上的新技术、新特性、新功能,则是标,通过这些创新,存储可以完美适配不同的应用场景。

存储架构发展到现在,主流的存储架构趋势有两个:

一个是传统存储(即磁盘存储)的Scale-up纵向扩展架构。通过对Scale-up架构进行重构,增加一定的Scale-out横向扩展能力,以及更多技术特性和功能,可以更好地满足智能时代新三样应用的架构需求。比如增加高端存储特性,满足新三样应用的高端超高性能应用;又如存储在同一套架构上支持磁盘、磁盘固态盘混合、全固态盘等多种介质,提供磁盘存储、混合存储、全闪存储等应用模式,达到“统一存储”的目的。

另一个主流架构则是Scale-out,即分布式架构。在数据量动辄PB级的时代,分布式存储的应用越来越广泛。面向新应用,分布式存储最需要“All in One”架构,即一套架构支持文件、块、对象和大数据等不同类型的数据服务。这种分布式存储在架构上的一致性,能保证在基础设施层面就地分发数据,减少数据复制和迁移,减少部署和运维的复杂度,在一套技术体系内实现数据的全生命周期管理。

对于存储规模来说,从应用角度,PB级容量已经是常态。十PB级、百PB级需求也已出现,不久的未来,一些大型客户会出现EB级容量需求。对此,Stanley表示,“现在存储技术比较广泛适用的是横向扩展的存储系统——分布式存储。它可以同时增加容量、计算力和带宽。也就是说,容量增长的同时,计算力跟带宽均呈线性增长。这就解决了扩展性的问题。分布式存储发展到现在,其容量的衡量单位已经是PB。”

Stanley在访谈现场

Stanley特别强调:“由于大数据的出现,如今数据增长的70%是非结构化数据,所以比起IOPS,大数据更多关注带宽、容量和成本。而HDD,即传统介质,在带宽、容量方面相对于闪存更有竞争优势,而且它就是原始数据存储的成本也更加低。所以如果要把之前扔掉的数据,现在收回来,用于AI、大数据分析的话,混合存储(磁盘和固态盘)架构反而具备更多竞争优势。”

其次,对于数据访问性能问题。关键应用和虚拟机集群要求高IOPS,全闪存储会是更好的选择。一方面,全闪存储使用固态存储介质技术,比如3D NAND闪存技术,还有一些新兴介质技术,比如3D xpoint。通过全闪存储系统内的介质全部固态硬盘化,可以大幅提高IOPS、时延和带宽。另一方面过去20年里,主流的存储介质协议改变了很多。当前主流的是SAS和SATA;NVMe和NVMe over Fabric也已经标准化,在此基础之上,业界出现了NVMe固态硬盘。对比来看,NVMe SSD的高IOPS能力对比SAS SSD没有更多改变,但是它的容量和扩展规模更大,更重要的是,时延能大幅降低。

Stanley表示,“基于固态存储技术,我们还可以把一些存储技术模块打包,从快速存储向内存存储来改变,带动内存计算技术的发展。这样的话,内存计算的方式发展起来之后,业界在数据库的设计、应用设计这些方面都要得到改变。所以说一个纬度的改变会带动很多纬度的改变,包括这些应用本质的一些改变,应用及其支撑的改变是相互的。”

场景驱动开发,互联网+存储

Stanley表示,“云计算的出现其实也改变了客户的购买模式。因为很多的基础设施上云之后,它的上面的数据也就上云了,其实跟本地的存储形成了一种竞争的关系。”

李辉表示,现在数据中心在快速演进,大部分的数据中心都会遵循某个模式来发展。像一些互联网的数据中心,或者一些高性能计算的数据中心,会做得比较激进。这些数据中心主要是新建的,没有一些固有的历史包袱,它可以面向未来去更多的采用一些新架构和新技术。政府或者企业的一些传统数据中心,问题可能就会比较大一些。因为它既要上一些新兴的应用,同时还有一些过去建设了这么多年传统的应用,面临的优化、整合、数据上云、应用上云等问题会比较多一些。

对此,浪潮存储研发坚持“场景驱动开发”模式,即“以客户为中心、以应用为导向、以技术为基础、以创新为桥梁”,把新技术和新应用结合在一起,针对典型场景进行快速定制型开发和优化,以最大限度地满足用户需求。浪潮存储把新老应用重新定义为传统企业级应用、视频监控、高性能计算、广电媒资、云计算、大数据和人工智能等七大一级场景,并将之分解为近百个二级场景。截止目前累计完成了近50个二级场景的定制和优化,尤其是在云计算、大数据和人工智能等方面,已经做了大量的定制和优化工作。

比如,针对私有云内基础设施的新老兼顾、优化整合,浪潮增强了“异构虚拟化”功能,支持业内近90%、总计300多款存储设备的异构融合,能帮助用户有效完成老系统升级、老设备利旧。又如,针对分布式存储海量小文件的高性能处理要求,浪潮端到端优化和增强了传输协议、数据聚合、服务集群、介质分层等全流程上几乎全部的处理模块,“基本上我们是重构了一遍”,李辉表示。当前浪潮已经把小文件处理能力从亿级提升到了十亿级,正在根据典型场景向百亿级优化。

“互联网应用是云计算、大数据和AI应用的集成者、领先者和普及者。浪潮存储既跟互联网客户合作,又跟政府和企业等非互联网客户合作,可以了解他们双方各自的要求。在此基础之上,通过浪潮存储内在的需求-开发-交付体系,创造互通有无、相互借鉴的创新桥梁。”李辉表示,“我们一方面可以针对包括互联网在内的特定用户的典型场景快速定制和优化,另一方面又把相关优化普及到其他用户中去。借鉴互联网思维,借力互联网应用,结伴互联网用户,这就是浪潮存储的互联网+。”

李辉在访谈现场

双线发轫,高速发展

浪潮存储在技术研发与产品布局上运筹帷幄,以求满足云计算、大数据和人工智能对企业存储的需求。

在产品布局方面,十余年如一日,浪潮在Scale-up和Scale-out两大架构基础上不断进行技术创新和产品迭代。当前浪潮存储拥有两大系列产品。一个是基于Scale-up架构重构而来的统一存储系列,通过架构革新和特性增强,在同一架构下支持两类存储,智能存储(磁盘存储和混合存储)G2、智能全闪G2-F;另一个是基于Scale-out架构的海量存储系列,即分布式存储,同样在同一架构下支持两类产品,即统一分布式存储UDS、软件定义存储SDS,这一套架构可以实现文件、块、对象和大数据四种数据服务。

两大系列浪潮存储产品双线发轫,已广泛应用于金融、公安、能源、通信、教育等行业,并得到了越来越多用户的认可,并在金融、运营商、能源、政府、制造等众多大型客户中实现了规模应用。与此同时,浪潮存储还与医疗、广电、监控等多个行业的ISV紧密合作,推出面向行业的联合解决方案,成功服务于越来越多的客户。

Gartner认为,云、大数据和AI应用的高速增长,是数据存储发展非常重要的推动力,会让中国存储市场保持比较健康的中高速发展速度。目前,中国存储市场在全球存储市场的占比只有8%,但中国经济总量在全球的占比已达18%。推而论之,中国存储市场未来在全球存储市场的占比将会越来越高,拥有很大的增长空间。

Stanley表示,“中国存储厂商只要能通过技术创新,去帮助用户设计架构和建设基础设施,促进用户做出更好的业务决策或者创建更多的业务机会,从而帮助企业增加收入。(中国存储厂商)在商业方面就比较容易能够成功。”

机会往往留给有准备的人,浪潮存储的技术和市场实力正在突飞猛进。2018年,浪潮存储将联合上千家合作伙伴,向中国存储市场前二的目标进发。