11月9日,由百易传媒(DOIT)主办的“2022中国数据与存储峰会”在北京成功举行。在会议期间举办的“东数西算高峰论坛”上,中国信息通信研究院云计算与大数据研究所副所长栗蔚以“算网(存)融合下的分布式存储发展趋势”为题发表视频演讲,从算网融合的政策背景、算网融合下的数据存储与流动,以及算网融合下的分布式存储发展趋势等方面进行分享和阐述,受到与会观众的密切关注和高度好评。
本文系根据演讲速记整理,未经本人审定。
各位专家大家好,很高兴能够参加2022数据与存储峰会。
今天跟大家分享的题目是“算网(存)融合下的分布式存储发展趋势”,从算网融合相关背景、算网融合下的数据存储与流动以及算网融合下的分布式存储发展趋势等几个方面进行分享。
算网(存)融合相关政策背景
随着新一代信息技术快速发展,应用对算力、网络、存储的需求不断提升,算力、网络、存储的融合成为必然。
作为未来算力进一步发展的关键技术,算网融合具有多层次、多类型、一体化的共性特征。
2021年5月,国家发改委联合有关部委发了《全国一体化大数据中心协同创新体系算力枢纽实施方案》,工信部同年7月发布了《新型数据中心发展三年行动计划(2021-2023年)》,今年1月,工信部、发改委又发布了《关于促进云网融合 加快中小城市信息基础设施建设的通知》,1个月后,发改委等四部门印发文件,正式启动东数西算工程建设。
这些政策文件中屡屡提及云网协同、、云网融合、云数一体、算力网络等概念,标志着算网存融合,已经达成政策共识。
算网(存)融合,是“东数西算”工程的重要支撑
一直以来,我国的算力供需都存在着很大的矛盾。
从中国信通院的调研中可以看到,中国的算力基础设施规模已经达到了135Eflops,位居全球第二。但是,算力的利用率仍然比较低,北上广等核心城市的平均上架率达到了70%,远高于50%的全国平均水平,而中西部的上架率仅为15%-20%。
在这样的背景下,打通网络通道,加快实施“东数西算”工程,提高跨区域算力调度水平,构建全国算力网络体系,就显得十分必要和紧迫。
实现算力全国调度,离不开算力网络支持。而算力网络是算网融合体系的技术实现,商业及政策相关内容也有助于算力网络的实现。
如何让算网融合在东数西算工程中发挥更大的作用?可以从以下三个方面发力:一是建设统一的算网运营平台,对全国算网基础设施的资源进行编排和调度;二是开放各个平台接口,纳管云厂商的算力平台、数据中心服务商的算力平台以及超算中心等的算力平台等社会算力,让所有算力相关平台都能够按照标准互联互通;三是要建立一体化的安全基础设施,强化安全支持、实现共享交易,保障整体算力的一体化调度。
算网存融合建设,离不开各方力量的协同推进。其中,运营商要加强网络基础设施通信建设,提高传输的质量,云服务商以及算力服务商要提高算力调度的能力,数据中心和超算中心等算力基础设施提供商要增强算力的整体供给能力,共同形成算力一体化的调度和协同。
算网(存)融合下分布式存储发展趋势
算力的一体化调度,并不是说像电力调度那样,把算力从一个地方调配到另外一个地方,而是把数据调度编排到适合的算力资源池中,真正“运动”的其实是数据。
因此,算网存融合真正面临的挑战是数据的存储与流动问题。
数据在存储、计算和分析,并得出科学决策和预测等商业价值的过程中,与数据的传输质量及效率、数据的安全、数据的加速以及计算的能力都有着密切的关系;数据类型的不同,对存储资源以及算力资源的需求不同,决定了它选择相应算力资源池的路径。此外,数据还要能在异构资源池中进行流动、处理、分析。
所有这一切,除了算力资源的配合,还需要数据基础设施作为支撑。分布式存储,就是承载算网(存)融合中数据存储、流动、统一调度和管理的数据支撑底座。
1)分布式存储在数据流动中的关键作用
为应对算网(存)融合各类场景中海量多样性数据应用的挑战,分布式存储正在向面向混合业务负载、多协议互通以及存算分离的架构方向演进。
分布式存储具备高扩展、多协议、高性能、高可靠的、开放数据存储能力。作为与计算能力相匹配的存储架构,分布式存储已经成为未来数据存储核心业务场景的支撑。
2022年7月,中国信息通信研究院从架构、硬件、软件功能及性能以及数据管理、绿色节能等方面向分布式存储领域展开了一项调研分析,并总结形成了《分布式存储发展白皮书(2022年)》。该白皮书指出了分布式存储短中期与长期发展走势。
2)分布式存储短中期与长期发展走势
短中期来看,分布式存储有面向多协议互通的架构、面向混合负载的架构以及应用架构的存算分离三大发展趋势:
多协议互通架构,支持同一套分布式系统访问文件存储、对象存储、大数据存储等并且可以对像文件对象、DFS等不同的协议实现兼容,从而减少多种协议带来的存储性能的损失;面向底层的异构算力和混合负载架构,支持云计算、通用计算、超算和智算等多样化的算力,提供相匹配的数据存储与网络和基础设施的性能;算分离的架构,使得计算和存储资源可以按需地独立进行扩展,实现资源的最大效率利用。
3)分布式存储长期发展趋势
长远来看,分布式存储的介质、性能、容量将高于CPU能力的提升,存储服务和存储介质将进一步解耦。未来的分布式存储除了支持通用的服务器,也会逐渐演进到一个可以组合、广泛卸载和大规模的支持异构计算能力的存算分离架构;存储介质集群,解决日益增长的数据存储问题,存储服务集群,解决存储自身计算问题(存储特性、控制面),计算集群,则解决生态连接问题及本地高性能缓存问题。
基于全闪存的分布式存储系统具有更高的性能、扩展性、企业级存储特性以及更好的性价比,正在成为市场主流。要发挥好全闪存带来的优势,存储软件堆栈还需要进行端到端的重构,如IO免锁设计、优化写放大、垃圾回收、数据缩减等。
近年来,NVMe over Fabric协议借助NVMe通过网络结构将主机连接到存储,取代传统的以磁盘为中心的SAN技术,让企业能够通过网络无缝连接闪存,释放闪存性能优势。对于活跃的热数据,持久性内存和闪存盘将取代机械硬盘成为主流。
在分布式存储硬件发展方面,以DPU、IPU等一系列硬件加速的专用数据处理芯片正在兴起。如DPU就是把存储系统中的IO处理、纠删码计算、数据重删、数据压缩、加密等功能卸载到了DPU上,让CPU集中于系统控制面的功能,从而极大地提升了CPU工作的效率,因此得到快速发展。应运而生的NVMe协议,以高达数十GB的吞吐量、数百万IOPS和微秒级时延极致地发挥出了SSD硬盘性能。使用Fabric网络来承载NVMe协议的NVMe over Fabric,高性能、低延迟的远程访问SSD成为可能。与SCSI协议相比,在主机和阵列间使用NVMe-oF协议具备更好的性能、简化配置、组网灵活。
分布式存储软件正呈现四大趋势:超高性能、安全可信、非结构化数据缩减、容器存储。一是大多数高性能计算其实都是对于海量数据进行人工智能或者科学计算,所以分布式存储的集群的性能正在快速提升;二是安全可信已经成为数据泄露风险的重要保障,分布式存储需在主机、存储到盘的全链路提供高性能的数据加密传送能力,提勒索病毒检测、容灾备份等快速恢复数据韧性能力,并支持多云数据访问控制策略与安全合规机制;三是随着SSD成为主流介质,通用的数据压缩的算法与针对不同场景的专用压缩算法创新将成为趋势;四是云原生技术的深度应用,可以实现对底层存储的统一管理,提升对存储系统的自动化运维能力。
数据跨平台流动、多数据中心容灾以及智能化运维,是分布式存储在数据管理方面的三大趋势。以实现数据在不同的云平台间的自由流动为例,未来分布式存储将考虑统一的数据编排目录或者操作系统去形成统一的管理平面,对于跨云的数据和应用进行统一的编排,消除跨云平台或异构算力资源池中分布式存储的数据孤岛。
存储系统作为数据中心三大件之一,存储的绿色节能成为关键刚需。在碳达峰、碳中和这样战略大背景下,分布式存储基础设施需要在保证性能的前提下,综合考虑规模、介质、架构、创新等因素,最大限度降低能源消耗。目前包括分布式存储在内的存储领域的节能探索正在如下几个方面取得进展:首先是采取存算均衡模式,通过优化数据中心存算比提高资源的利用率,从而减少能耗;其次,通过存算分离的架构,利用数据高密存储再加上纠删技术,提高数据存储效率;三是算法的节能,利用数据重删压缩和多协议访问技术,提高数据的利用和访问效率;四是介质的节能,固态盘提升了存储密度,同等容量下的闪存系统会比磁盘介质存储系统降低约50%的能耗。
至此分布式存储在架构、软件功能和性能还有硬件、数据管理以及节能等方面的趋势跟大家分享完了。相信各位都会在这种算网(存)融合的大背景下,进一步看到分布式存储所发挥的作用。
未来我们也希望跟在座的各位,共同去研究算网(存)融合过程中面临的数据存储与流动等一系列问题及对策。
谢谢大家!
【在当天召开的“东数西算高峰论坛“上,中国科学院计算机技术研究所研究员张云泉、中国气象局首席气象专家何文春等专家以及英特尔、联想凌拓等企业的代表也先后发表致辞或主题演讲;两天峰会共吸引了线上线下20余万人参与和互动交流。】