清华大学长聘教授、闽江学院院长舒继武:低存储税的新型存储系统设计与思考

11月29日,在DOIT传媒主办的“2023中国数据与存储峰会”上,一本覆盖了存储介质、设备、协议、架构以及大量相关的技术发展趋势,名为《数据存储架构与技术》的著作被抢购一空。

现场签售的著作作者——清华大学长聘教授、闽江学院院长舒继武告诉大家,国内系统介绍存储领域的高校并不多,很多学校最多也就是把存储系统作为计算机系统结构的一章。为了让高校更多学生能更清晰了解,两年前,清华大学团队和华为着手联合撰写了这本书。

在当天峰会上,舒继武教授还发表了题为“低存储税的新型存储系统设计与思考”的主题演讲,并提出了“存储税”的概念。

何为“存储税”?舒继武教授表示,存储税,就是将支持数据存储应用需求的过程中,享受到的容量、带宽、以及CPU算力、软件管理等各种服务进行分离并单独计费。

“从2016年开始,芯片制造技术全面放缓,而网络、存储及硬件技术发展都呈现上升趋势,CPU与这种发展的不匹配,带来了存储税的问题。” 舒继武教授说。

众所周知,当前数字规模发展迅速,带动数据量急剧增长。预计2025年我国总数据量将达到175ZB,同时,自动驾驶、VR/AR等应用对数字的实时通讯和处理要求激增。预计到达2025年,实时性数据总量将达50ZB,在全球数据的占比将高达30%。

“存储是数据的载体,云厂商巨头,通过构建超大规模数据中心,承载着海量数据。”舒继武教授举例说,微软Azure云存储系统遍布全球59个地区,阿里云盘古云存储系统有数十万存储节点,Facebook建设有EB级超大规模存储系统Tectonic。

海量的数据,意味着庞大的系统,会产生相应的问题。比如,构建数据中心,要用到各种存储,大量的器件,一方面,传统的硬盘与闪存盘,组成金字塔架构,在性能和容量上存在数量级的差别,软件也跟不上硬件的发展,另一方面,随着摩尔定律的终结,芯片制造技术的发展全面放缓,但存储、网络技术发展势头迅猛,如数据中心网络已正式迈入400Gbps大关,PCIe Gen5 SSD带宽高达12GB/s。这意味着,CPU已经成为存储系统中新的性能瓶颈。而且,规模大、数度快,并不意味着一切问题的解决,至少,还有成本的问题。

高企的存储税影响了数字经济的发展。清华大学开始了这方面的工作。

舒继武教授表示,降低存储税的办法有很多种,涉及到很多相关的技术,通常是从新接口、新能力和新编程三个角度考虑:通过硬件卸载,把应用调配放在最适合处理它的硬件设备上,减少占用GPU的资源,基于新编程接口重构软件,大幅度降低开销。

从硬件接口角度,传统的SSD提供的block接口,软件开销效率比较低,优化也比较难,但主要供应商是三星、英特尔等,有一些双接口SSD,既提供宽接口也提供自接接口,可大幅度降低效能,软件性能也大幅度提高,代表厂商是英特尔,还有一种键值接口SSD,定向优化键值存储,不兼容其它软件(如文件系统)主要供应商是三星。

从硬件能力方面,虽然都是采用软硬件协同设计方式,开放通道SSD克服了普通SSD性能和可靠性问题,性能隔离和定向优化,但硬件需要大幅改动;分区SSD (ZNS),优化了普通SSD的性能和可靠性,以用软件管理来管理,硬件改动较前者少,市场上接触的比较快;可计算SSD具有存储能力与计算的能力,在离存储更近的地方计算,有的硬件甚至还具备网的能力,从而克服了设备与主机互连带宽瓶颈,硬件改动更小。

在编程模型的变化方面,在硬件提升比较慢的情况下,可采取基于轮询(polling)的编程模式,以及NVMe SSD、RDMA、DPDK等设备编程库。此举相对来说不存在太大难题,现实的情况下还可以处理新的一些事情,是比较好的方式。

针对低存储税的新型存储系统设计,清华大学在新接口、新能力以及新编程方面都取得了一定的研究成果。

在新接口方面,有面向数据复制的RDMA新抽象: Rowan、异步内存存储框架: EasylO;在新能力方面,是分布式持久性内存文件系统Octopus、可计算存储设备IO栈: 入-IO和写优化的分布式B+树: Sherman;新编程方面,低CPU开销的远程数据保序传输: RIO、基于RDMA原语的分布式范围锁: Citron和分离式内存保护原语: Patronus。这些科研成果,都是以降低存储税为目的。

如新的编程框架EasylO,这项工作主要的背景是面向存算分离的架构为主当然也包括其他的架构的数据中心。分离式内存往往具有高时延特性,进一步加剧了CPU的等待,导致在数据搬运过程中消耗了90%的CPU资源,从而引发高昂存储税,清华大学在能力方面提供了的优化的分布式的比加数,在接口方面提供了数据保护的存储,即通过DMA引擎取代Load/Store指令,进行异步数据拷贝,并将DMA访存的时间窗口用于执行其他计算任务,测试结果显示,峰值的时候CPU资源占用降低了78.5%。

当负载的写比例增多时,吞吐率和尾延迟严重恶化,原因是过多的网络往返、低效的RDMA网卡原子指令,导致现有索引结构部署在分离式内存时写效率低下。

这就是清华大学的第二项工作——Sherman,写优化分布式的B+树,它通过索引缓存,在计算端缓存树的中间节点,减少网络远程访问,同时也采取分层片上锁方式,将锁从树节点剥离,存入网卡内存,消除PCIe事务。

第三项工作是低CPU开销的远程数据保存传输。

顺序性是存储系统的重要语义,它保证了数据的可靠存储。测试表明,为保证顺序性,需要耗费12倍以上的CPU资源才能达到无序数据传输的性能。为此,清华大学认为,I/O栈的分层设计加上异步并发的网络和存储设备,使得I/O栈与CPU流水线概念上十分类似,由是决定将CPU流水线设计引入到保序I/O路径中,尽可能避免同步操作。

总体而言,降低存储税方面有大量对策,包括硬件卸载、软件重构等等。近期,清华大学研究团队将异步内存存储框架、可计算存储设备IO栈,以及写优化的分布式B+树作为研究对象并取得一定进展。

期待清华大学更多的科研成果。

“2023中国数据与存储峰会”共吸引了近1000名业界精英和专家学者现场参会,围绕“数智创新 AI未来”的主题,以及如何跨越数据和经济之间的鸿沟难题展开深度交流与研讨。

作为延续了18年、业内最具影响力的盛会之一,中国数据存储峰会为产学研用专业人士提供了交流学习的平台,也为全球存储产业的发展提供了宝贵的经验和建议;在展示中国处于全球存储产业重要地位的同时,也展现了中国企业和科研机构在数据与存储领域不断进步的实力。