7月28日,主题为“闪耀数字经济新引擎”的2022全球闪存峰会(Flash Memory World)在线上盛大召开。
峰会首日,中国电子云副总裁 、IT产品线总经理曹心驰以《数字时代高价值数据的计算与存储挑战》为题发表主题演讲。以下内容根据演讲整理,未经本人审定。
曹心驰:大家好,我是中国电子云副总裁曹心驰。非常荣幸在2022全球闪存峰会与大家见面。今天我分享的题目是《数字时代高价值数据的计算与存储挑战》。
首先,请允许我简单介绍一下中国电子和中国电子云。
中国电子是唯一一家国务院认定的以网络安全和信息化为核心业务的中央企业,也是中国最大的IT企业,担负着加快打造国家网信产业核心力量和组织平台的战略使命。
中国电子云作为中国电子技术能力系统化输出平台,聚焦云计算和存储,为客户提供安全、先进、绿色的数字化底座。
当前,中国电子云凭借后发优势,基于云延伸的技术,在云计算方向已经拥有了CECSTACK公有云服务和CECLOUD专属云平台,并且已经承担了国家很多关键行业的重要业务的运行。
在存储方向,我们已经发布了仓山、超融合和仓海存储两个品牌共计有14款存储产品。在真实的项目中,最大支撑过超过每秒100G以上的数据读写需求。
纵观全球新一轮的科技革命和产业变革正在全方位的改变着社会的生产和人们的生活方式。数据作为数据经济核心的生产要素,已经成为重要的全球资产。
IDC数据显示,到2025年全球数据将激增175ZB。其中包括海量的结构化数据、半结构化数据和非结构化数据,并且数据的规模庞大、数据类型众多,而且实时性要求更高。因此,从数据到价值数据,再到数据价值,在这个过程中,离不开强大的算力和创新的存储技术支撑。
这里有一个非常关键的点:从数据到价值数据,再到数据价值全生命周期过程中,我们可以看到,最接近数据价值的都是正在被使用的高附加值数据。
这些数据恰巧是数据冷热涂层中最热的数据。
根据二八法则,到2025年全球数据圈拥有35ZB的高价值数据会无时不刻的处在运行状态,而存储系统作为数据的载体,能否支撑起这些海量最热化高价值数据,将决定了全球数字经济发展的效率。
根据未来存储技术的发展趋势,我们判断,高性能的全闪分布式存储是承载未来数字经济发展的重要基石。
存储产业,在中国经济政策的推动下,AI、云计算、大数据等技术快速发展,数据的规模也呈指数级增加,传统的数据存储产品面临着新的挑战,特别是在云原生技术被广泛使用的今天,传统的存储产品已经不能很好的满足客户在云计算体系下的需求;同时我们也注意到,国家在《“十四五”规划纲要》中明确提出了加快云操作系统的迭代升级,推动超大规模分布式存储、可信计算、数据虚拟隔离等技术的创新。因此,中国电子云以“钱学森系统论”为指导,借助我们在云上的研发经验和能力,将云中的存储技术产品化并且成立了IT生产线,组建了超过400人的存储研发队伍。依托在中国电子强大的自主计算产业链聚焦组织主业,打造中国电子的云原生存储产品。
为了做出更好的存储产品,中国电子云在业务开展的过程中做了大量的客户需求调研和梳理工作。
总结来说,当前的客户对存储产品新的需求和挑战主要集中在四个方面:安全、高效、绿色、简单。
在安全层面,我们研发了一系列的技术和创新并且发布了多款存储产品。其中包括两款分布式全闪存储和三款分布式混闪存储。其中全闪的机型有CeaStor 1812CE,这是一款面向极致性能场景的2U24节点、NVMe全闪机型,采用全NVMe SSD作为数据盘,提供极致的性能和极低的延迟。
另一款是CeaStor 18125,面向超高性能的场景。,采用2U25节点全闪机型,以SATA SSD作为数据盘,提供超高性能和较优的性价比。
在混闪机型中, CeaStor 16112是面向通用场景的2U12节点、容量和性能平衡的机型;CeaStor 16125是面向性能型的2U25节点,它提供了单节点较高的性能。CeaStor 16136是面向大容量的4U36节点,提供了单台超大容量的机型。
在能力方面,我们都知道,安全对于企业来说是非常重要的事情,尤其是数据的安全是头等大事,除了传统的通过多副本、纠删码、访问控制等手段,保障数据本身的安全。
为了降低业务影响范围以及二次的故障风险,用户也提出了很多要求。过去传统架构的分布式存储发生故障以后,需要分钟级别来做业务的切换,导致前端业务长时间中断。
仓海存储实现了秒级的业务切换,从而保障业务服务永远在线。
在数据盘发生故障以后,传统的存储遇到单块盘故障时,可能导致长时间的影响前端业务的性能。同时,数据冗余度也降低,重构期间还可能导致盘的故障使数据丢失。仓海存储通过软硬件一体化设计,大幅提升了数据的重构速度,保障了数据快速恢复,同时实现数据冗余不降级。仓海存储还提供秒级的快照能力和系统无损能力,有效解决了传统存储做快照的时候大量占用系统资源、容易导致系统性能明显下降的问题。
通过多重的系统保护和故障快速解决方案,为数据保障提供全方面的支持,有效地保护了数据在各行各业对存储在不同的场景使用需求,如面对高性能、AI的场景应用时动辄100G的贷款百万级IOPS的需求。
在性能方面,由于传统的存储单节点连接能力较弱,需要大规模的集群来支撑业务,导致管理的复杂性以及集群之间通讯大量消耗,增加延迟。仓海存储充分发挥新硬件平台的优势,采用RDMA智能加速和端到端的NVMe协议等技术,提升了单节点性能达到50万IOPS,带宽达到了10GB,最小的规模集群就可以满足用户的高性能需求。
我们实现了高效的协程调度,无损化的设计,全并行的业务执行,纳秒级的任务切换,每秒可以完成1200万次的任务切换,比普通的进程要快近200倍,极限的情况下极限的降低了延迟。同时,我们还采用全用户态协议栈,在进程发生故障时,只需要对进程的服务进行处理即可解决故障,避免因内核态进程故障导致整个系统的重启。仓海存储天然的还是原云生架构,除了可以很好的通过CSR的接口去对接容器云的平台,也能天然的拥有高度自动化运维的特性。
同时,我们还利用存在内置的容器平台,方便用户自定义服务,实现敏捷开发、敏捷发布。
在节能减排方面,仓海存储除了降低硬件的能耗之外,还通过提高资源的利用率来协助用户降低数据中心的PUE值。首先针对多种数据类型的应用场景,支持多协议互通,只需要存储一份数据即可以对外提供文件、对象、大数据等多种服务,减少数据空间的浪费,并且可以通过多元零拷贝,提升数据处理的效率。
在介质上,仓海存储支持高性价比的QLC介质。众所周知,QLC介质的性价比很高,但是它的缺点就是寿命比较短。为了解决这个问题,我们在写盘操作时采用随机的小块IO聚合大块写盘,保证每次写入的操作都是大块协作,大幅减少SSD的擦写盘次数。同时,我们通过自研的冷热数据识别算法,保障SSD的均衡擦写,让QLC SSD的寿命延长了一倍。另外,我们支持32+2的大比例纠删码技术,相比于传统的8+2纠删码80%的利用率,我们可以使利用率达到94%。
在管理运维方面,仓海存储支持统一的管理和智能的预测,提供极简的管理方式/向导化的部署和统一的界面纳管,对磁盘进行自动化的故障恢复和寿命监测,对性能和容量进行自动化的分析和调优。更主要的是,依托于电子云的云服务的优势,实现了对于云计算场景中,仓海存储可以在本地数据存储、私有云存储、公有云存储,多种存储中实现组合方案,支持多样的云化;对容器和虚拟化平台都有着良好的兼容性,也支持数据在本地和云平台之间流转。当遇到临时性的数据增量时,可以有效的将数据转换到公有云的平台,从而降低本地数据的压力。
仓海存储采用的是一套软件栈,同时提供文件、块、对象、大数据等多种存储服务,同时拥有全闪、混闪、2U、4U多种产品的形态,能够很好地满足政务、金融、交通等关键行业云计算、大数据、AI、视频、IGPC等场景的需求。
以上就是我分享的全部内容,感谢各位的聆听!