叶毓睿:新型数据中心需要什么样的存储?

智算时代的序幕已经拉开,互联的万物,一切皆计算机。智慧计算融入到千行万业的图景,正在徐徐铺开。这是一个数据成为生产要素的时代,智慧计算将劳动者由人变成了人+AI,将数据变成了一种新的生产资料,将计算力驱动的信息化设备变成了生产工具。

本文作者:浪潮信息首席架构师 叶毓睿

智算时代,算力供应呈现多元化发展趋势,包括科学计算、关键计算、云计算、AI计算等,支持这些多元、异构的计算,需要新型数据中心。

工信部在《新型数据中心发展三年行动计划(2021-2023年)》对新型数据中心的定义是:以支撑经济社会数字转型、智能升级、融合创新为导向,以5G、工业互联网、云计算、人工智能等应用需求为牵引,汇聚多元数据资源、运用绿色低碳技术、具备安全可靠能力、提供高效算力服务、赋能千行百业应用的新型基础设施,具有高技术、高算力、高能效、高安全特征。并明确指出:引导新型数据中心集约化、高密化、智能化建设,加快高性能、智能计算中心部署。

先以AI计算为例。2018年5月,一篇著名的OpenAI博客分析,自 2012 年以来,AI算力需求总增长约30万倍(如下图),也即3.4月翻一倍(相比之下,摩尔定律约每两年翻倍,总增长约7倍)。

111

迅猛增长的AI算力需求,对底层IT基础设施,包括存储提出了新的挑战。

再以云计算为例。国内最大的云计算公司阿里云,在2020年的双11当天零点零分26秒,迎来流量洪峰,订单创建峰值达58.3万笔/秒(也即TPS,TransactionPer Second,代表每秒执行的事务数)。

阿里云2016年以来,双11支付峰值(TPS)

阿里云2016年以来,双11支付峰值(TPS)

相信这么高的性能需求,会对与之相关的电商、银行、物流等上下游的企业造成很大的压力。例如2017年双11,农业银行核心系统全天交易量4.49亿笔。其实,无论云计算,还是边缘计算等,都已经或将要和私有云或者数据中心的业务系统打通,实现数据的处理、流动和共享,为全产业链联动,提供及时交付和响应。另外,无论是AI计算、科学计算,还是万物互联带来的计算,都已经或将要实现从非结构化数据到结构化数据的转换,以及终端(含手机、车载大屏等)的可视化呈现,为个人或组织提供参考和决策依据;在这个过程中,转换后结构化数据的数据处理、安全,和再在线(类似从AI训练到推理,如抓捕逃犯),离不开为关键计算提供支撑的IT基础设施,如集中式存储。

当我们关注存储性能时,通常有IOPS(每秒IO个数)和延时(处理IO所需时间,通常以毫秒,也即ms为单位)两大指标。上面双11所述的TPS是每秒交易数,是从业务视角来观察性能的,通常一个订单的操作会联动多个数据库的增删改查操作,导致多个存储IO的读写操作。不过,需要注意的是,不同业务TPS带动的IO数有时相差很大。

我们再来看关键计算的几个例子。为了追求极致的性能,有些行业用户无所不用其极。

Spread Networks 大概从 2010 年开始,花费3 亿美元挖通修建了一条横穿阿巴拉契亚山脉的光缆隧道,目的是让光缆不用绕道,将数据传输时间缩短大约3毫秒。

2013 年,一组破冰队伍和特制的极地冰山电缆铺设船将开始建造第一艘跨北极海底光缆。其中两条名为 “Artic Fibre”和 “Arctic Link” 的光缆将跨过加拿大北极群岛的西北通道。第三条类似走向的海底光缆,俄罗斯跨北极海底光缆(ROTACS)将会围绕北欧北部的斯堪的纳维亚半岛和俄罗斯进行铺设。通过这三条海底光缆,全球两大金融交易中心英国伦敦和日本东京将几乎得以直连,相比现有方案节省近8000公里,两地间的数据传输时间也从大约0.23秒减少至0.17秒,这项工程耗资大约15亿美元。

2017年彭博社报道,Jump Trading公司在芝加哥商品交易所数据中心对面,花了1400万美元买了一块12万平方米的空地(如下图),并架设了微波通信基站,仅仅为了节省0.07毫秒时间。众所周知,眨眼常被形容快,它的时间约0.4秒;而JumpTrading花费巨资,只是为了快5700分之一眨眼的时间。

Jump Trading花费巨资1400万美元,仅为节省0.07毫秒

Jump Trading花费巨资1400万美元,仅为节省0.07毫秒

可想而知,在一些行业的某些特定应用上,为了追求高性能、低延迟,用户愿意不惜代价。笔者曾服务过的一个国内部委用户,仅仅为了缩短几毫秒的延时,数年下来,已经投入了数亿元人民币在集中式存储上。

就像人类在奥运会上所展现的精神一样,追求更快、更高、更强是永恒不变的动力,存储性能竞赛也是如此。

2021年6月,全球存储性能委员会(Storage Performance Council,简称SPC)公布了新的SPC-1基准评测报告,浪潮分布式存储AS13000G5以630万IOPS(每秒读写操作的次数)、0.5ms时延的评测值,刷新了分布式存储性能全球最优成绩。这是继浪潮存储在“统一存储”赛道夺得16控、8控、单位成本性能世界冠军之后,在“分布式存储”领域实现新突破,成为存储全球性能领跑者。

2021年8月,SPC公布了最新SPC-1基准评测榜单,浪潮存储高端全闪HF18000G5获得2300万IOPS(每秒读写操作次数)、不超过0.3ms延时的评测值,位列性能总榜全球第一,如下图。

2021年8月,浪潮高端全闪夺得性能总榜全球第一

2021年8月,浪潮高端全闪夺得性能总榜全球第一

浪潮存储的优异性能表现,对智算时代中的科学计算、云计算、AI计算,如核心交易用到的数据库,以及OLAP、邮件系统、虚拟化、AI等业务的存储系统选型具有极高的参考价值。浪潮存储会在集中式全闪、分布式全闪新存储领域持续投入,以性能全面碾压、技术实力领先、市场增速领跑的强大产品和市场竞争力加速企业数字化转型,形成全球存储新势力。