阿里巴巴建成全球超大规模数据中心内"RDMA高速网",以支撑人工智能科学计算

尽管大多数云计算厂商已经在其数据中心内部部署RDMA(Remote Direct Memory Access)网络,但阿里巴巴已经抢先一步:其数据中心集群内的RDMA网络规模居于全球领先地位,目前已有数十个数据中心支持RDMA网络,延时可显著降低90%,最大程度满足人工智能、科学计算等场景需求。

阿里云北京冬奥云数据中心

当用户在阿里云选择高性能云盘ESSD、云原生数据库POLARDB、云超算SCC、机器学习PAI等产品时,均运行在RDMA网络之上。也正因为如此,这些广受欢迎的创新产品背后已经共享了网络的技术红利。

RDMA是目前业内最受欢迎的高性能网络技术,能大大节约数据传输时间,被认为是提高人工智能、超算等效率的关键。数据显示,在未使用RDMA网络时,语音识别训练每次迭代任务时长为650ms至700ms,其中通信时延就占400ms。

为了提高数据传输速度、满足用户需求,亚马逊、微软等主要云厂商都在投入该技术的研发和部署,但鲜有企业实现RDMA在数据中心的大规模应用。

在2016年,阿里巴巴开始投入专项研究,以改造RDMA、提高传输性能。从网卡底层开始设计满足大规模应用的网络,并结合阿里自研交换机实现性能最大化,最终建成全球最大规模数据中心内的”高速网”,使得集群极大地突破了传输速度瓶颈,并将时延显著降低90%。

以2018年天猫双11为例,基于RDMA网络技术的云存储和电商数据库服务器可以从容地应对峰值流量考验。

而上汽集团乘用车也正采用加入高速RDMA互联支持的云超算SCC集群进行模拟仿真,整体提升效率25%。

“RDMA网络已经成为人工智能、科学计算等高性能计算、存储业务的必备技术,我们将继续探索更高带宽的网络技术,未来将部署 100G高速网络,为企业提供稳定、低延时的网络服务。” 阿里巴巴基础设施首席网络架构师蔡德忠向记者表示。

作为全球前三、国内第一的云服务商,阿里云在全球19个地域拥有56个可用区,网络总带宽已达到 PB 级别超大规模,目前正在测试400G 网络的研发,推出的 400G QSFP-DD行业标准已受到全球企业广泛支持。