人类的演进一直伴随着网络的发展,从人类迁徙网、航海网、公路网、铁路网、航空网,到邮政网、电报网,到互联网,再到如今万物互联的时代。万物互联所带来的是激动人心的未来,但其背后的基础设施却面临极大的挑战。
在2018杭州云栖大会19号下午的主论坛上,阿里巴巴集团副总裁周明从数据中心、网络,计算存储、以及运营角度,分享了公司基础设施在万物互联时代下的应对。
从技术上,阿里巴巴基础设施通过从业务到软件到算法到硬件到芯片的一体化设计,获取了极致的性能,通过规模化获得极致的性价比,并运用智能化的手段,来提高基础设施运营水平,让科技得以普惠,每个人都能平等的享受。
面向企业提供全球覆盖能力,全球互联网行业最大规模液冷集群
在全球,阿里巴巴基础设施提供了18个区域49个可用区,数量高达200个以上的数据中心。在网络方面,全球的骨干网不但连接全球的数据中心,还接入上百个海外POP点,连接全球1500多家运营商。
作为能耗大户的数据中心,也需要在环保、节能方面持续不断地努力。
“从当年湖底抽水进行自然的冷却,到北方通过自然风来进行冷却,到今天我们有浸没式的液冷,都让我们的节能能力不断提高,PUE不断降低。”
但随着万物互联、万物智能的今天,必然有非常多的大数据,大数据背后就意味着大的计算。在摩尔定律受到极大挑战的今天,它意味着对计算力功耗的要求,尤其是高密度计算功耗的要求越来越多。
阿里巴巴联合全球几十家合作伙伴,从芯片到主板到服务器整机,从光模块到箱体以及运营管理,形成商用规模的液冷集群,集群数量高达几千台,是全球互联网行业最大的液冷集群,它完美的解决了高密度高功耗下的计算环境问题。
网络持续演进,世界首个大规模100G RDMA网络集群
通过自研交换机、OS以及光模块等,成功规模部署双25G、双100G到服务器的网络,同时也在研发400G的网络。
在网络低延时方面,通过对RDMA协议的支持,对运维管理的研发,以及对流量控制运算算法的研发,成功部署了规模化的低延时的网络。根据已知的公开信息,已经实现世界首个大规模100G RDMA集群。
高带宽、低延时的意义和价值远远超过网络带宽的本身:
举例来讲,对于一个企业的业务研发人员,他在研发过程中不再需要关心带宽问题,他要做的只要关心他的业务研发就可以了。
因为数据库具有非常多的数据,如果业务增长一旦需要扩容、迁移,要消耗极大的时间,所以非常不方便。但是当有规模的低延时的网络以后,那就意味着可以实现存储和计算的分离。
全球首批规模商用SSD,自研业界首个全链路软硬件一体化存储系统
通过自研SSD存储,对SSD控制芯片进行定制,支持alibaba open channel 协议,这使得延迟降低10倍,写放大降低5倍。同时,这也是全球首批规模商用的支持open channel 的SSD。
除了SSD硬件,还自研了FusionEngine 本地存储引擎,打造了软硬件结合的底层统一存储平台,加上低延时RDMA网络,构筑了从底层芯片到部件、到存储引擎,到规模化低延时网络的一体化技术竞争力。这使得IO能力提升50%以上,延时也有数量级的降低,上层的分布式产品如ESSD 性能提升5倍以上。
“我们认为单一的技术可以带来局部的突破,但如果你要想获得极致的有竞争力的性能和技术红利,必须得通过从业务到软件到算法、到硬件到芯片的一体化设计。”
在计算领域,除了定制CPU、自研AI芯片AliNPU,阿里巴巴也在FPGA领域也有全栈的研发和应用。不仅效率提升超过30倍,还实现了3倍性价比的提升。
另外,FPGA因为资源有限等原因,并不适合CNNInference,通过一体化的设计,尤其是针对性的算法,整个延时降低170多倍。
“这意味着现实生活中有非常多的极低延时应用的场景,具备非常重要的意义,这是一种能力。这些效率和我们的性能,尤其是低延时,在阿里巴巴业务场景里面已经得到了实际规模化的应用。”