Mellanox:发布Spectrum-2,主张“数据赋能,智网为先”

随着大数据时代的到来,我们需要更强大的数据处理能力来自如应对正在爆炸式增长的数据——数据传输速度要快,数据处理速度也要快,同时还要保障数据的安全性,但这未必需要刻意加重“主场”CPU和GPU的职能负担。

2017年8月29日,在Mellanox(迈络思)媒体见面会上,Mellanox公司亚太及中国区市场开发高级总监刘通表示,网络同样可以被赋予职能,变成一个数据处理的单元,拥有数据处理能力,分担数据所带来的种种压力。而Mellanox以保障数据的传输速度,处理速度与安全性为最高基准,专注网络的数据处理能力。

Mellanox的主要产品系列包括拥有数据处理智能的智能网卡(Smart NIC),片上系统(由普通的网卡芯片,Mellanox网卡芯片加上ARM CPU,内存构成),适配器,交换机以及线缆和收发器。

数据中心的变革——从以CPU为中心到以数据为中心

刘通表示,因为传统的数据中心架构正在从以CPU为核心的数据中心向以数据为核心的数据中心架构转移。所以网络需要去赋能,去承担更重要的责任。

以CPU为核心的数据中心是有一个计算节点1,要等到所有节点把数据传输给它,分析才能得出结果。其中反复的数据传输环节都会造成典型的应用通讯延迟,约30到40微秒。从前的数据中心任务单一,数据处理量少,我们姑且相信以CPU为核心可以满足业务需求。

但现在,我们所面临的是高速增长的业务类型和数据量,再以传统的CPU为核心,效率会极大地受限。而能够打破常规数据中心架构,以数据为核心,通过网络移动数据,分析数据产生价值,这也是Mellanox获得众多云计算,大数据公司青睐的原因。

Mellanox还提出了一个称为网络内计算(In-Network computing)的概念凸显网络的重要性,就是数据在网络过程中完成相应的传统意义上由CPU来完成的计算操作。如此节点数据没有必要全部传到计算节点A,而是直接在网络中完成计算,从而使得通讯应用延迟时间缩短至3-4微秒。

Mellanox正式推出Spectrum-2交换机解决方案

为了不断提升网络的处理能力,Mellanox也在努力寻求技术上的突破,为此还收购了一些小型芯片公司,ARM CPU公司以便实现智能交换机提供技术基因。而Mellanox最新的一个技术情况就是Spectrum-2的发布,这也是此次媒体见面会的一场“重头戏”。

Spectrum-2号称全球最具扩展性的200G和400G开放式以太网交换机解决方案。其亮点主要包括开放性,高性能,灵活性与可编程性。Spectrum-2并不提供所有的软件,用户可以选择自有的网络管理软件,或使用第三方的开放管理软件,甚至是开源的管理软件,或者是自研的管理软件。但它能够提供自适应路由和负载均衡、同时保证零丢包率和无条件端口性能。

它的灵活性在于,拥有可运行200G、400G以太网的端口以后,可以灵活地将一个400G端口配成16个25G端口,将一个200G端口配成8个25G端口。而可编程性是Mellanox交换机产品的另一个亮点。如此用户可以使用Mellanox的交换机芯片去定制化,开发更多的功能,定制他们所需要的一些传输协议方式。

研究机构IHS Markit数据中心研究实践部,研究总监和顾问Cliff Grossner博士表示,使用外部云服务的企业,以及通过人工智能(AI)技术和机器学习(Ml)、以数据驱动的计算应用是数据中心200GE和400GE网络诞生的核心驱动力。除了对速度的追求,云服务提供商的数据中心还需要可编程的网络作为支撑,从而可在交换机硬件不变的条件下引入新的网络协议。

Mellanox创新网络助力人工智能与机器学习平台

今天的人工智能和深度学习走入了一个更前端的应用场景,我们需要更强大的深度学习平台,以更快的速度完成训练,完成智能大脑的培训,来满足实际业务的需求。因此我们从最开始只考虑算法、考虑功能的阶段,到今天深度学习平台极为关注系统的效率。

而Mellanox的技术可以加速深度学习,因为今天的深度学习平台绝大多数都在使用智能网络传输协议RDMA,包括TensorFlow、Paddle、Caffe。深度学习平台不能依赖于TCP,因为TCP传输数据的方式是低效的,所以需要用RDMA去传输存储,无论是现在的分布式存储环境,还是未来将大规模流行的NVMe over Fabric, NVMe的存储环境,RDMA都是最好的一种解决方案,RDMA是NVMe over Fabric默认的网络传输方式。

目前包括Mellanox对人工智能领域的耕耘已经收获颇丰,包括Facebook的人工智能平台,是基于Mellanox的高速以太网。Mellanox高速网络能够为PayPal实时的欺诈分析提供支撑,NVIDIA(英伟达)高速机器学习一体机,都是基于Mellanox的网络。Flickr、雅虎、百度也在用Mellanox来做人工智能,以及京东、腾讯等等。

最后,刘通还表示,我们希望CPU尽量都去处理计算,而不是完成网络的传输,让CPU的资源尽量最大化地去面对更多的应用,而不是用于完全的数据传输。