云计算时代的100G网络

1 重新认识100G对于云计算网络的重要性

1.1 大规模运营的云计算需要100G网络

云计算的服务供应从技术和运营的角度看拥有近乎无限的计算、存储、数据通信能力,那么提供云计算服务的IT架构必然是集结了大规模基础资源的数据中心“超级航母”。

云计算IT资源的大规模集中运营,可极大优化基础资源的分布与调度。所以,理想的业务模型是,对于使用云计算服务的企业或个人,能够满足IT业务的最佳方式为计算能力按需增长、应用部署快速实现、工作负载可动态调整、投入成本规划可控。对于云计算服务供应商而言,为满足大量客户(个人或企业)的IT资源需求,其运营的IT基础架构需要有一个大规模的资源池,可基于服务客户数量的增长、客户业务负载增长的需求变化情况提供匹配的IT资源支持能力。

大规模的IT集中建设与运营还带来了大幅度的成本节约效应,来自国外的一份数据展示(如图1所示),在大规模IT服务环境下,网络、存储、服务器/管理等各方面的投入都会在单位资源尺度内极大降低,从而在大规模经营条件下可以使得单位资源带来更大的产出。

图1 大规模运营云计算的成本效益

在大规模云计算环境下,性能无疑成为最为关注的核心要素。当前以千兆/万兆为主流(广域网很多企业还处在155/622M)的常规基础网络或许能够满足云计算服务初期或者小规模云服务的要求,但随着云计算资源和规模的不断扩大,量变必然导致质变,云计算数据中心成为信息计算服务的核反应中枢,以100G为基础接口的网络分发将很快成为大规模云计算的必然选择。

以国内某互联网公司为例,单个数据中心规模超过万台服务器,在实现多个数据中心的后端网络连接后,发现内部业务量随着整体规模的扩大(数据中心规模扩大、数据中心数量增加)上升很快,单个数据中心到内部业务网络的链路已经扩至16根10G,因此,寻求N*400G/1000G超高速互联的是高性价比的方案选择。

1.2 流量激增的云计算内部

云计算的服务模式,架构上从低至高一般分为IaaS/PaaS/SaaS三种(通称I-P-S模式),如图2所示。云计算的着眼点在于“计算”,以不同的计算形式来支撑云的服务,通常情况下,我们将云计算的计算技术分成两种:虚拟化技术和集群技术。

图2 I-P-S模式云计算

虚拟化技术

虚拟化本质在于对物理服务器的计算能力(当然还包括IO、内存、存储空间等)进行逻辑的颗粒化分割,每个分割单元都可以作为独立的计算单元运行,这样使得一台物理服务器上虚拟出多个逻辑服务器,也就是虚拟机,这种方式也称为1:N的虚拟化(如图3所示)。

由于大多数物理服务器CPU利用率低下,大量可用计算资源处于闲置,为了提高服务器的利用率,采用虚拟化技术将多个应用集中到单台服务器上(当前的集中比例可达到15:1,将来的集中比可达到40:1~60:1),大幅有效提升计算资源利用率。但这样带来的另一个效果是,多个应用的IO叠加使得服务器的吞吐量密集提升(如图3所示),单位网络内数据流量十几甚至数十倍的增长,开始挑战网络转发、传送性能上限,密集计算的吞吐导致现有的千兆网络接入开始形成瓶颈。

图3 虚拟化的密集流量

在云计算特别是IaaS的服务模式下,广泛采用虚拟化技术来进行计算资源的调度服务,同时服务器多核技术迅速发展,而且服务器的网卡进一步向高速万兆接口演进,这使得云计算在服务器接入的IO处理层面不仅带宽扩大,而且流量激增,这直接对骨干网络层面提出了超万兆或面向40G/100G的基本要求。

大规模集群技术

集群技术的目的,是将大量的服务器通过集群方式整合起来,形成一个具有大规模计算处理能力的“巨型计算机”,从而完成巨大的计算处理任务,这也是一种N:1的虚拟化技术(如图4所示)。在这样的计算应用中,几乎每一台服务器都处在重负荷的计算与吞吐环境,并且由于大型集群内子群之间的密集数据交换,导致了网络上各个方向大规模的数据传输,性能要求已经超越100G规模。

图4 大规模集群的密集流量

万台级服务器无阻塞交换(10000GE=100*100G)已经成为互联网行业云计算业务的基本要求。当前对高密、超高密万兆端口的需求已经达到了目前技术的门限,向100G带宽过渡、并继续提出高密40G/100G端口的挑战需求是大势所趋。

2 100G云网方案

40G/100G已经标准化,各设备厂商均已进入产品交付的实质开发阶段,因此,以10G接入、40G/100G为骨干的云计算网络逐步会形成系统性的解决方案。

针对云计算网络,H3C已在实践一个全面配套路由、交换、安全的云网解决方案(如图5所示)。通过100G的超高速云内部交换网络、云间100G高速专线、100G扩展性安全,从而构建整个云计算100G全端网络架构。

图5 云网方案分布图

云数据中心内部网络的关键要素(如图6所示)

虚拟机感知与精确控制:基于标准化EVB、EVPA的虚拟机(VM)接入网络,将云中每个虚拟计算单元VM映射到交换网络上,创建虚拟端口(vPort)对应,并通过虚拟通道vChannel关联和控制(在EVB VEPA中的Multi Channel技术,H3C通过vChannel+vPort方式来实现)。对应于VM的创建、迁移、释放,网络上也有相应的vChannel和vPort的创建、迁移、释放,从而网络对虚拟计算的感知可控制转换为对自身虚拟端口的操作,从而实现精确控制。

统一交换架构:在万兆接入,40G/100G骨干的数据中心无损交换网(Lossless Ethernet),统一承载计算流量和存储流量,实现基础架构的精简和布线的简化,在保证网络性能、计算能力、存储效率的同时,降低云计算关键网络的购买成本与运维成本。

无阻塞L2/L3并行多路径FAT Tree 100G网络:云计算不论是虚拟化部署还是大规模集群的实施,对交换网络性能要求极高,单接口的100G带宽并不能完全满足业务要求,因此提出了通过无阻塞的组网方式来满足超大规模计算能力的连接。目前业内实现计算的连接方式有L2(二层)、L3(路由)或其混合方式,不论哪种方式,都要求充分利用核心的N*100G,在云的内部形成多路径传输计算结构。对路由模式传统上称为ECMP(即通常理解的等价路由);对二层模式称为L2MP(二层多路径)。在北美地区,更流行FAT Tree的说法,不论使用L2还是L3技术,构建一个大规模的无阻塞网络结构。在H3C的解决方案中,充分利用IRF2 (智能弹性架构)技术,结合当前的新标准(如TRILL/L2VPN)等,在100G的核心网络上提供一个可同时支持L2/L3多路径,使得计算通信具备更好的灵活性和扩展性。

图6 云计算数据中心内网络

高速云专线:100G的可分散、可聚合的云间联网、云内传送网

图7给出了一种比较复杂的云服务模式,企业A分别从SP-A和SP-B获得云计算服务,在每个SP内部,又从不同地理位置的IDC获得服务,而用户除了构建自身的私有云,还在用运营商的公共云服务,这里就存在云计算服务灵活供应的多重模式要求,我们称之为可分散、可聚合的云结构。

可分散、可聚合: 对于整体云计算服务而言,用户的业务访问和服务体验是完全不依赖于计算所在的物理位置的,然而企业或机构在实际部署云计算数据中心时的地址选择必然又受实际环境如光纤线路、地理位置、能源供应等基础设施的影响,使得云数据中心规模或大或小,或集中或分散,或分布在一个园区,或分散在多个地域。这就要求网络不仅有效支持每个云中心的计算服务,还需要整合各地域的云中心,形成一个聚合后的服务整体,因此灵活的DCI(Data center interconnection)和CSI(Cloud service interconnection)方案是实现可分散、可聚合云专线的基础,这将由H3C的100G路由器结合云路由软件操作系统平台来实现。

图7 可分散、可聚合的云间网/云内网

集成与可扩展的统一安全控制

在H3C的100G云网方案中,基于交换集成的安全结构,融合IRF2的统一管理方式,在每个交换槽位提供N*10G的防火墙安全性能如图8所示,并实现一个IRF交换系统上所有防火墙模块的统一虚拟化和管理控制,从而形成云网安全的单系统200G级别安全处理性能资源池,根据性能需要可部署多套系统以满足更高性能处理的需求,而在统一安全中心的管理下,可实现云网安全的整体监控与管理策略,使得云计算的安全控制可管理易运维。

图8 虚拟化可扩展安全防护

3 结束语

云计算的大规模运营,给传统网络架构和传用应用部署经验都带来了挑战,将来只能是全端的100G网络支撑这种巨型的计算服务,不论是技术革新还是架构变化,都需要服务于云计算的性能要求,满足动态、弹性、灵活,并实现网络部署的简捷化。