新一代100G平台核心路由器通过单框交换容量的提升超过传统路由器集群能力是一大进步,路由器集群技术也将成为解决路由器容量瓶颈的必然选择。
一、 运营级网络面临来自新业务的压力
l 移动互联及新媒体
当前终端用户的多样性和数量爆发式增长已经成为趋势。在移动互联网时代,用户使用的不再仅仅是固定终端,还包括各种各样的移动智能终端,预计在 2012年,中国的移动互联网用户数将首次超过传统互联网用户数(易观国际数据)。移动互联网的发展改变了互联网流量在时间轴上的分布,填补了用户的片段时间,使得互联网始终处于高流量状态;同时,微博等新媒体的出现加快了信息的传播速度,以类似病毒扩散的模式在前所未有地消耗互联网带宽;此外,高清视频业务的迅速发展也在大量消耗着互联网的带宽,用户侧的视频流量带宽可以高达到10Mbps,一个百万级用户的城域网视频流量在高峰会达到数十Tbps。这些变化让互联网骨干路由器面临着巨大的性能压力,要求其向着具备更高密度的高速/超高速端口、更为强大的组播能力去发展。
l 云服务的新模式
图1 新的信息服务模式
如图1示,随着用户数量和数据传输量的爆发式增长,计算服务也从独立系统、独立通道、独立流量的传统模式向统一资源管理的云计算模式转变。当前信息系统正处于大规模信息集中的阶段,运营商开始大规模涉足三网融合、互联网、ICT等综合信息服务领域;领先的互联网公司转向SNS,提供涵盖IM、电子商务、游戏、搜索、视频、移动互联网的融合业务;政府、企业信息系统已经逐步实现数据集中,大量云正在形成。据最近 Telecom Trends International的研究报告表明,2015年前云计算服务带来的营收将达到455亿美元。
随着云计算业务的发展,云内交换和云间交换的数据量越来越大。据统计,在运营商的某些大型城域网,云间交换的数据量已经超过整体流量的40%,并且有进一步扩大的趋势,云间交换数据量的爆发式增长给现有IP城域网和IP骨干网带来巨大的压力。为解决这一矛盾,运营商正在构思一张新型的IP网络,即IDC骨干网。主要功能是把云间交换的流量从现有的IP城域网分离出来,为云间交换提供独立的互联网络,实现云间的高速交换。因此,新型的IDC骨干网将是以100G、40G和高密10G作为主要的互连端口,如图3所示。
图2 新型的IDC骨干网
综上所述,新一代核心路由器必须重点解决两个问题:
1. 大容量/高性能,支持100G、40G、集群等技术,满足互连网带宽增长的需求;
2. 高性能组播,支持大规格组播组和线速组播复制能力,满足IPTV视频业务发展的需求。
本文重点描述核心路由器对上述关键问题的实现方法。
二、 实现核心路由器大容量/高性能的两个步骤
大容量/高性能是核心路由器最关键的技术,实现方法包括两个步骤:第一步是提高路由器单框的交换容量,满足100G端口的线速交换能力;第二步是通过多框集群的方法提高单节点的端口密度。
1. 单框交换容量
路由器单框交换容量主要以采用高性能交换架构(CLOS架构)来实现T级交换容量和对100G端口线速的支持能力。
图3 CLOS多级交换矩阵
CLOS是多级交换,典型为三级交换架构,通过使用较小交换结构作为基础组件来构建大型交换结构,从而简化大型交换结构的构建。如图3所示,第 1和第3级交换网片分布在业务板上,第2级交换网片分布在交换网板上,三级交换网构成核心路由器的交换矩阵。该交换矩阵具有如下的特点:
l 无阻塞、高可靠
¡ 在每一级,每个交换单元的输出都与下一级的所有单元的输入相连,大幅度减少构建无阻塞交换结构所需要的交叉点,从而减少故障点,增强交换结构的可靠性。如图3所示,第1和第3级交换网片分别和第2级交换网片全连接,交叉点只有N个(其中N是交换网板数量)。
¡ 智能调度模式,交换路径负载分担,实现了交换系统严格意义上的无阻塞。如图3所示,第1和第3级到第2级的流量按照1/N负荷分担。
¡ 到指定目的地,第2级交换单元都只存在1条路由。交换单元的交换路径完全独立,不会彼此干扰,不需要复杂的集中控制器来协调各交换单元的交换,进一步增强可靠性和可扩展性。
¡ 支持递归扩展,CLOS网络中间级的交换也可以是一个完整的三级CLOS网络。这可支持构建具有五级、七级或九级的巨大交换结构,在极大数量的输入和输出之间建立严格的无阻塞连接。由于CLOS网络的递归特性,理论上它具有无限的可扩展性。
¡ 到指定目的地,在第1级交换单元存在多条路由,当其中一块网板发生故障时,自动隔离故障网片,通过冗余路径绕过第2级交换单元的故障,实现强大的故障抵御能力。如图4所示,当其中一块网片发生故障,交换矩阵能够实现动态路由,自动隔离故障网片,倒换过程业务,由剩余网片分担转发。
图4 交换网冗余保护
l 大容量
¡ 采用CLOS多级交换网架构的核心路由器,业务板卡和每块交换网板都物理相连,通过多网板负荷分担扩展系统的交换能力,交换容量达到T级。
¡ 设计良好的核心路由器,其单框交换容量能够达到或超过部分传统路由器的集群能力,以H3C公司的100G核心路由器CR16000系列为例,其交换容量足以支持每槽位2个100G端口,性能超过部分传统核心路由器的集群能力,其交换容量和100G接口支持能力如表1所示。
CR16004CR16008CR16018
单槽位交换容量(bps)720G720G720G
系统交换容量(bps)3.24T6.12T13.32T
100G接口支持能力2×100G/Slot2×100G/Slot2×100G/Slot
表1.交换容量
2. 多框集群
对于运营商IP骨干网的超级节点,如大型城域网核心路由器、IDC骨干路由器,面临两个重大的技术问题:第一,单框路由器容量逐步发展到极限,端口密度无法满足骨干节点需求;第二,多台路由器通过路由互联方式组成的超级核心节点使得网络结构越趋复杂,运维管理难度加大。如图5所示:
图5 核心节点路由互联
这种通过多台核心路由器来共同分担流量的方式,在一定程度上缓解了流量增长的压力,但也带来了新的问题:
l 额外消耗多个高速接口,增加了互连链路开销;
l 每增加一台核心路由器,IP地址、路由协议邻居数量、路由表条目及路由收敛时间等相应的增加问题随之而来;
l 网络变得更复杂,维护压力越来越大;
l 多台设备之间流量如何均衡,一直都是业界的难题。
路由器集群技术能够很好地解决上述问题。路由器集群 (Multi-Chassis)就是将多台路由器互联起来形成一套逻辑上一体的路由器系统。集群是一种最有效的解决扩展性问题的技术,它可在方便维护、不增加网络复杂度的前提下,用更低的网络的建设成本和维护成本来满足业务高速增长、网络性能及容量提升的需求(如图6所示)。
图6 集群技术
集群技术通过集中化、一体化的控制管理,使集群系统各台路由器单机之间能够很好地协同工作,扩展路由器的容量,突破单机在开发技术上的限制。在成本方面,由于集群系统中各台路由器通过高速光背板互连,节省了额外的内部互联端口,且不再需要昂贵的路由器接口卡实现复杂的QoS、路由转发等特性,使机箱之间的互连成本远低于普通端口互连方式,大大减少了投资;同时,还克服了采用普通端口互连方式带来的带宽瓶颈问题。更为重要的是,由于集群路由器具有统一的管理和路由控制引擎,对外仅体现为一台逻辑路由器,使得网络拓扑和路由策略变得简单和清晰,维护也更加方便快捷。
集群路由器已经大量应用在运营商的核心骨干网,甚至是超大型城域网的出口位置。但即便是采用集群,在某些大流量的骨干网节点和城域网出口,网络流量的增长已经远远超过了原有的设计,现有核心路由器的端口数和整体转发能力已现捉衿见肘之势。考虑到技术成熟度和设备稳定性,现网最常见的核心路由器集群采用4台集群,单台核心路由器的容量约在1~2T,集群后的整体性能至多达到10T。未来5年互联网流量与现在相比将有4倍的增长,因此为了满足至少未来5年的互联网容量增长,新一代100G平台核心路由器整体硬件容量能力应该瞄准单框10T,集群后整体性能40T的目标设计。
针对网络建设来讲,通过路由器集群,将核心设备容量升级到原来的2倍、4倍、6倍、8倍或以上都能采取平滑扩充的方式,而且不会增加路由的跳数和复杂度。因此,集群技术完美地实现了核心路由器容量从Tbit/s级到数十Tbit/s级的扩展,很好地解决了核心层大容量的问题。
三、 多级组播
视频业务的迅速发展对路由器的组播能力提出了更高的要求,包括组播规格和组播复制能力,其中组播复制能力是关键技术。为了提高组播复制能力,同时减少组播业务在路由器内部的资源消耗,我们提出了“交换网组播”和“三级组播复制”的技术实现方法。
1. 交换网组播
图7 组播表项
传统核心路由器在组播功能上最重大的缺陷之一就是交换网不支持组播,组播报文在单板和交换网之间是广播转发,导致的严重后果是组播流量越大,路由器内部的广播流量就越大,交换网带宽资源浪费就越严重。
针对上述问题,在交换网上增加组播表项存储空间并同步学习组播表项。如图7所示,交换网板同步学习组播表项,按需复制,可以最大限度的节省交换网带宽资源。但是,交换网上的组播表项和业务板上的组播表项有区别。业务板上的组播表项为:源IP + 组播IP + 出接口列表,交换网板上的组播表项为:源IP + 组播IP + 出接口板列表,即:交换网板上的组播表项的下一跳为出接口板列表而不是出接口列表,交换网板根据出接口板列表来复制和转发报文到目标接口板,组播转发不再造成带宽浪费。
2. 三级组播复制
为提升组播转发效率,在芯片级和交换网级采用了三级组播复制的设计,第一级组播复制在入接口板内完成,第二级组播复制在交换网完成,第三级组播复制在出接口板完成,不浪费任何带宽。
图8 一级组播复制
如图8所示,一级组播复制发生在组播出接口和入接口在同一个PP(Packet Processor)中,当PP收到组播流的时候,查询TCAM中的组播转发表(源IP + 组播IP + 出接口列表),发现其中有一个或多个组播出接口在本PP中,PP为每一个在本PP的组播出接口复制一份报文,同时,如果存在出接口不在本PP的情况,则往交换网发送一份组播报文。
图9 二级组播复制
如图9所示,二级组播复制发生在交换网板上,当交换网收到组播流的时候,查询MC组播转发表(源IP + 组播IP + 出接口板列表),根据“出接口板列表”向下一跳出接口板复制一份组播报文。
图10三级组播复制
如图10所示,三级组播复制发生在出接口板中,当PP收到组播流的时候,查询TCAM中的组播转发表(源IP + 组播IP + 出接口列表),发现其中有一个或多个组播出接口在本PP中,PP为每一个在本PP的组播出接口复制一份报文。
四、 结束语
网络流量爆发式增长带来的业务压力,要求作为网络核心动力的路由器应通过大容量/高性能的关键技术来应对。新一代100G平台核心路由器通过单框交换容量的提升超过传统路由器集群能力是一大进步,路由器集群技术也将成为解决路由器容量瓶颈的必然选择。