无中断在线升级技术ISSU让数据中心7*24不打烊

在今天云计算时代,业务和数据的高度集中,如何使得数据中心网络设备实现业务应用7*24小时无间断运行?这是个问题。

不破不立,传统方法已经黔驴技穷

数据中心业务的多样性和快速迭代,迫使网络需要不断升级才能满足用户的业务需求,然而升级难免要中断业务,如何将业务中断的影响降至最小。一直以来,工程师都在不断探索,想了很多方法,比如夜间升级、构建多条备份路径、打补丁等等。这些方案在一定程度上降低了业务中断的影响。但是在云计算和大数据时代的今天,就显得有些捉襟见肘了。

1) 在线补丁(patch)

在线补丁技术可以实现不中断业务修正bug,属于ISSU的范畴,但是补丁能解决的问题只是修复bug,并且只能是应用软件层面的bug,如果涉及操作系统或者SDK层面,则也无法修复。对于用户新增业务功能的需求根本无法满足。

2) 在夜间或者凌晨进行全系统软件升级

这种升级方式流程相当复杂,首先必须通知所有相关客户,协调升级时间,对时间段要求非常严格,一旦升级时间错位,是要赔偿客户损失的。其次要制定严格的升级操作步骤和回退步骤,如果在规定时间内没能完成升级,必须尽快恢复到升级前的状态,版本升级不得不重新安排,这就导致新业务无法按时提供或者缺陷不能及时修复。极大的时间压力也增加了人工操作失误的概率,同时增加了人力及管理的成本。

3)建立多条等价、备份路径,保证升级时业务依靠备份路径能够正常运行。

版本升级时,先将业务切换到备用路径来,以此来保证业务的正常运行。但在这种情况下需要调整数据中心网络配置,增加了出错的概率和延长了升级时间,同时也可能由于数据中心业务的负载调整导致用户流量集中而引起服务中断。如果现有网络不存在备用路径则这种方法无法实施。

而今天互联网应用如空气一样如影随形,网络不再区分白天和黑夜;信息高速路上也没有主备链路,只有负载均衡,每条链路都不会闲置,都在最大化的进行信息交互。面对如此高标准的数据中心网络,传统修修补补的升级方法已经落伍,必须打破传统思维,重新寻找根治的方案。

治本之道:业务在线升级ISSU技术

业务在线升级ISSU技术,给无中断升级带来了全新的理念,它的核心思想就是保证升级过程中数据流还能正常转发,完全不受升级影响。围绕着这个核心,工程师们设计实现了控制面和转发面解耦,利用控制面复位升级,转发面继续运行的方法,保证升级过程中数据流能正常转发,业务不被中断。这一突破,让业务不中断升级成为了现实,迈出了业务在线升级的第一步。

然而,这种控制面复位的方法也存在着一定的缺陷。因为控制面复位,无法处理协议报文,如果此时协议状态变化,由于控制面无法处理,仍然会导致业务中断。况且控制面复位时间通常比较长,很难保证在这段时间内,协议状态不变化,升级仍然存在较大的风险。

ISSU的创新之路:进程倒换技术

基于对数据中心网络多年的技术积累,华为数据中心交换机在ISSU技术领域开辟了一条崭新的道路,那就是进程倒换技术。利用进程备份,进程倒换技术,彻底摆脱了升级过程协议状态不能变动的约束,让网络升级更加高效透明,完美实现了数据中心网络升级业务不间断的需求。

华为数据中心交换机采用的进程倒换升级方法,控制面不用复位,直接创建新进程,新旧进程数据备份同步完成前,旧进程仍然正常运行,控制面协议变化不受影响,数据同步完成后,新旧进程倒换,新进程接管全部业务,关闭旧进程。整个升级过程,设备的控制面协议不受任何影响,周边的邻居设备丝毫不感知,真正实现透明升级。

图1 华为数据中心交换机CE12800 ISSU升级流程图

华为数据中心交换机不仅支持单台设备的ISSU无损升级,也支持数据中心网络中常间的交换机堆叠组网(CSS)和纵向虚拟化组网(SVF)下的ISSU无损升级,实现了数据中心网络多场景组网下的ISSU升级全覆盖。

图2 华为数据中心交换机多场景下的ISSU无损升级

华为数据中心交换机创新的ISSU技术具有如下特点:

进程升级,效率高:进程备份倒换时间不大于30秒,时间短,效率高。

透明升级,不感知:升级过程中,协议报文正常处理,周边设备不感知,完全透明化。

操作简单,易运维:整个升级过程只需执行一条命令,其余步骤全部自动完成。如果升级过程中出现异常,会自动回退到升级前的状态,即使升级失败,也能保证业务不受任何影响。

华为数据中心交换机创新的ISSU(In Service Software Upgrade)在线业务升级技术,打破传统,独辟蹊径,采用多进程备份方式高效快速升级。真正做到业务无中断,设备不复位,升级无感知,为数据中心用户打造了真正的7*24小时无间断网络。