浪潮信息分布式存储:基于全场景并发升级算法,实现在线升级

版本升级是存储集群长期运行中必不可少的动作,通过版本升级可以增加功能、修复漏洞、提升性能,但离线升级方式或串行在线升级,对于金融、通信等对业务连续性和升级时效要求较高的行业来说是难以接受的。对此,浪潮信息在分布式存储平台上研发出在线并发升级算法,能够保证在不影响企业业务的前提下进行快速、可靠的版本迭代,实现整体存储平台升级效率提升超10倍。

在线并发升级 让升级更高效

浪潮信息研发的在线并发升级算法,相对于传统串行在线升级有两大优势:首先,其先进性在于从集群底层数据分布结构出发,对节点进行升级分类,可有效避免上层协议对于并发升级的影响,进而实现了集群全场景并发升级。其次,升级队列生成器可以根据当前集群实际情况制定出优化的升级策略,而升级控制器保证实际升级过程中能够综合各种集群服务状态,在确保集群业务正常的情况下动态调整各节点的升级顺序,进而实现在存储业务不受影响的前提下快速完成存储版本的迭代。

例如,在存储系统由70台设备组成的情况下,按照传统串行升级方式,整个存储集群完成升级耗时在8小时左右。在采用浪潮信息的并发升级技术后,存储集群升级耗时缩减至42分钟,整体升级时间缩短90%。

图1. 串行、并发升级耗时曲线

浪潮信息的并发升级技术之所以能有效提升集群整体升级效率,关键在于此技术能够根据存储系统底层结构将70个节点划分为5个升级组,单个升级组之间相互独立,可以进行并发升级。然后根据存储系统服务分布、存储池状态、阈值等信息综合计算得出单个升级组内可允许并行升级的节点个数,具体分组内容如下表所示:

微信图片_20230321113900.png

表1. 升级组并发信息

在进行分组后集群节点可进行两轮并发,首先是5个升级组间可以执行并发升级,其次单个升级组内节点按照并发个数进行并发升级。经过两轮并发升级后集群升级耗时被缩减至42分钟。表1. 升级组并发信息

图2,图3为某70个节点的存储集群升级前、升级中以及升级后的IOPS、带宽性能曲线图。存储集群在线升级时间为2022/06/29 01:00 – 02:00执行在线升级,在线升级期间IOPS、带宽性能与升级前、后保持一致并未有下降,仍维持在正常水平。

图2 IOPS 性能曲线

图3 带宽性能曲线

在线并发升级 让升级更可靠

浪潮信息支持不同版本间的功能互通,即在整个升级期间不同版本间业务可以正常互通,不影响集群原功能的正常使用。

浪潮信息的分布式存储产品还支持暂停/继续功能。当在线升级时间窗口不足或节点升级异常时,用户可主动触发升级暂停动作,浪潮信息的分布式存储可以在记录下当前集群升级状态后进行集群状态恢复并退出升级。升级暂停期间浪潮信息支持系统多版本兼容,使得集群即使在各节点系统版本不一致的情况下,也可以维持整个存储系统的功能、稳定性和性能不受影响,集群仍可正常对外提供服务。此后用户可通过继续升级功能来恢复集群升级。暂停和继续功能不仅增加了升级功能的稳定性和健壮性,同时也解决了大规模集群用户升级时间窗口选择难的问题。

浪潮信息的分布式存储AS13000,基于在线并发升级功能,已经在金融、通信、医疗等行业实现规模部署,在实际升级操作中可快速、安全的实现分布式存储版本的迭代,有效提升升级效率、降低运维成本。未来,浪潮信息将持续秉承“存储即平台”战略,加速推进存储系统功能的研发和创新,助力各个行业全面释放数据价值,加速数字化转型。