生产级 VMware 虚拟化方案替换路线与评估

背景

随着国内信创转型的落地发展,越来越多用户开始聚焦各个 IT 层级发力,“VMware 替换”是其中之一,且已出现各行业领域用户从 VMware 迁移转型的实际案例。与此同时,用户对架构转型的需求仍旧十分强烈,在从传统架构到分布式架构的转型中,如果能同时实现 VMware 虚拟化的替换,自然是一举两得。而且,最近出现的 VMware 对俄停服事件,更是加剧了用户寻求“VMware 替换”的步伐。

目前市场上已出现许多替换 VMware 的方案,尤其是在替换 vSphere 上选择颇多,但用户的痛点问题依然没有得到解决。VMware 的替换方案不能仅仅停留在能支持虚拟桌面、开发测试等一般业务上,还需具备能运行在生产环境、承载生产业务的能力,才能解决真正的问题。

本文将分析 VMware 虚拟化替换的典型路线和厂商,以及实现生产级方案替代所需要评估的各大要点,为广大用户提供方案选型时的一些参考。

替换 VMware 为核心的基础设施从何入手

如果将应用的核心精炼抽象为工作负载和数据,那么虚拟化应用的核心就是 Hypervisor 和存储。VMware 的 vSphere 作为最成熟的 Hypervisor,无论在国外或是国内的虚拟化市场都占据着举足轻重的地位。这也是为什么在面临“停服”风险时,必须首先考虑用什么样的技术和产品可以支撑 vSphere 留下的空白。与应用工作负载关联最紧密的是数据,而数据的载体是存储。将应用从 vSphere 虚拟化迁移到其他系统上的同时,必须保持数据的完整和一致,那么是否要同时更换存储产品,也是要与替换 Hypervisor 同步考虑的问题。

因此,首先要确定这两部分的替换方式和方法,尽量使得现有应用可以平滑迁移到新的虚拟化系统和存储上(Replatforming);再以新的虚拟化和存储为核心考察其他组件的替代产品,分阶段、分步骤完成所选全部产品组件在生产环境的集成。

其次,如果现有应用环境中正在使用的 VMware 组件不仅仅是 vSphere 和 vSAN ,那么进行组件对位替换的复杂度和工作量就会大大增加,而替换效果也难以预期。我们从计算、存储、管理、灾备、网络等各个方面,对需要考虑的因素进行了梳理,并将要点概况在下图中,供读者参考。

组件级替换要考虑哪些方面

可能读者觉得上图太过复杂。这也正反映出对使用中的几种、十几种相关软硬件进行逐一评估和替换操作的难度。如果换一个思路,不是在组件级进行逐一替换,而是采用私有云或专属云方式整体替换现有 VMware 环境,也是应当被考虑的方式。那就不仅仅是对基础设施层进行重建(Replatforming)了,还需要做应用和数据的迁移,很大可能需要重构应用(Rearchitecting)。

可选技术路线:组件级对位替换或整体重构

下文中,我们对可能性比较高的国产化、信创化替换技术路线进行了分析。无论采用哪种技术路线、哪种方案和产品对现有 VMware 环境进行替换,都不能 100% 保证在功能特性和使用体验方面的完全一致。因此,最终的替换决策必然是在认真评估后做出的主动调整:放弃部分非核心、不必要的功能,或通过应用层、架构层的改造以达到同样的效果。

可用于 VMware 替换的技术路线

1、聚焦替换 vSphere 并兼顾存储

虚拟化基础设施的核心是 Hypervisor 和存储。

首先,从 Hypervisor 技术和产品角度考虑:有可能用于填补 vSphere 空白的国内虚拟化产品都是基于 KVM 进行的开发。我们从 IDC 发布的“2020 年中国软件定义计算市场份额”中看到,有潜力成为 vSphere 虚拟化产品替代者的,是榜单上的华为、新华三、浪潮。2022 年 Gartner “Market Guide for Server Virtualization” 中则仅提到了华为和深信服。

注:阿里云的虚拟化操作系统不单独提供。

注:IDC 定义的“软件定义计算”市场(Software-Defined Compute)主要包括虚拟化软件、云系统软件(以 OpenStack 和 CloudStack 为代表的对抽象化的服务器资源进行编排和控制,构建成云基础架构的软件)和容器基础架构软件(包括容器引擎、编排系统以及仓库等)。

再考虑虚拟化环境中使用的存储:在国内用户的 vSphere 部署中,大部分采用了集中式 SAN 存储与之配合。那么,替换 vSphere 的方案,也必须包含对集中式 SAN 存储部分的考虑。比如,既有 SAN 存储产品是否为国外品牌?是否在 vSphere 替换的同时,将 SAN 存储也替换为国内自主研发的、符合信创要求的产品?

2021 年上半年的 IDC 报告列出的中国企业级外置存储市场排名前三的华为、新华三和浪潮,采用的都是全自研的存储产品。在 vSphere 的国内部署中,已经有很大部分用户采用了这些国产存储产品,以国产存储替代国外同类产品,并不存在障碍。对于这一部分用户,首先考虑选择成熟的 KVM 虚拟化软件作为 vSphere 的替代者。虚拟化与存储之间通过 iSCSI、NFS 等标准接口连接,这就为保留现有国产集中存储、并逐步将非国产存储产品进行替换创造了条件。

针对这个方案需要注意的两点是:

  1. 虽然目前国内 IT 厂商具备了自主研发中端存储的实力,但之前大多基于 x86 平台,并非符合信创要求的产品。而基于海光、鲲鹏、飞腾等国产 CPU 的硬件,则需要全新的设计。从“国产存储”到“信创存储”,整个产品的成熟和迭代周期会比较长。
  2. 由于 SAN 存储系统的复杂性,应对企业数字化业务快速增长的弹性需求已经捉襟见肘,目前 SAN 存储的分布式和软件定义转型也已经是大势所趋。这时也可以选择支持 vSphere 虚拟化的国内超融合厂商,先完成存储部分的转型和替换,再逐步实现对 vSphere 的替换。

2、置换为超融合 HCI

在虚拟化和存储的改造过程中,有些用户也有可能将“虚拟机与外置存储分离部署”的方式替换为更加简单、弹性敏捷的超融合(HCI)方式。在这个领域,IDC 2021 年排名靠前的国产自主研发的超融合产品分别来自华为、新华三、深信服、浪潮和 SmartX,其中 SmartX 作为唯一独立的超融合厂商,在金融行业超融合软件市场占有率排名第一, 以良好的口碑被 IDC 评价为“在金融行业得到青睐”。

从 SmartX 等厂商的金融行业案例可以看到,对于现有基础架构为 vSphere + SAN 存储的用户,将其替换为国产超融合方案已经得到生产环境的验证。同时,选择国产自主研发的超融合产品不仅意味着实现 VMware 替换,更能实现从传统架构到分布式架构和软件定义方式的转型——简化了虚拟化计算和存储的层次结构,落地容易,弹性很好,按需扩展(通常 3 个节点起步),风险更低。

超融合架构除了具备软件定义和分布式架构带来的优势,因为包含了虚拟化、存储这两个核心组件,可以同时实现虚拟化层和存储层的信创替代。从信创角度看,国产超融合方案普遍基于标准的信创服务器,实现了软硬件的解耦,可以快速地适配。随着信创产品的不断升级,标准化的服务器和软件也都可以快速迭代。同时,分布式的架构通过软件方式解决系统冗余问题,还能提升整个资源池的性能,减少了信创 CPU 在性能上目前的不足。

3、转向整体私有云方案

国内的整体私有云解决方案大部分以 OpenStack 为基本技术栈进行开发。OpenStack 基于大量开源项目组成,并经过各个厂商的商业开发,形成了多种商用云方案。OpenStack 全面的云方案可以同时管理 IaaS 层的资源池(服务器、存储和网络),将不再需要分别从计算、存储或网络的角度考虑对 VMware 的替换路线图,而是从整体“私有云”维度进行重建。

根据 IDC 2021 年发布的软件定义计算软件市场半年跟踪报告,华为、新华三、浪潮、EasyStack 和九州云,在主要体现 OpenStack 技术路线的“云系统软件”分类中排名前五。

基于开源 OpenStack 方案的一个优势是,可以快速从社区获得最新的功能。在 OpenStack 社区贡献度排行榜上,国内云企业近年来也名列前茅。

不过目前基于 Openstack、Ceph 构建的私有云方案,由于模块众多、商用化程度有限、稳定性欠佳,因而大部分部署在开发测试环境,不能实现对用户架构的真正统一,没有真正达到用户云化转型的预期效果,在热度过后,理性用户已经开始更加谨慎地选择类似的架构。

4、依托公有云技术栈的专属云

专属云(Dedicated Cloud)是以公有云为基础,面向特定行业、特殊需求的云客户,提供全栈资源池的专属解决方案。专属云客户可以选择在公有云上独占机架、服务器和网络,通过基础设施隔离获得资源的专属使用权和安全性,但专属云的建设和运维仍交由公有云提供商承担。专属云打消了国内用户对公有云资源共享模式带来的安全合规、数据私密性等一系列顾虑,也在规模化部署、快速交付和集中运维方面享有了公有云深厚技术底蕴带来的福利。国内的主要公有云服务商都可以提供专属云服务,通常面向规模较大的国企、央企、集团公司、金融等行业。

由于专属云所依赖的公有云技术在管理平面的开销较大,起步即要求几十个节点(管理节点的要求)。这导致专属云的首次投入占比大,而且普通用户往往不具备运维这种规模的云平台的能力。除了大型客户以外,其他客户很难承受其巨大的投入和运维压力。

生产级替换评估要点

以上给出的几种对 VMware 进行替换、升级的方式方法,也要根据不同行业、不同规模的企业用户的具体情况进行适用程度分析和选择。但无论哪种行业、何等规模的替换,都必须以“符合生产级要求”作为方案的核心评估准则。

替换方案的核心要求是“生产级”:如果选择的替换方案在性能、可靠性、安全性和支持力度方面不能达到“生产级”标准,那么为了替换而替换将对业务带来直接影响,得不偿失。

替换的可行之路是“取舍”:针对方案中的“生产核心”相关组件和功能,必须以最严格的要求衡量可用的替代产品和方案;而对于非生产核心相关部分,可以暂不替换,或者选择接受现在还不那么完美的自主研发方案。

对“生产级替换”的评估条件包括但不限于:

1、生产级稳定性、性能和实际案例

新方案必须具备在生产环境实际部署的案例,以及在真实生产中证明的稳定性和性能指标。前述国内主要的 IT 解决方案或云运营商的产品和系统已经在国内客户获得了普遍的应用。企业和单位用户需要根据本行业特点和本企业应用规模,在众多方案案例中选择最匹配的作为参考,从而建立对替换效果的准确预期。同时,在产品评估时更应该针对业务连续性和数据可靠性相关的能力,以及实际生产业务承载能力(而不是厂商“标称”性能)进行评估。

2、开放性和兼容性

VMware 已经形成了一个开放的生态系统,很多场景中,用户仅仅使用了 vSphere 作为虚拟化系统,其余组件都来自 VMware 生态圈的其他厂商,也有很多国内的软硬件产品与 vSphere 兼容共生。在国产化、自主研发和信创环境下,提高开放性和兼容性,有助于促进原有配合 vSphere 的产品和方案快速转向与国产虚拟化和云计算平台的合作共赢。

3、信创适配状况、自主研发能力、本地服务能力

在“停服”风险背景下选择用于替换 VMware 的产品和方案,必然要考虑到新方案的自主可控程度,与国内的“信创”生态环境的适配程度,既要考虑现有信创硬件与软件之间的适配,也要考虑提供商的自主研发实力,确保产品和方案的长期路线图可以适应信创生态系统的不断发展。

不仅是产品和方案本身,被选中的新方案提供者是否具备足够的技术服务能力,是否可以协助最终用户完成迁移并稳定运维,也是一项重要的考虑因素。特别是,与具有成熟生态的商业方案相比,当前很多信创产品和方案仅能由原厂进行实施和维护,原厂服务人员的技术能力就成为了重要的影响因素。

结语

我们以上提供的仅仅是分析思路,希望能够对每个企业、单位、组织,在选择最适合自身特点的替换方案时有所帮助。

附:SmartX 超融合信创方案概述

基于 SmartX 超融合的信创云基础设施解决方案,包含了虚拟化、分布式存储、网络与安全等核心组件,具备金融生产环境验证的“生产就绪”能力、核心组件的完全自主可控、充分适配及优化的信创生态、精简的架构与灵活的扩容,可帮助用户同时实现基础架构的云化转型和信创转型。

其中,SmartX 自主研发的分布式存储,具备金融级的稳定性与可靠性,可以与 VMware vSphere 整合成超融合方案,让用户从存储层开始实现对 VMware 的逐步替换。

同时,该方案为用户提供 SmartX 原生虚拟化 ELF,基于 KVM 开发,结合底层分布式存储实现性能深度优化,已在金融行业大量应用,并且有支持生产业务 Oracle RAC 数据库的部署案例。

此外,该方案适配海光、鲲鹏、飞腾等国产 CPU,并已在诸多金融案例落地。

券商生产级信创云案例

银行生产级信创云案例

金融行业信创代表客户

参考资料

  1. Gartner, “Market Guide for Server Virtualization”, Published 7 February 2022
  2. Gartner, “Market Share: IT Services, Worldwide, 2021”, Published 8 April 2022
  3. IDC, “China SDS and HCI Market Overview 2021Q4”, 2022 年 4 月
  4. IDC, “Worldwide Software-Defined Compute Software Market Shares 2020”, 2021 年 6 月
  5. IDC,《中国企业级外部存储市场季度跟踪报告,2021年第二季度》,2021 年 10 月