本文内容整理自 SmartX CTO 张凯在 SMTX OS 3.5 新品发布会上的演讲
我们最近发布了一个很重要的产品版本——SMTX OS 3.5,在这里为大家做详细的介绍。在此之前,先简单介绍一下大家比较关注的超融合外部市场的情况以及 SmartX 的市场进展,这些市场进展都是我们做产品迭代及市场拓展的重要依据。
超融合对传统 IT 架构的颠覆已成必然
如果说前几年超融合还处于市场教育阶段,那近两年随着客户案例的增多,用户对超融合的适用性和价值越来越明确,我们能明显感觉到市场进入真正的爆发式增长阶段。
无论是 Gartner 还是 IDC,都预测全球超融合市场将保持近 50% 复合增长率的迅猛势头,并在 2020 年达到近百亿美金的市场规模。
当然,越来越多的厂商也看到了这个趋势并进入超融合市场,让竞争愈加激烈。这一必然趋势的背景都源自于超融合架构在敏捷性、易用性、性能等相比传统三层 IT 架构给用户带来的价值是质的提升。
SmartX 在弯道上稳步超车
SmartX 作为从 2013 开始就一直专注超融合的厂商,也受益于这个颠覆性的市场机会。到目前为止,我们除了拥有联通沃云这样的中国最大超融合案例,也获得了类似海尔、泰康人寿、国泰君安等金融、制造业的头部客户,这些客户客户原来在使用类似 EMC、VMware、Dell 等 IT 巨头的产品,但是现在逐渐开始采用我们的超融合产品替代原有的架构,不仅应用在开发测试环境,还包括生产环境。实现这样的成绩不仅源自于我们在这个方向的专注,更因为超融合对传统IT架构颠覆的必然性。
另一个值得一提的事情是,2018 Q1 IDC 的报告显示,SmartX 在金融行业的超融合市场已经位居前三甲。金融行业是我们将进一步聚焦的行业方向,我们坚信在这个市场最能全面检验产品的可靠性与价值,也能获得最具代表性的用户反馈,同时我们 3.5 的一些重要的产品特性也源自于金融领域的实际市场需求。
关于 SMTX OS
首先介绍一下,SMTX OS 是我们软件产品的商标,目前已经在中国以及海外的主要国家注册。SMTX OS 当前是超融合架构的核心软件,未来会是企业云核心操作系统。虽然大家都在说大而全的企业云的概念,但我们相信正如亚马逊的成功起步于 “EC2”,做好计算、存储的这些核心才是有效构建企业云的第一步,目前我们的主要精力和资源都是在构建这个企业云的 “EC2”。
图一. SMTX OS 未来将成为超融合企业云操作系统
为什么发布 SMTX OS 3.5
SMTX OS 之前已经经历了 1.0、2.0、3.0 阶段。1.0 和 2.0 是我们在 2017 年之前的版本,他们的亮点核心是在超融合下面的分布式块存储。中国最大的超融合案例联通沃云的核心就是来自于 2.0 的版本,应该说运行是非常稳定的,整个超融合包括分布式存储预期的弹性可扩展、高性能、低延迟、易管理,都获得了非常充分的体现。
到了 3.0 的版本,是在核心的分布式块存储的基础上构建了完整的超融合产品,这里面增强了很多产品化的内容,包括超融合在虚拟化层面的增强,包括像 VMware、Xenserver 更多虚拟化版本的支持,这些超融合先进的理念,都在此版本中得到实现。现在很多客户,比如金融客户、大型制造业客户都是通过 3.0 的版本来切入的。
图二. SMTX OS 版本演进
但客户还是有一个问题,就是关于超融合架构是否能够完全地替代现有的一些传统 IT 的基础设施的架构?无论传统架构还是超融合架构,用户在考虑 IT 基础设施的时候需求是相同的,希望能够简化 IT 的复杂度,同时降低 TCO,提升整个 IT 基础设施的敏捷度,以应对快速增长的互联网时代的快速业务增长。这样就能够把更多的精力从原来的 IT 基础设施的运维、管理等,转移到专注于自己业务本身的创新以及发展。目前的超融合已经能较好地满足以上大部分需求。不过对于一些核心应用场景,像核心的数据库、生产系统,用户希望能够达到和传统 IT 方案匹配的 RPO、RTO 和容灾能力,但是同时还要保持超融合敏捷、易用等优势。
我们想要做的或者产品目标就是帮助用户把核心业务系统在超融合架构上更好地使用起来,并且获得更好的体验。这样一方面可以享受到超融合本身带来的包括简化 IT、降低 TCO 的好处,同时也避免产生像传统架构与超融合架构混合存在于 IT 基础架构里复杂的情况。
还要特别强调一下关于容灾能力,我们从低到高不同的级别可以划分成比如单个磁盘的故障容灾、单节点容灾、单故障、单个数据中心以及城域的故障。对于核心的应用系统来说,当然要求不仅仅提供单磁盘、单节点、单机架故障的容灾能力,同时要提供站点级别以及城域级别的容灾能力,这也是 3.5 里面所要发布功能的重点。接下来我会依次介绍一下 3.5 里面所提供的一些比较重点的功能。
SMTX OS 3.5 五大特性解析
特性一:双活集群
首先介绍的重要点是双活集群,刚才我们提到了 IT 基础设施需要不同的容灾保护。双活集群实际上是 SMTX OS 3.5 里为了应对站点级别的故障、同城站点故障所推出的功能。
我们看一下双活集群的部署模式。首先我们需要在一个城市中的两个不同的数据中心里分别部署 SMTX OS 集群,同时这里面要求两个站点之间的 RTT 要小于 5 毫秒。同时我们需要在第三个站点里面去部署仲裁节点,仲裁节点主要是用于解决当集群的 IT 系统出现脑裂的时候做仲裁,决定哪个站点应该是唯一存在的站点。
在底层的数据上做到实时同步才叫所谓的双活,这样可以实现同城多个数据中心实现 RPO=0,秒级 RTO 级别的保证。当其中一个站点发生故障的时候,上面所运行的业务或所运行的 VM 会被自动通过我们系统所提供的 HA 功能,自动恢复到另外一个站点,这样就能够实现业务的连续性。
这里强调一个很重要的点,也是发布 3.5 一直贯通的主题,我们提供的双活或双活的功能不仅仅是指存储层面的双活。首先我们的双活集群是完全依赖于底层双活存储的功能,也就是说数据是在两个不同的站点之间,而且实时能够同步。更主要的是除了提供存储层面的双活之外,还对整个 IT 基础设施提供了站点级别的保护。这个 IT 基础设施包含的存储、虚拟化、网络以及一些监控部署等等支撑的业务。也就是说我们在一个超融合的软件架构里面,提供了完整的 IT 基础设施的双活功能,或者说是站点级别的容灾功能。
当我们的一个站点发生故障的时候,不仅仅是数据能够保证 RPO=0,秒级 RTO 级别,VM 是可以漂移过去的。同时我们虚拟机管理的功能、网络管理功能,以及容灾、监控、报警等等所有的功能,都可以在另外一个站点自动去恢复。这个是我们认为超融合所带来的巨大好处。传统 IT 的部署方式,我们的虚拟化、存储、网络,包括一些支撑的系统,可能每一个系统都来自于不同厂家,每个厂家的产品在部署的时候都需要有自己独立的配置或者是双活部署的要求。我们如果想要达到整个 IT 基础设施的双活或者站点容灾的保护,就需要针对每一个产品去做独立配置。同时因为产品和产品之间有一定的依赖性,所以我们想把 IT 基础设施做成站点保护的时候是非常复杂的。而因为 SMTX O S是一个超融合的架构,里面提供了所有的一站式的功能,你只需要在我们的界面里面做简单的双活的配置,就可以实现 IT 基础设施容灾的保护,这个就实现了我们所强调的简化提升核心系统在超融合上的使用体验,大大降低了 IT 管理员平常的运维负荷度。
特性二:数据的备份与异地灾备
上面是我们双活集群的介绍,接下来介绍数据的备份以及异地灾备,刚才提到双活实际上是指同城双活,我们有一个严格要求是两个站点之间的 RTT 必须要小于 5 毫秒。因为这个限制,所以导致双活只能在同城之间做数据保护。有时候企业有更远距离的异地灾备的保护需求,这个时候我们通过在 3.5 里提供的数据备份和异地灾备的功能来满足要求。
首先来看一下部署的模式,在部署的时候我们可以在不同的城市,比如在 A 城市和 B 城市分别部署 A 站点和 B 站点,把我们现在 VMware 所运行的 A 站点称为保护站点,把 B 站点称为备份站点。如果我们想要对 A 站点的业务或虚拟化做保护的话,只需要在管理界面上通过创建保护计划来选择需要保护的对象。我们需要保护的对象,可以保护一个或一组保护对象。保护对象也有两种不同的类型,包括用户的虚拟化,就是 VM,我们以 VM 为例对业务做保护,也可以选择独立的虚拟卷做保护。
当我们在创建保护计划的时候,选择完保护对象就可以选择备份的时间、备份的间隔,比如最低可以提供 1 小时的备份间隔,比如说可以选择 B 站点作为备份的目标站点,这样就完成了保护计划的创建。当创建完保护计划以后,SMTX OS 的系统就会定期在保护站点里面对 VM,或者对选择的保护对象做快照。当快照结束以后,会把变更的数据通过增量以及压缩的方式传输到备份站点。
假设当我们的站点 A 发生故障的时候,用户可以选择在站点 B 通过界面的操作把 VM 恢复,这样就可以保证业务的连续性。因为我们备份的间隔目前是一小时,所以能够达到小时级别的 RPO,同时 RTO 整体来说是在分钟级别。
除了我们可以把数据备份出去以外,还可以支持当 A 站点恢复的时候,我们可以把数据从 B 站点再拉回或同步回到 A 站点,因为 B 站点可能是灾备站点,资源是有限的。当 A 站点恢复的时候,自然希望把数据还是运行在 A 站点,我们只是需要在界面上操作把数据同步回来,这个业务就迁移到 A 站点的保护站点。
更进一步的是我们不仅仅支持从 A 站点到 B 站点的备份,也可以支持到 B 站点到 A 站点的备份,也就是说我们的备份是双向的。除此之外可以多站点多对多的备份,一个 A 站点可以同时备份到 B 站点和 C 站点,以提供更高级别的容灾保护能力。
在我们所提供的数据备份和异地灾备功能里面,我们保护的内容不仅仅是数据,而是以业务为出发点去考虑业务的延续性。当我们被保护的对象比如 VM 本身发生一些配置变更的时候,这个配置的变更也会自动被同步到备份站点。
我们举个例子,假设在 A 站点使用 VM 时,一开始创建保护计划时只有两个虚拟卷。随着我们不断使用和业务的扩展,我们希望再增加一个虚拟卷,也就是三个虚拟卷,同时上面运行了一些业务。这个时候在下一次做数据同步和备份过程中,除了把新增的虚拟卷里面的内容同步到备份站点以外,同时还会把虚拟机增加一个虚拟的操作变更同步到远程站点,当远程站点启动虚拟机构时候同时加载三个虚拟盘,这样避免了有些数据运行在新增的数据盘上,可能启动的时候会有一些问题,这也是最大化保证业务的延续性,也就是从业务的角度出发进行数据的保护。
这个是我们提供的 SMTX OS 3.5 跨城市数据保护和容灾功能。这两个功能从目前所看到的情况,都是只有很少的超融合厂商才能够具备,而且是完全不同于传统存储厂商角度做的保护,我们是从整个 IT 基础设施的角度做的数据保护。
特性三:虚拟机管理
接下来我们来介绍一下虚拟化,超融合里面三个最主要的模块:计算、存储、网络,计算指的就是虚拟化。大家如果之前了解过我们的话,我们在虚拟化的平台支持上还是很丰富的,包括 VMware、Xenserver 的平台以及内嵌的 KVM 的平台,都可以提供很好的超融合的部署和支持。这里更强调自身提供的基于 KVM 的内嵌的虚拟化平台,这是高度定制化的,而且做了很多深度优化和集成的平台,提供了我们认为最佳的易用性以及最好的用户体验。
在 3.5 的版本里面也对内部的虚拟化功能做了很大的增强,我简单地通过四点来介绍。
首先是放置组的功能。当集群规模比较大,尤其是当用户使用核心业务的时候,比如说像 Oracle RAC 场景,其实要求每一个虚拟机或业务所运行的节点有特殊限制,比如说 Oracle RAC 两个 VM 希望运行在不同的物理节点上,或者有些特殊的要求是运行在相同的物理节点上。针对这种需求,我们提供了放置组的功能,根据用户提供的放置策略帮助你选择 VM 到底运行在哪个节点上。
这个结合了我们下面提供的自动化调度功能,自动化调度是说当我创建 VM 的时候,其实用户不需要手动去选择或指定运行在哪个节点,系统会根据两个条件来自动选择。第一个条件是用户所定义的放置组的功能,看你到底属于哪一个放置组策略,看怎么定义你的放置规则。同时结合当前集群内部每一个节点的压力,包括 CPU 的压力、内存的压力等等,我来选择一个负载尽可能低的节点去运载当前的业务。
第三个功能是 VM HA 的功能,作为虚拟化管理平台 VM HA 是很基础的功能。我们在之前的 3.0 版本里面,提供了可靠性的保证是在刚发生故障切换的时候,保证 5 分钟之类一定可以把虚拟化业务自动 HA 到另外一个可运行的节点上。在 3.5 版本里面做了进一步提升,把 5 分钟限制降低到 3 分钟,也就是说你的业务当发生故障的时候,最多有 3 分钟故障的切换时间,整个速度上我们提升了 40%。
第四,同时我们也提供了基于虚拟化批量的创建,以及批量迁移的操作,这也是进一步在用户体验上的提升。
特性四:块存储服务
块存储服务,在 3.5 之前块存储服务只服务于超融合内部的虚拟化服务,比如说在上面建一个虚拟机,虚拟机是可以直接使用到超融合架构底层的池化存储能力。但其实我们在跟客户沟通交流的时候遇到一个问题,客户实际的生产环境中运行的应用系统的环境要求是复杂多样的。比如有些系统必须是运行在物理机上,有些系统希望运行在容器里面,比如 K8S、Docker 里面,这都是有可能的。有些是运行在虚拟化环境里面,有些是运行在超融合里面。我们有没有可能把客户多种多样不同的需求,尤其是对存储的需求能够统一管理和集成起来。
我们在 3.5 里面为了满足客户的需求,我们就提供了块存储的服务,顾名思义把 SMTX OS 本身所提供的块存储的能力,通过 iSCSI 标准接口对外输出。这样对于外面是不管是物理机、容器、K8S 或其他的应用环境,只需要通过标准的 iSCSI 协议,就可以访问到我们超融合集群里面存储的能力,这就是块存储服务。
块存储带来了什么的好处呢?首先我们可以看到最明显的,因为 SMTX OS 本身的块存储功能非常强大,包含的数据保护的功能,刚才提到了本身包含了单磁盘、单节点、单机架的保护功能,以及 3.5 推出了双活功能,以及跨地域容灾保护功能。这些功能都可以继续被复用,只要采用了超融合的块存储服务,也可以享受这些的存储功能。同时 SmartX 分布式块存储里面像稳定、简单、可靠、有弹性、易扩展,这些功能也都是包含在本身的块存储服务里面。
图三/四. 一个 OS 整合稳态与敏态业务
特性五:全新界面设计与运维功能增强
图五. SMTX OS 3.5 软件界面
此外,我们来介绍一下关于 3.5 版本里面全新设计的界面,以及比较强大易用的运维管理功能。首先是增加了多集群管理很重要的功能,我们现在很多客户其实在使用 SMTX OS 产品的时候,已经是多个集群,最多的客户可能有很多集群需要同时管理。当他需要管理多个集群的时候,我们在 3.5 里面就提供了多集群管理,就是在一个界面可以同时管理 SMTX OS 所有的集群。
同时我们在提供了一个更高级的监控分析以及报警的功能,在这个版本里面提供了超过 200 个计算、存储、网络以及相关的指标监控和统计,以及变化的趋势。同时提供了 TopK 的分析,可以快速找到哪些虚拟机或数据卷是被访问频繁的,哪些是热点虚拟化,我们根据统计来做一些规划或者部署。我们还提供了监控面板的自定义,用户可以自定义希望看到的监控面板和报警属性,比如说报警可以根据哪些条件去做。
还有包括硬件资产的报表导出,这是很实用的功能,很多客户会遇到资产统计的问题。此外,还可以智能识别节点布局和硬件磁盘的位置,还支持第三方服务拓扑的可视化。
模块化授权模式与更广泛硬件适配
以上是我们关于 3.5 新功能、新产品最重要内容的介绍,下面介绍的是关于 License 这一方面,大家如果熟悉其他的产品,像一般 IT 产品提供 License 的时候不是那么灵活,比如基础版、增强版、加强版等等,每一个不同的版本里面包含的是一组功能。当你想要高级功能的时候不能只为一个功能付费,要为一组功能付费,可能有一些功能不是你需要的。我们根据客户的需求,提供了更加灵活的 License 授权的方式,也就是我们的整体 License 是授权到企业版,企业版包含了 3.5 里面所有的基础功能,包括本身的虚拟化、网络、存储等等功能,高级功能包括双活、异地灾备,通过独立的 License 的方式去进行授权。比如客户只需要双活的保护,你只需要对双活一个功能付费就可以了。如果只需要异地灾备的功能,只需要购买异地灾备的 License,而不需要打包强制卖给你一些你并不需要的功能,这个是根据用户的需求来定制的很灵活的 License 的模式。
图六. 灵活的 license 模式与最新硬件平台的广泛适配
同时我们在这个版本里做了硬件兼容性的适配,包含了主流的硬件厂商型号,包括像联想、浪潮、戴尔、超威、华为以及惠普的一些最主流的机型支持。从硬件磁盘的角度来讲,SSD 上支持了英特尔、三星、东芝,最主流的 SSD 型号都可以支持。
3.5 版本总结
对于我们 3.5 来做一个总结,我们首先从几个角度对业务功能做了加强,包含了虚拟化、运维和 Web 界面都是做了很好的加强,同时也推出了一些新的功能,包括块存储、双活、异地容灾功能。
在这里还是要再强调一下,我们之所以能够推出这些功能,一方面是因为提供了超融合的架构,能够提供最好的用户体验,帮助用户把他核心的生产系统尽可能迁移到超融合架构里面;同时因为我们有自己的产品研发团队,才能够在这么短的时间里面把这些功能,把很重要、很难开发的功能快速推出来,这就是我们认为和其他的超融合厂商很大的区别。
图七. SMTX OS 3.5 极大拓展价值边界
当我们发布了 3.5 以后,其实我们的产品价值边界就得到了极大的扩展。我们认为目前 SMTX OS 3.5 的产品,实际上是极具全球竞争力的超融合产品。我们支持了虚拟化场景到裸金属场景,包括稳态、敏态、单数据中心、多数据中心、容灾的要求以及简单易用的要求等等。
SMTX OS 的未来规划
以上是我们对 3.5 产品的介绍,实际上到现在为止我们已经有一些客户在使用 3.5 版本的产品。我们目前的研发团队,已经开始去对未来的版本,包括对 4.0 版本以及 4.0 之后的版本去做更进一步的新功能的开发和设计。开发和设计的目标,也还是围绕着刚才提到的让用户的核心应用系统更好地在超融合里面得到更好的体验,这就是我们的产品始终不变的目标。
图八. SMTX OS 未来发展
可以看一下上图,我们目前的产品发展思路是这样的,首先底层提供了四个最核心的基石的模块,其中上面是块存储功能,下面是虚拟化功能,左边是零运维管理(非常强大的自动运维管理功能),以及数据保护和容灾功能。有这四个基础的功能以后,实际上可以覆盖的场景就包含了像服务器虚拟化、块存储,服务像 VDI、ROBO、核心业务场景的应用,这些场景我们就可以得到覆盖了。对于一些更高级产品的用户的需求,其实后面还会发展到包括备份生态的集成,我们会开放一些存储访问和备份的接口,我们支持向第三方被厂家能够和 SMTX OS 产品做集成,由他们去备份我们超融合里面的数据。同时也会提供一些像二级存储的应用。
其次有一些更核心的应用场景,像核心的数据户应用场景对性能的需求是非常高的,也包括了现在全闪的趋势也是越来越明显,所以我们会进一步在全闪和提供全闪场景下 SLA 的保证。以及根据企业云的发展思路,会提供权限管理包括多租户、自服务等等高级功能,帮助一个大型企业的IT基础设施去做很好的运维和管理。
最后我们还会进一步去拓展整个的生态,包括对 K8S 容器的支持,包括提供应用中心,我们也支持第三方厂家能够把他的一些应用内嵌到超融合架构产品里面来。通过我们互相的合作,能够给用户带来最完美的超融合体验。