云供应商为什么给的总是“差不离”?

2016年8月,互联网行业的巨头亚马逊创造了一个新的记录,该公司的市值在盘中首次超越埃克森美孚(Exxon Mobil),成为全球市值第四大的公司,这不仅意味着全球市值前四的四家公司都已经为科技公司所占,更意味着全球市值前四的公司都是云计算为未来发展目标的公司——毫无疑问,支撑亚马逊股价的不是网上零售业务,而是云计算服务商亚马逊AWS。苹果、Alphabet(Google的母公司)、微软以及亚马逊,都在云计算市场扮演着重要的角色。

严格来说,云服务已经渗透到了我们生活的每一个角落中,比如说,你今天在京东购买的新手机,或是你在淘宝上为新家增添的一些小挂饰,当然,还有你出差、出游经常会用到的去哪儿、携程等订票软件(12306自然也是其中之一),都与云计算有着密切的关系,甚至于说,只要你能看到这篇文章,就说明你是被云服务围绕着,而不是在远离云服务的大草原上放牧牦牛,过着田园般的自给自足的生活——你看到这篇文章的途径很显然不会是从印刷纸张上。

说回到我所在的公司——完美世界,是中国最早一批网络游戏开发商和运营商之一,成立于2004年,致力于网络游戏的研发、运营、销售和服务,除了北京的总部,在北美、欧洲和日本设有全资子公司自主运营游戏,旗下游戏已授权至亚洲、澳洲、拉丁美洲、俄罗斯及其它俄语地区等多个国家和地区的主要游戏运营商,游戏出口至世界100多个国家和地区,更是不能“幸免”于云计算的大潮,被卷入了这一整个行业的大趋势内,而且还受益于云计算所带来的工作便利、成本降低和业务发展。

但是,在大潮波澜不惊之下,作为云的使用者,我们也不免去想更为深刻的一些问题:我们应当怎么去看待云供应商?我们应当选择什么样的云供应商?什么样的云供应商是“讨人喜欢”的?除此以外,云供应商应当为我们提供哪些服务?

这正是本文要讨论的事情。

“云供应商给的为什么总是‘差不离’”

在企业IT基础设施的云化过程中,私有云和混合云仍然是非常重要的一部分,相对于亚马逊AWS、微软Azure、阿里云等公有云提供商来说,企业私有云和混合云建设所需要的硬件、软件、咨询、服务及解决方案供应商,是一个更为复杂的存在,但这仍然是非常必要的。

过去几年,完美世界一直在不断尝试各种新的硬件基础设施、软件及服务产品,可以说一直走在私有云建设的前沿,接触了很多新鲜的产品,其中也包括很多开源解决方案:比如说,在硬件上,我们一直选择全球前三的服务器硬件提供商,为我们的数据中心提供服务器硬件,以支撑完美世界设计和代理的各种网络游戏;与此同时,我们建立了自己的云游戏平台,是基于KVM和Ceph虚拟化存储的,当然,我们当时规模还不大,所以没有采用OpenStack之类的管理调度平台。

除此以外,Docker我们也有过接触,尝试着使用容器化的解决方案支持我们的一些游戏。

与众多的企业数据中心一样,我们使用服务器,也基于KVM、Ceph、Docker等软件产品及解决方案支撑我们的网络游戏,在这一过程中,有我们自己摸索的过程,也有我们服务器供应商提供的很多帮助,在一开始,很多事情都如所期望的那样顺利运行,而硬件服务商针对一些解决方案所给出的建议,初看起来也都是很好的建议。

但是随着实践的深入,我们发现单纯出自硬件供应商给出的建议,很难覆盖我们所有的需求,很大程度上他们一方面对网络游戏行业的需求并不清晰,另一方面,鉴于他们的主要工作是提供硬件产品,所以他们在整体解决方案上面、在云计算平台的搭建细节上,总是和我们想要的有所差距。

后来,我们意识到,一个云供应商,不可能了解每一个行业的需求细节,这正是行业细分造成的,如果我们的云供应商比我们还要了解游戏,他们就是游戏行业的顶尖厂商了,这不现实。我们作为游戏开发运营商,也不可能完全了解云计算的所有细节,否则我们就是云供应商了,或者我们自己就成为云服务提供商,我们作为游戏研发运营公司,我们最拿手的东西是游戏,而不是云。

所以,我们觉得云供应商第一战略就应该是沟通,要和我们这样的云使用者在技术上进行有效的沟通,了解需求。对于我们这些云使用者来说,节约成本、方便管理、安全可靠、易于扩容……等等这些需要都是很笼统的,我们真正关心的是我们所使用的云是否符合我们的业务,无论我们使用云服务提供商的公有云服务,还是使用云供应商的硬件和软件搭建我们自己的私有云,符合我们业务的需要才是我们第一要考虑的事情。

云供应商提供的软硬件如何切合我们的业务需要,这正是云供应商和我们这样的应用者最应该沟通的事情。

如果没做好沟通并基于我们的需求设计产品,最终的结果就是前面所说的“差不离”——看起来满足了客户的需求,但实际上,却总是和真正的需求有那么一点儿差距。

比如说,在一些新的项目上线时,我们都需要进行大批量服务器的上线工作,简单来说,就是上架、接电、开机、配置、部署和业务迁移,但做起来可不是像听起来那么简单,这是一个极为复杂的工作,而且,部署时间是有限制的,这意味着你必须要加班,通宵加班。

有没有快速部署的方法?当然有,几乎每家服务器供应商都告诉你,使用他们的服务器进行规模化的部署——这在新业务上线或是云平台建设中是很常见的——可以极大地缩短部署时间,甚至只需要简单的几个点击就可以完成数百台、上千台服务器的部署。

但实际上,事情不总是像他们说的那样美妙。

在批量部署服务器时,最重要的就是确保所有的配置能够被顺利采集,并真正的克隆到每一台服务器上,确保所有的服务器都得到了正确的、一致的、可以顺利接入管理平台的配置,可惜这不总是那么顺利的,这是一个复杂的过程:配置、采集、克隆、重新分配和维护基准——其中有一个地方出了问题,那都是批量部署服务器的噩梦,在很多时候,你只有一次让事情变得简单的机会。

为了解决这样的问题,硬件供应商们总是在寻求更好的解决方案:在戴尔第13代服务器中,IDRAC的版本升级到了IDRAC 8。IDRAC 8卡与生命周期管理控制器Lifecycle Controller 集成在一起,提供简化服务器生命周期管理,IDRAC 8的自动化服务器配置提供全面的服务器配置文件,包括BIOS、PERC(PowerEdge RAID卡)、网卡/HBA和iDRAC/生命周期控制器的设置。

此外它还有多种使用模式,可以整合到已有的进程中,使用U盘对现场对服务器“应用配置”,或者在网络设置中应用。使用OpenManage Essentials软件来采集、设置和检测配置的一到多漂移。对于一台尚未配置管理IP和权限的戴尔13G服务器而言,只需要标准的网络资源——DHCP服务器和标准网络共享,然后上架、连线即可。

整个过程可以简单来看,就是这样:部署并配置好一台“golden server”(相当于模板)——导出“golden server”状态到SCP XML文件——针对即将部署的服务器型号编辑SCP XML文件——为自动化配置而设置DHCP服务器——新服务器使用DHCP自动化配置——新服务器使用一致的配置来操作。

如果你的服务器供应商在这件事情上做的不好,你只能去寻求软件的解决方案或是自己通宵熬夜去完成服务器的配置——前者将会耗费额外的资金,而后者,对任何一个数据中心管理者来说,都会是一个值得纪念的夜晚,或者,很多个值得纪念的夜晚。

所以,如果有服务器供应商来和我沟通,对服务器有哪些需求时,我第一个想到的并不是新的处理器、更大的内存或是更快的闪存,而是“能否为我们提供更好的自动化、智能化的服务器配置工具(就像Lifecycle Controller的IDRAC 8)”,而不是听他们吹嘘新一代的至强处理器,或是新一代的3D NAND Flash——这些东西谁都能装到服务器里,英特尔和三星总是会提供这些东西,不是吗?

因此,谈到云供应商的战略,最核心,也是第一件事,就是要记得:一定要与客户进行充分的沟通,真正提供我们所需要的产品,“沟通—修正—供给”的模式,在任何时候——当然也包括云计算的时代——仍然是供应商战略中要走的第一步。

云基础设施日臻完善现在要“向上走”

事实上,云基础设施的建设在很多企业已经越来越成熟了,毕竟云计算的概念已经提了很多年,各种讲座、培训、Workshop做了非常多,企业数据中心的管理者们在硬件基础设施上,该走的弯路、直路都已经走的差不多了,甚至于,像是阿里巴巴、腾讯、百度等大型数据中心的管理者们,都可以开始进行整机柜定制化服务器了。

但是,构建云计算并不仅仅是硬件基础设施的事情,特别是像完美世界这样的游戏厂商,为了能够更好的为全中国的网络游戏玩家服务,我们在全国各地都有数据中心,而且规模还在不断扩张中,是要在万台服务器甚至以上的量级上,构建我们的私有云,这其中就涉及到两个很重要的问题:

第一,原有的服务器、存储、交换机不可能全部扔掉,“全部以旧换新”是不可能的事情,它们肯定要加入云,这也就意味着任何一家云服务商,都需要考虑构建私有云平台时的利旧问题。

第二,除了各种硬件产品的组合,还需要合适的软件,PaaS层是云化过程中非常重要的一部分,只有PaaS层建设好,才能够更为合理、迅速、按需的调配资源,才能满足各种应用的要求,仅仅是提供硬件产品,或者搭建硬件解决方案,并不能很好的服务于我们这些云使用者。

这两件事情是云供应商的战略中,要做好的第二和第三件事情,而且,也是在硬件基础设施搭建之外和之上,体现云供应商是否有全面的、具有前瞻性的和丰富扩展性的云战略最重要的两步。

就利旧来说,云供应商应当制定两层的战略:

第一层,以VMware等虚拟化平台统一管理整个的服务器群集,这需要将服务器本身的管理软件和VMware的产品进行深度集成,比如说借助Dell Active System Manager ,统一管理计算、存储、网络、虚拟化、操作系统和应用程序层视图,简化基础架构管理,与此同时,通过将ASM集成到VMware提供的vRealize Suite,创建完善的端到端解决方案,以部署和管理私有或混合云环境。

第二层,是将一些使用年限较长或长期闲置的设备,整合管理并交付给测试、研发或是一些二级、三级业务上,这需要云供应商有丰富的业务迁移经验和充分的业务准备,才能确保平稳的迁移业务。

当然,利旧不是云计算建设最核心的地方,对有一些经济基础较好的用户来说,利旧可能显得没有那么重要,不过,是否能够在PaaS层做好对所有人来说都是最为重要的,而这也是对供应商战略最严苛的考验之一。

管理能力

首先,我们必须要确定的是,云供应商是否有能力将PaaS乃至IaaS层纳入到自己的解决方案中来,这里面包括了Oracle、SAP、微软等供应商的一系列产品,比如说数据库、云中间件等等,对了,现在还多了一个OpenStack,作为一个云平台的资源调度编排平台,云供应商对OpenStack(也包括Docker)的熟悉程度、管理能力以及服务水平,都是应该关注的地方。

当然,我们不可能要求供应商能够熟悉每一项技术、每一个产品,这意味着供应商必须要有完善的合作伙伴生态圈,比如说在OpenStack领域,是否与红帽有很好的合作关系?或是与国内的几家OpenStack创业公司有所合作?进而把服务器、存储、网络、Red Hat Enterprise Linux OpenStack Platform、Red Hat InkTank Ceph,甚至是Docker、Trove等都组合进来。

而且,在PaaS层还有一件事情需要云供应商考虑,那就是提供什么样的经典配置和经典解决方案,形成定制化、实例化、预集成的解决方案,打个比方来说,对于某些业务应用,在确定了基本的业务负载需求和业务运营要求之后,云供应商是否能够快速提供“现成”的“经典组合”——不要小看这一点——这意味着这一组合是否经过广泛的应用验证和合理的搭配考量,否则,每次都是从0开始,可不是一个好主意。

“开放性”战略

其次,我们必须要说的是,云供应商的战略的开放性,也就是“兼容并蓄”的能力,对云计算客户来说非常的重要,就像我说的,没有一个云供应商可以通吃一切,现在的云计算是一个复杂的系统工程,不仅总有新鲜的东西出来,更多的情况是,总有人做的会比别人好一些,另一方面,许多本地的供应商也开始崭露头角,他们的技术、产品和解决方案我们一样愿意尝试,从这个角度来说,云供应商战略的开放性也是非常重要的。

专业的沟通和培训

最后,我希望强调的一点是,云供应商的云战略中,沟通、培训和Workshop是非常重要的,在几年前云计算刚刚兴起的时候,某家公司的Workshop在业内非常的著名,它从行业趋势、方法论,到系统性的云计算建设、软硬件基础设施、运维和行业讨论会等一应俱全,有时候还会安排一些实际的测试和应用搭建活动,虽然后来这家供应商不再举办类似的活动,但它确实为行业内的Workshop给出了一个非常好的参照标准。