Platform开辟实现云新途径—从高性能到云

云计算的演变

自企业计算拉开帷幕的六十多年来,计算模式出现了两大变化:首先是大型机计算模式,随后是客户/服务器计算模式,现在,"云计算"成为第三代IT应用模式,也是分布式计算和数据中心发展道路上的新阶段。

无论采用什么模式,IT部门都面临着这样的难题:如何快速且经济高效地提供IT资源以支持业务应用。客户机/服务器计算模式极大地增强了IT部门实施可信赖计算基础架构的能力,可支持不同的业务部门和应用程序。

然而,客户机/服务器模式也付出了代价。它导致了服务器蔓延、资金和运营成本的急剧攀升,同时,越来越复杂的数据中心也很难快速配置和有效管理以满足不断变化的需求。此外,由于应用程序的工作负载是不断变化的,因此专用于单一应用程序的服务器通常得不到充分利用。对计算资源的管理也面临很多挑战,为了配置资源以满足业务部门对新应用部署要求,IT部门不得不采购和部署一台或多台配备管理软件的新服务器,这常常需要数周甚至数月才能实现,导致业务的延误。

随着集群、网格等分布式计算架构的出现和成熟,企业用户可以很方便地访问共享、可扩展的IT基础架构,用大众化硬件的价格获得极高的计算能力和资源利用率。虽然最初部署集群和网格的主要目的是为了完成计算密集型的科学计算任务–它们常常被称为高性能计算(HPC)应用程序,但部署这些架构方面的经验同样适用于普通企业应用程序,也就是说,它们可以直接用于云计算模式–这是资源共享的、有益于最终用户和IT部门的一种新模式。事实上,云计算就是集群、网格计算的一种自然延伸,它帮助我们更方便、灵活地管理和使用计算资源。

就像软件从一种专有、集中式的模式转变为一种开放、分布式的架构,云计算也呈现迅速发展的趋势,极大地改变了IT服务的交付方式,使客户可以按需、自助地使用IT资源。

云计算的实质

那么,在企业环境下,云计算到底是什么?

简单地说,云计算是一种IT交付模式,通过一种自助服务式、按使用量付费的访问模式,把大规模、共享的基础架构和计算资源作为一种服务来提供。虽然云计算利用了最近出现的新技术,但它实际上是一种业务趋势,而不是技术趋势。

从技术上讲,云计算具有以下几个主要特点:

•基础架构共享–如今的企业数据中心需要满足众多用户对资源不断变化的需求,云计算能够动态地共享企业IT资源,以便经济高效地满足需求。

•可扩展性–为了应对与日俱增的工作负载需求,并支持整个企业,云计算必须具有可以大幅扩展的IT资源的灵活性。可扩展性和灵活性让云计算服务提供商可以兑现或者至少接近这个承诺–可根据需要,交付不受限制的IT服务。

•自助服务式–云计算让客户可以通过基于服务的解决方案访问IT资源。IT资源及创建的详细内容对于用户来说是透明的。

•按使用量付费–由于云计算资源可以根据工作负载的需求添加或移除,用户只要为实际使用的资源付费。当服务需求降低后,甚至无需付费。

从高性能计算到云计算

虽然现在有多种途径实现从现有的客户/服务器基础架构转向云计算,但是对于企业用户来说,有三种途径是最主要的,也是被实践证明是最有效的。

这三种途径分别是:

•从虚拟机到云–对于已经在虚拟机上部署应用程序的用户来说,可以将虚拟服务器结合起来,形成可管理的虚拟机集群。随着虚拟机集群数量激增,资源共享的需求也相应增加,企业开始部署虚拟化管理平台来自动调配虚拟机和跨虚拟机集群的计算资源,从而形成了由企业内部IT部门来运营的私有云。

•从网格到云–一些企业已经在运行网格。这种分布式系统由IT人员管理,通常是计算密集型或数据密集型的应用共享来共享这些资源。虚拟机技术并不用在网格中,因为每个应用程序都很容易消耗一台服务器上的所有资源。此外,多台服务器也常常一起使用,以运行并行应用程序。通过部署云管理软件,网格就可以扩大应用范围,以支持更多类型的应用程序。采用虚拟化技术和资源配置工具可以将企业网格变成私有云。

•从桌面到云–应用程序可以从专用服务器迁移到共享基础架构上,并从客户端设备进行访问。

企业可以选择上述途径中的任何一种,甚至为不同的应用程序或不同的业务部门同时选择几种途径来实现云计算。为了确保成功,采用云计算应该遵循有条不紊、循序渐进的步骤,而不是指望一蹴而就。取得的进展取决于特定应用程序对可扩展性和成本效益的需求,或者取决于对业务流程自动化等功能的要求。

从企业的实际应用考虑,最适合快速实现云计算的企业是那些已经采用了集群和网格计算技术的企业和组织机构,因为它们已经完成了对计算资源的整合和共享调度,只需要增加对资源的自动化管理和调度,就可以实现云计算。

成功案例:欧洲核子研究中心(CERN)利用Platform ISF实现私有云

凭借强大的计算能力,欧洲原子核研究组织(CERN)为遍布48个国家270个研究中心的17000余名科研人员在全球范围内展开合作,共同破解物质和宇宙的种种奥秘提供了保障。

挑战

为了进一步加快研究进展,CERN需要构建经济高效、能够管理任何服务器上虚拟机管理程序和操作系统、共享的计算基础设施。为此,CERN建立了一个大型的强子对撞机(LHC)集群,并采用Platform LSF管理LHC集群工作负载。CERN结构基础设施(Fabric Infrastructure)小组负责人Tony Cass博士说:"我们从1997年就开始使用Platform LSF管理工作负载,Platform LSF同样适用于LHC。特别是当需要添加云功能时,与Platform LSF来自同一厂商的Platform ISF看起来再合适不过了。"

解决方案

Platform ISF为CERN的大批科学家提供了一套私有云计算基础设施,为多个虚拟和物理平台提供高效的工作负载应用管理。Platform ISF把不同平台组合到单一动态的共享基础设施中,在资源较少的情况下显著提高了平台的利用率。此外,科学家们可以选择自己的应用环境,动态控制项目,确保自己能充分发挥私有云的功效–而这一切都是在成本更低的情况下实现的。

LHC项目给Cass博士领导的团队带来了一些新的挑战。LHC项目中大多数应用程序是高度专业化的,需要非常好的持续性,这给集群带来了很高的要求。支持LHC项目的新集群由200台服务器组成,新集群整体利用率只有10%左右。为了提高利用率需要对服务器进行虚拟化。新的虚拟化集群支持多种虚拟机管理程序,包括HyperV和Xen。这为实验团队带来了更大的灵活性,可以为自己的应用程序选用最好的平台。然而,多种虚拟化技术的使用给整个环境增添了管理的复杂性,于是Cass及其团队决定采用Platform ISF管理解决方案,作为同时管理虚拟环境和物理环境的工具。

Platform ISF让Cass及其团队对环境拥有更大的控制权,而且通过自动处理虚拟机管理程序不但实现许多任务的自动化管理,简化了管理工作,还提高了管理效率。Platform ISF是整个解决方案的核心,它可以管理资源和应用环境,并提供让用户能够根据需要来预留和使用资源的契约接口。

Cass说:"Platform ISF能够集成我们的所有资源,所以我们认为它是一种有用的补充,可以管理所有这些虚拟机管理程序。Platform ISF具有的独立性本身就让我们很感兴趣,因为我们的科研环境高度重视能够顺应新发展形势的工具,而不是让我们被旧形势所束缚。"

Platform ISF部署在一个支持LHC的集群上,而Platform ISF Adaptive Cluster部署在负责进行批处理工作的HPC集群上–该集群由 3800台多核服务器组成。这让CERN可以建立起私有云环境,必要时共享不同集群之间的资源。

Cass说:"Platform ISF Adaptive Cluster可以与现有的Platform LSF网格工作负载管理解决方案结合起来,为我们的用户和研究中心提供利用共享数据中心资源来管理集群所需的可扩展性和灵活性,同时符合我们对开放标准的要求。"

成果

利用Platform云平台实现私有云的另一个优点是减少了专用的LHC集群服务器。 "如果我们可以通过提高服务器利用率,从现有的LHC环境中减少150台服务器(原来是200台服务器),那么我们就可以大幅度节省电力和冷却成本,并且能在不增加硬件预算的前提下,把服务器重新部署到批处理集群中去。"Cass博士说。

Cass还计划允许实验团队通过自助服务直接访问集群。"如果我们能让Platform ISF自动配置服务器,以满足实验团队提出来的工作负载要求,就将减轻我们的管理负担。过去,在静态资源环境中,利用Platform LSF可以减少管理日常应用的工作量;而现在,Platform ISF通过将耗时的人工管理转变为自动化的资源调配和管理,使我们能更有效地管理虚拟机和物理机组成的混合环境。"Cass预测,使用Platform ISF后,他们有望大幅减少重新配置批处理集群以满足不断变化的工作负载所需的工作量。