欧洲原子能研究机构(CERN)成立于1954年,是世界最大的粒子物理研究中心。一直以来,CERN凭借强大的计算能力,为遍布48个国家270个研究中心的17000余名科研人员在全球范围内展开合作、共同破解物质和宇宙的种种奥秘提供着坚实的保障。
为进一步加快研究进展,CERN启动了当今世界最大的强子对撞机LHC的建设。LHC位于日内瓦附近瑞士和法国交界地区地下100米深处、周长约27公里的环形隧道内,其物理实验对粒子物理基本理论的检验和探索新的突破,起到至关重要的作用。尤其是对宇宙起源和寻找新粒子Higgs的探索,可能发现超出标准模型的新物理规律,而导致粒子物理学的重大突破,使人类对微观世界的认识进入一个新的阶段。
LHC项目中大多数应用程序是高度专业化的,需要非常好的持续性,这给支撑该项目的计算机集群管理带来了新的挑战。支持LHC项目的新计算机集群由200台服务器组成,但新集群的整体利用率却只有10%左右,负责处理LHC数据的研究中心部门主管Helge Meinard博士表示:“在启动诸如大型强子对撞机(LHC)这样的项目时,我们必须保证所有计算能力都得到充分的利用。”为了提高服务器利用率,CERN对服务器进行了虚拟化。新的虚拟化集群支持HyperV和Xen等多种虚拟机管理程序,这为实验团队带来了更大的灵活性,可以为自己的应用程序选用最好的平台,但同时,多种虚拟化技术的使用给整个集群环境增添了管理的复杂性。CERN决定采用Platform ISF解决方案管理LHC集群工作负载,同时作为管理虚拟环境和物理环境的工具,以实现构建经济高效、能够管理任何服务器上虚拟机管理程序和操作系统、共享的计算基础设施的目标。
“我们最终选择Platform作为合作伙伴,帮助我们扩展和最大限度地优化独一无二的高性能计算(HPC)环境,为我们整个科学研究团队发掘和探索宇宙的奥秘搭建理想的平台。”CERN结构基础设施(Fabric Infrastructure)小组负责人Tony Cass博士说:“CERN从1997年就开始使用Platform LSF管理工作负载,Platform LSF同样适用于LHC。特别是当需要添加云功能时,与Platform LSF来自同一厂商的Platform ISF看起来再合适不过了。”
作为一款集中管理异构的虚拟和物理资源的云基础架构管理平台,Platform ISF为运行在其上的各种应用提供了快速部署、动态资源调度和弹性计算的资源管理和调度平台。它提供的IaaS功能帮助客户实现自助式按需的计算、网络、存储资源的申请和使用。更重要的是,它还能使中间件和分布式应用软件更加方便、快速地迁移至云平台并具备提供PaaS(平台即服务)和SaaS(软件即服务)的能力,确保中间件和分布式应用软件的提供者更加专注于自身应用逻辑,无需考虑对底层计算、存储、网络资源的调度和管理。
Platform ISF为CERN的大批科学家提供了一整套私有云计算基础架构,为多个虚拟和物理平台提供了高效的工作负载应用管理。Platform ISF将不同平台组合到单一动态的共享基础架构当中,在资源较少的情况下显著地提高了平台利用率。此外,广大科学家还可以选择自己的应用环境,动态控制项目,确保自身能够充分发挥私有云的功效,而所有这一切都是在前所未有的低成本状态下实现的。
此外,Platform ISF让CERN对集群环境拥有了更大的控制权,而且通过自动处理虚拟机管理程序不但实现许多任务的自动化管理,简化了管理工作,还提高了管理效率。Platform ISF可以管理资源和应用环境,并提供让用户能够根据需要来预留和使用资源的契约接口。
Platform ISF具有的独立性让CERN很感兴趣,Cass说:“CERN的科研环境高度重视能够顺应新发展形势的工具,而不是让我们被旧形势所束缚,Platform ISF做到了。”
CERN将Platform ISF部署在一个支持LHC的集群上,而将Platform ISF Adaptive Cluster部署在由 3800台多核服务器组成、负责进行批处理工作的HPC集群上,这让CERN可以通过私有云计算环境,在必要时共享不同集群之间的资源。Cass说:“Platform ISF Adaptive Cluster可以与现有的Platform LSF网格工作负载管理解决方案结合起来,为我们的用户和研究中心提供利用共享数据中心资源来管理集群所需的可扩展性和灵活性,同时符合我们对开放标准的要求。”
Platform ISF还帮助CERN减少了专用的LHC集群服务器数量并减轻管理负担。“过去,在静态资源环境中,利用Platform LSF可以减少管理日常应用的工作量;而现在,Platform ISF通过将耗时的人工管理转变为自动化的资源调配和管理,使我们能更有效地管理虚拟机和物理机组成的混合环境。”Cass博士进一步解释说:“通过提高服务器利用率,如果能从现有的LHC环境中减少150台服务器(原来是200台服务器),那么我们就可以大幅度节省电力和冷却成本,并且能在不增加硬件预算的前提下,把服务器重新部署到批处理集群中去;如果能利用Platform ISF提供的自动配置服务器功能满足实验团队提出来的工作负载要求,就将减轻我们的管理负担。”Cass预测,使用Platform ISF后,CERN有望大幅减少重新配置批处理集群以满足不断变化的工作负载所需的工作量。