AMD云计算的自我实践

当前,云计算已经不仅仅是人们热议的话题,而且已经得到越来越多的应用。作为全球领先的半导体厂商,AMD公司拥有业界领先的APU、CPU和GPU的技术与产品,能够提供从云服务器到云终端的全线产品解决方案。另一方面,AMD在云计算的部署方面身先士卒。AMD创建了一个私有云,以此来提高自身的生产力,改善的资源的获取能力,节省相关的成本,以及保持在业界创新者的地位。其在云计算方面的自我实践很具有借鉴意义。

AMD是一家拥有创新传统的半导体设计公司,它的各种创新技术打造了现代计算的新面目。随着云计算的兴起,AMD再度担当了技术领导者的角色,引领着新一代高能效多核处理器的技术潮流,正在为全世界的云计算部署奠定基石。

AMD面临复杂性挑战

设计半导体是一项复杂的工程任务,需要耗费巨大的计算能力。对于AMD来说,这种计算能力必须能被遍及全球、多学科的AMD 工程师轻松、充分地获取。为此,AMD曾构建众多系统集群来满足计算能力需求,包括部署超过15,000 台服务器。这些服务器上安装着版本多样的操作系统与文件系统,以及千差万别的存储管理与集群软件。随着每年基础设施规模扩大20-30%, 软硬件升级几乎时刻不能停顿。

然而,“复杂性”的挑战还不止于硬件的操作系统。数据的管理与迁移同样问题重重。由于设施遍布全球并且互不相连,AMD不得不在各站点之间复制大型数据集。因此,在一个给定地点建立起可用的项目数据,可能需要花费数周时间。

项目一旦开展起来,还会遇到新的障碍。测试半导体设计,需要获取成千上万个计算核心。然而,为了避免资源浪费,任何一个AMD设施都不会过度配置。为了完成测试并符合AMD严格的产品标准,工程师们不得不见缝插针地安排时间,排队等待在可用的机器上运行测试。一方面,AMD 所拥有的服务器总数超出所需,另一方面,哪怕在很短时间内,将充足的计算能力转向某个特定项目组,都很难做到。简言之,AMD已具备巨大的计算能力,但无法满足灵活性、可管理性、可获取性、成本效率的要求。

AMD将基础设施迁移到“云”中

2009 年4月,AMD IT部门启动一个项目,旨在改变服务器和存储的孤立状态,方法是将遍布全球的所有设备整合到私有云之中。项目总的策略用AMD内部的话来说是“随处计算”。具体计划是将各数据中心集中化,并提供恰当的连接工具,建立起AMD私有云,为全世界所有AMD设计项目提供计算能力。

在项目早期,AMD IT部门将全公司服务器中渐趋过时的处理器更换为更新、更高能效的AMD皓龙处理器。处理器的无缝升级为AMD私有云带来很大益处。

AMD IT部门在充分利用已有基础设施的同时,将AMD的计算容量加倍,从中节省600 万美元以上的成本。

与此同时,AMD IT部门还启动了另一个项目,贯穿全新的AMD云开展软件及其版本的标准化。基于其多核支持和高扩展性,将Rad Hat Enterprise Linux 选作基本操作系统。在调查使用模式与软件功能之后,AMD IT部门还针对来自Cadence、Mentor Graphics 以及Synopsis的工作负载管理和EDA 软件,开展平台计算标准化,优化了设计和模拟工具。

AMD云效果显著提供高灵活度和高速度

在迁移过程中,AMD工程设计项目继续按照密集的日程执行,即使计算资源基本容量增加了20% 以上也是如此。如今,新创建的AMD云基础架构运行于超过115,000 个AMD CPU核心和超过4PB 存储资源之上。它已成为AMD一个不可或缺的组成部分,帮助其向客户传递值得期待的研发创新。AMD 所有的工程设计项目均在私有云中开展。

与此同时,AMD的IT部门能够动态地响应工程设计团队的项目需求。项目的开展不再受地理条件的制约,因为所需的数据可在众多地点之间平滑地流动和共享。只需数小时即可重新设定资源的使用优先度。举例来说,2010 年8月,Bobcat (山猫)项目组需要加快设计过程以适应新的市场需求。该团队请求“模拟高峰加速”(Simulation Rush )。AMD的IT部门在一夜之间从AMD 云动态地重新分配容量,为该项目团队提供42,000 个CPU核心(大约45%的计算资源)在五天内使用。典型的项目组通常只用到4%的云资源。借助新增的计算能力,山猫项目组在五天内完成了原本需要两个月的测试工作。这直接加快了产品的上市时间,并为AMD 节省了数百万美元的成本。

为了确保效率的最大化,AMD 的工程设计实现部门领导着云资源的分配。该部门包含AMD 高级工程领导人员,他们对于不断变化的客户需求有着深入的理解,能够相应安排项目进行的优先次序。然后,由IT部门的网络维护服务部实际分配资源。凭借充分的标准化和灵活性,AMD 能够更好地运用硬件开支,降低支持硬件所需的数据中心成本。

提供更宽广的资源获取途径

随着计算资源灵活性的提高,AMD IT部门部署了来自Wyse 的瘦客户端技术。基于AMD Fusion APU (加速处理单元)技术的瘦客户端提供从远程站点到AMD云的高速访问。

降低存储成本

如今,由于数据随处可得,不再需要在本地保留数据集的冗余拷贝。利用整合的数据集,AMD能让任何地点的工程师随需参与到任何项目之中。整合还使AMD得以充分利用一度闲置在分散站点的已有的高端设计软件。

促进生产力的提高

目前,有30个大型项目正在利用AMD云,包括AMD APU和全新Bulldozer 核心的相关设计工作。每月,全世界大约3,000 名工程师在AMD云上执行约4,000 项工作,使AMD云保持了超过90% 的利用率 无论是可用服务器的使用,还是每个核心的平均工作负载。

实现卓越的预测能力

AMD 云使AMD 的IT部门能够响应动态需求,在全球范围调配资源,并且保持较高的服务交付水平。灵活性和标准化使任何工程设计项目都能轻松地在云中流转。AMD IT部门与高级工程师密切合作,向AMD 的工程设计部门提供最高效、最可靠的服务。因此,AMD 向极其倚重计算能力的研发活动注入了动力 在这样做的同时,还能有充分的信心和充足的资源来应对任何新的研发挑战。

AMD IT部门企业副总裁Tom Painter先生 表示:“AMD云项目实现了"随处计算",即:将已有的资源汇聚起来并整合到云中,同时丝毫无损 企业生产力。我们所拥有的最大优势是:我们的基础架构基于的是AMD皓龙处理器,这使我们能够快速开展无缝升级,并将停机时间缩至最短。”