云计算是高性能计算产业的第二个拐点

      10月28日,2011年全国高性能计算学术年会(HPC China 2011)在山东济南举行。在这一国内规格最高的HPC盛会上,HPC云计算成为一大热点,如何利用云的资源来实现高性能计算成为IT企业、科研院所和超算中心等会议代表广泛关注的话题。微软亚太研发集团服务器与开发工具事业部高性能云计算部门经理徐明强博士在会上做了《高性能云计算展望》的主题报告提出云计算是继X86集群之后,高性能计算产业的第二个拐点,将进一步促进高性能计算的普及应用。IT168记者就此对徐博士进行了专访。

云计算:HPC产业的第二个拐点

微软亚太研发集团服务器与开发工具事业部高性能云计算部门经理徐明强博士

IT168:您最近提到了一个有意思的观点,称从2010年开始,云计算是高性能计算领域继2003年X86集群大面积普及应用以来的第二个拐点。为什么这么说?

徐明强:云计算可以说是Beowulf集群故事的续集。集群刚出现的时候,很多人都说这是一种不实用的“玩具”,但是在高性能计算领域,玩具枪往往最终会变成真枪,看看今天的全球TOP500排行榜,集群系统已经占据了90%的份额。大众化的集群使得高性能计算冲破了国家实验室的封锁、冲破了先进国家的边界,在世界各地、各行各业得到了广泛的应用——在今天全球7000万科学家和工程师中,已经有1500万人使用上了高性能计算这个工具。

云计算:HPC产业的第二个拐点

不过,今天我们也看到,集群发展到现在也碰到了瓶颈,它并不能让让所有的工程师都能用上高性能计算。到了2010年,HPC云计算开始成为新的拐点,微软HPC市场部门做过初步的估计,到2017年,HPC云计算的节点总数将会达到40万个。我们相信HPC云计算会最终实现让所有工程师都能以按需分配的方式用上高性能计算的梦想。可以这么说,集群解决了“买得起”高性能计算机的问题,而云计算要解决的是当前许多用户“买得起,却管理不起或管理不了”的问题。

IT168:为什么这几年受到业界热捧的GPU计算没有成为您所定义的第二个拐点?

徐明强:GPU对HPC市场的推动远远没有达到当年X86集群的影响力,它更多主要还是针对一些高端的、定制化的应用。从微软的角度和策略来看,是要想办法降低高性能计算的门槛,所以我们认为云计算会成为这样一个拐点,让高性能计算得到进一步的普及。

云计算推动HPC产业变革

IT168:那么云计算会给整个HPC产业结构带来怎样的冲击?在传统的高性能计算领域,产业链中各个厂商的价值定位相对是比较明确的,硬件、系统软件、应用软件厂商各施其职,之间的区隔也比较明显,多年来形成了相对固定的一种产业价值分工格局。如果转向云计算,这个产业价值链会发生什么样的变化?今天的软硬件厂商需要做出什么样的改变才能在未来的竞争中存活与发展?

徐明强:在回答这个问题之前,我们不妨先来看看2010年HPC的产业结构。2010年整个全球高性能计算市场的规模达到588亿美元,其中应用占了三分之一,达187亿美元,其次是服务器和服务,操作系统在整个产业链中所占的份额其实很小。这也说明,操作系统是否免费,并不会影响到最终用户在HPC上的投入。

云计算推动HPC产业变革

我们看到,云计算的普及会使上述产业格局发生翻天覆地的变化,现有的产业价值会转到公有云运营商身上,我用一个通俗的话来讲,就是要做“瘦身”手术。这个手术需要开五刀:

第一刀是服务器,因为云运营商采购服务器往往数以万计,这种规模效应会让用户在硬件成本上大幅节省;

第二刀开在硬件维护上,因为用户使用云资源,不必再直接维护硬件,而运营商由于是大量使用标准硬件,维护成本也会大大降低;

第三刀是在服务上,今天高性能计算系统的搭建实施还是比较难的,需要系统集成商,这部分价值也会转到运营商身上;

第四刀就是在微软这样的系统软件厂商身上,因为用户不必单独购买操作系统,部分价值转到运营商;

第五刀在应用上,过去ISV的很多投入都是在营销上面,而在如果在Windows Azure的Marketplace上,它们可以利用云来实现软件分发,不用再找代理商或建分支机构,也能快速地在全球推广软件。

值得注意的是,这种转型并不会让整个市场缩水,但会给产业链中的不同角色带来机遇与挑战。比如系统集成商会变成云运营商,成为云的Hoster;应用代理商则会变身为高附加值的SaaS服务商;中间件如作业调度器则正在进行整合,如Oracle收购SUN ,IBM收购Platform;硬件ODM厂商会加入OEM的队伍,为云运营商提供硬件。

IT168:在新的HPC云计算产业结构中,微软又会扮演怎样的角色?

徐明强:我们要扮演的角色是平台服务商,目前是要为这个平台上的三个主角提供四类场景服务:

云计算推动HPC产业变革

一是帮助应用开发商在Windows Azure Platform上快速启用云应用,跟以Amazon EC2为代表的IaaS相比,Azure 作为PaaS可以为用户提供更全面、直接、简化的服务,用户不必在购买了虚拟机之后还要自己去搭建集群、安装作业调度器等;

二是帮助系统集成商使用Azure Appliance向公有云承载运营商转型;

三是帮助应用厂商借助Windows Azure Marketplace构建高效的软件推广和分发渠道,在全球实现快速营销;

四是帮助增值销售商厂商利用Azure SDK和Billing付费系统快速搭建SaaS平台。

适合云计算的HPC应用

IT168:我们也注意到业界对于高性能计算能否利用云来实现其实还是存在一些争议,在您看来,什么样的应用适合用云来实现?

徐明强:主要有两类应用,一种是容易并行化的应用,比如金融风险分析,要分析利率、汇率、石油价格等因素对金融产品定价的影响,把这些因素排列组合出来,有很多都是可以单独并行运算的作业,这类应用非常适合云计算。我这周二就在英国碰到一家伦敦的投行,他们要做投资的赔赚分析,希望2小时之内能出结果,因为市场变化很快,一些突发事件会产生影响,越快得到结果就越好。但是现有的资源无法满足计算需求,而他们的应用正好是非常容易实现并行化的应用,而且节点之间的通信比较少,通过从云中申请500个节点就得以实现。

第二种是大数据处理分析,一些用户可以利用云中存储的数据来进行并行化分析。我们之前推出过LINQ工具,帮助.NET程序员利用一些非常简单的SQL语句来处理数据,后来的PLINQ(Parallel LINQ)可以在多核机器上运行,现在又推出LINQ to HPC的版本,可以在多机上扩展运行,这会达到最佳的理想状态。因为一个节点再大,I/O终究会成为瓶颈,而如果扩展到多机集群上,每个节点都有自己的I/O能力,会大大缓解压力。

值得一提的是,对于MPI类的应用,如果云中没有Infiniband这种比较好的网络设备,不太适合,延迟问题会比较严重。基本上,我们看到金融保险的商业处理、渲染都比较适合HPC云计算,对于科学工程计算来说,使用量上可能相对少一些。比如,对于汽车设计公司来说,一个很大的顾虑是在云中计算能否确保新车型的保密。

IT168:除了这种数据安全风险,影响HPC云计算发展是否还存在其他一些因素,比如性能是否够用?

徐明强:虽然现在单个虚拟机的性能可能要比物理机差一些,但我们可以通过多机来完成并行的作业。而且,对于那些从来没有用过HPC的用户,对易用性的要求比传统用户要高。实际上,有许多ISV都采用工作站客户端+后台计算服务的结构,来满足海量低端用户的需求。所以,高性能计算的ISV能否成功,已经不在于在TOP500中能取得多少份额,而是在于底座的5000万的用户。

以微软的Azure为例,我们曾经做过分析,发现有20%的机时都是用在HPC上,这是一个非常可观的量,这也是我们下决心要把HPC移植到Azure平台上的原因。比如,我们有一个ISV仅一天的用量就多达4000个核。

IT168:不同的企业会使用不同的云计算服务,有的用公有云,有的用私有云,有的用混合云。那么,微软HPC公有云与企业私有云之间可以实现无缝集成或迁移吗?

徐明强:刚才提到过,到2017年,HPC云计算的节点总数将会达到40万个。其中三分之二是企业用户,非企业、全新用户所需的节点数占三分之一。这也使得企业自身私有云与公有云的无缝集成会变得很重要。目前我们已经联合上海超算、上汽、泛云科技一起实现了HPC公有云与私有云的无缝迁移。由于上海超算和上汽的高性能计算系统都是基于Windows HPC Server,所以集成迁移过程非常顺利。

适合云计算的HPC应用