超算时代:这是谁的刀片盛宴

服务器在线6月12日报道 超级计算机时代其实不是一个新鲜的话题,每年和超级计算机相关的报道不胜枚举。比如,著名的国际象棋人机大战。比如,世界最快的超级计算机达到千万亿次。再比如,美国国会干预他们的超级计算机出口中国等等。这也难怪,超级计算机多用于国家高科技领域和尖端技术研究,是国家科技发展水平和综合国力的重要标志。作为高科技发展的要素,超级计算机早已成为世界各国经济和国防方面的竞争利器,各国对超级计算机的研发投入节节攀升。我国经过科技工作者的不懈努力, 超级计算机的研发也取得了不错进展,成为继美国之后的第二大超级计算机研发生产国,没有被汹涌而来的超算时代甩下。

时至今日,超算时代已经来到我们身边:美国人在用它试验核爆;日本人在用它分析计算地震和海啸;英国人甚至用它甄别足球流氓;某个我们天天接触的薯片品牌,为了寻找防止薯片从装配线上滑落的方法,都曾动用超级计算机进行实验。至于您,如果鞋垫不合脚,甚至可以通过计算设计出最舒适最合脚的款式。

2009年的某个晚上,当你打开电脑,欢快地玩起网络游戏的时候,也许这个网络游戏就是依靠超级计算机在运行的。网络游戏同时在线人数100万?没关系,早在2008年,世界上最快的超级计算机的每秒运算速度就突破了千万亿次。这是什么概念?如果您的电脑运行速度是散步,那么超级计算机的速度就是瞬间移动。超级计算机每天的计算量,相当于地球上60亿人每周7天、每天24小时不间断用计算器计算40年甚至更久。

曾经有人说,今天的超级计算机就是明天的家用电脑。然而,除非人们能够找到大幅减小计算机体积和能耗的方法,否则,超级计算机目前仍是政府、大型企业或者研究机构才能用得起的设备。不过,随着中国各地超算中心的建立,超级计算机的应用越来越广泛,不久我们就可以在家使用超级计算机的运算能力。

一席华丽的刀片盛宴

新一代的超级计算机采用涡轮式设计,每个刀片就是一个服务器,能实现协同工作,并可根据应用需要随时增减。也许,超级计算机还不会很快来到我们身边。但是刀片,作为超级计算机的服务器单元,以其高可用性和高密度,越来越受到青睐和追捧。

2002年,刀片服务器进入中国。到2008年,刀片服务器受到厂商和用户的热烈追捧,相对于单台服务器来说,它可以提升服务器部署的灵活性,提高扩展能力。从某种意义上来说,能够达到"事半功倍"的效果。

相较其他服务器,刀片服务器更节省空间,在机柜系统配置好的前提下,将1U机架优化服务器系统移植到刀片服务器上,所占用的空间只是原来的1/3~1/2。而在一个标准的机柜式环境中,刀片服务器的处理密度要提高四到五倍。

从TCO的角度来看,刀片服务器管理起来更容易,在更小的空间里提供更多的处理能力,而且花费也更少。因为许多部件都可以共享。

刀片服务器在向上扩展和向外扩展方面均具有创新性。添加新服务器一般只需将新的单处理器或多处理器刀片服务器插入到机箱的开放式托架中即可。刀片服务器可插入到已扩展的基础设施中。此外,机箱内部的选件模块还可使我们添加一旦在外部连接便可实现共享的功能。刀片技术的模块化设计可实现快速扩展。

刀片服务器的所有关键组件均可实现冗余或热插拔,其中包括冷却系统、电源、以太网控制器与交换机、中间背板与背板、硬盘及服务处理器。卸下服务器进行维修仅意味着将刀片服务器拖出机箱,这就像拆卸热插拔硬盘一样简单。高级刀片服务器系统提供了实现高度敏感维修的智能方式,高级诊断功能可指导维修人员直接找到故障部件,从而实现快速有效的恢复,有些刀片服务器甚至不会出现单点故障。

2009年,根据Garnter的报告显示,企业IT消费大概在335亿美元,其中刀片服务器市场占据超过25%的市场份额,IT经理们大多倾向于投资那些能够提高设备利用率、提高能效的产品领域,显然,刀片服务器正符合这一要求。

刀片市场盛宴空前:国外厂商–IBM、惠普、AMD、戴尔抢占主席。曙光、浪潮、联想、方正等国内企业也全力推广自主设计、制造的刀片服务器,盛宴珍馐,谁愿空箸。

酒酣耳热,中国几何?

我国的刀片服务器起步略晚,但经过多年的发展,技术已经日趋成熟。浪潮、曙光、联想等都推出了自主研发的刀片产品。在这里我们不得不提一下TC2600这款刀片产品,无论从技术还是应用上,它都算得上是国内刀片服务器的代表作。

TC2600 刀片服务器是曙光公司研发的第三代双核/四核刀片服务器产品, TC2600的每个刀片包含两颗AMD Opteron2000系列双核高性能处理器(支持四核处理器)。

刀片服务器最大的特点就是高密度的机箱设计,合理先进的机箱构造是衡量一款刀片服务器性能的重要指标。TC2600刀片机箱采用7U10片的超高密机构设计,使整个机箱能够增加42.8%的计算密度,可最大限度地提升数据中心和高性能计算中心的处理能力;全模块化的设计能节省 86% 以上的电缆,从而节省安装部署的时间和电缆花费。

刀片服务器设计最大障碍为散热问题,大部分的刀片服务器项目的失败主要是由于散热无法过关。TC2600特有的线形预补偿散热模块(LPCM)是曙光最新研发的散热技术,配备6个冗余风扇,能够根据温度变化,线性平滑调整风扇转速,减弱噪音,降低不必要的功耗;同时LPCM还能根据温度变化,预测下一阶段温度变化趋势,提前进行转速调整补偿,保证风扇转速和噪声平稳,保障刀片服务器在任务变换时的散热效果,延长风扇的使用寿命。

刀片服务器是一种高密度集中的结构设计,在有限的空间里满足高性能计算应用的需求,电源供电系统的重要性不言而喻, TC2600刀片服务器配备了6个1000W具有负载均衡和故障切换功能的热插拔电源模块,支持"4+1"和"4+2"两种电源冗余方式,可选两种工作模式:手动优化和自动智能调节;SPRM可以根据功耗变化,自动智能调节电源系统的管理策略,能够始终保持电源模块工作在效率曲线的高点,减少不必要的功耗损失,大幅增加电源的使用寿命。

承担高性能计算任务的刀片服务器,需要管理人员随时把握系统的运行状况,调节系统的运行状态,因此在管理维护方面尤为重要,TC2600内置曙光Dawning Blade Full View Management System管理软件,能够通过WEB页面的形式管理系统的运行,可提供所有组件的最新状态及图形标示的详细信息,支持实时状态监控、故障预警,动态优化调整资源配给和工作策略;提供多种错误故障报警方式,日志、审计和报表可供查询;允许加密的远程控制,可从任何位置控制操作及监控整体运行状况。

高性能计算应用需要不断的与外界交换数据,庞大的数据交换工作,对于服务器系统的I/O交换是一个巨大的挑战。TC2600刀片服务器采用第三代Infiniband Switch 芯片,提供高达800Gb/s的交换带宽,远远超过市场同类产品。I/O扩展能力一直以来都是刀片服务器的一大诟病,刀片服务器一般只能进行单一功能的扩展。TC2600创新性的I/O扩展模块为每个刀片独立配置了PCI-E扩展插槽,能够兼容网卡、FC HBA、iSCSI HBA、Infiniband HCA等业界绝大部分PCI-E板卡,为刀片服务器系统的I/O扩展提供了更为灵活的选择。

刀片市场酒酣耳热之际,我们不得不泼一盆冷水:时至今日,刀片服务器产品一直没有一个统一的规格和标准,每个厂家的刀片服务器产品都不能相互兼容,这就极大的提升了用户升级的困难和成本,可以说,标准化是目前刀片服务器产业发展的最大困难。

刀片盛宴,中国几何?刀片市场的迅速膨胀催生标准的出台,时间紧迫,冀望国际知名厂商统一标准不太现实。中国的刀片服务器厂家们看到这一问题,由曙光牵头的"高标委"提出"中国刀片标准",致力于推动刀片服务器统一标准的建立,我们上面提到的TC2600就是在"中国刀片标准"之下设计研发的,从CPU、内存、硬盘到PCI-E卡都可以支持标准工业部件,用户可以根据应用的需求对服务器系统进行升级,降低了整体的使用成本。

不久的将来,当中国刀片标准获批的时候,中国刀片或将成为盛宴的主角,领跑中国。