HPC与芯片供应商之间需要建立一种全新合作关系

DoSERV分析12月20日国际报道:本周在搜索有关新闻的过程中,我发现,为企业或科研机构构建超级计算机的厂商所担忧的最大问题似乎是–芯片供应商缺乏可靠性。

这已经不是新闻。芯片制造商很多时候都会延误计划安排,并且有些时候推出劣质产品,而有些时期则能推出优质产品。在出产劣质产品的时期他们往往声称制造芯片的技术很难,而推出优质产品的时期他们声称拥有远远胜过竞争对手的卓越技术。我认为前者是真实的:制造芯片确实很难。有时很幸运能够及时推出(大多数情况下)有效的产品,而有时则做不到。

过去两周来AMD经常出现新闻,其旁路转换缓冲(TLB)的错误出现大范围传播的新闻,还有之前,由于不能满足一般的可用性需求,而改写所有由SPEC 对Opteron芯片进行基准衡量的结果。并且AMD显然又低估了Opteron芯片耗费的电能,将各种芯片的额定功率估算水平从68W,95W和120W提高到79W,115W和137W。另一条新闻则指出Sun公司的Rock处理器可能推迟到2009年发布,并且当该款处理器确实推出时,处理器功能可能会有明显的减少。

这些消息对于台式机用户来说并不严重。对于一台单插槽机器,没有人关心其性能是否下降了几个百分点,或者其能耗略有增加。但对于构建并行式计算机的用户,这些错误非常严重。如果用户甚至能够支持额外增加的能耗需求的话,对一台有1千或1万个插槽的机器来说,每个插槽11瓦的功耗累积起来就是很大一笔资金。

我们通常不会直接向芯片制造商购买大型计算机,而是向系统供应商(类似Rackable,Sun,SGI以及其它公司)购买。当这些供应商准备交付一台机器,他们将预期性能建立在制造商宣称的数据的基础之上。接着用户开始建造机房,清理出空间,并基于供应商告知的数据提交内部服务水准。在超级计算机市场,有大量的证据表明,芯片制造商夸大了他们的作用,并经常将芯片的价格打很低的折扣以帮助供应商赢得竞标。

但是当这些制造商将基本原则处理不当时,就会出现负面影响。超级计算机制造商许下承诺,同时他们又必须承担延迟交付的处罚,还有系统构建、以及修复有缺陷平台的成本。

没有什么措施可以针对延迟交付产品、产品性能不足、或者对基础设备的错误估算这些行为,从而对芯片制造商加以处罚。这些错误产生的实际成本由系统供应商承担,并且让那些可以使用新增功能但不准备解决那些问题的新用户推迟采用该产品。

因此,超级计算机与集群式系统供应商必须寻求一种新的业务模式,以便针对,因为各方都以这些系统性能为基础得以发展。