服务器在线7月2日报道 近日,百万亿次超级计算机曙光5000正式亮相并签约上海超算。由于它的浮点运算峰值速度可达230万亿次,使它当之无愧成为中国新一代高性能计算机的领跑者,接近目前世界排名第六的"蓝色基因"。
回想2006年,863计划的相关课题指南提出,要研制两台百万亿次的计算机,并在此基础上预研千万亿次的技术。如今百万亿已过,千万亿在即。曙光5000不仅超额完成任务,还实现了"四高两低",现在正大跨步向产业化进程推进。
随着一次又一次记录的刷新,"更高、更快、更强"的曙光公司,已然成为中国超级计算机的同义词。记者近日走访了曙光公司副总裁聂华,他向我们讲述了曙光5000的研发过程,以及他们的研发团队,言谈话语间,我们仿佛看到了曙光人那一颗热忱的心,一份执著的信念,一种拼搏不息的精神!
大规模投入创新的决心
"曙光既然敢投标,就是对自己的成功抱有绝对的信心。研发新的高性能计算机需要长期的技术积累。从曙光1000的200亿次,曙光2000的1117亿次,曙光3000的4032亿次,曙光4000的11万亿次,我们是一步一个台阶往上跨,而不是一步跳到很高。"聂华说。经过2007年初第一轮评审后,曙光基本已顺利成为唯一通过入选的品牌。但曙光人明白,顺利中标铺不平通向百万亿次挑战的艰难路程。
"做曙光4000A时,我们已经发现,未来系统发展到一定规模时,体系结构就会出问题了。当这种架构达到一定的规模时,整体可靠性将受到严重挑战,很多单一部件的瘫痪都可导致整体瘫痪。因此经过反复论证,我们首先提出了全新的HPP体系结构,从而不仅使系统的稳定性得到很大提高,同时也让用户编程应用像常规的集群一样方便。"聂华说。
完成了体系结构的创新,他们开始考虑硬件的设计了。刀片式服务器被公认为高性能计算集群的发展方向,它可以极大减少外部线缆的数量,从而降低线缆连接故障带来的隐患。为了克服线缆连接的瓶颈,以及解决散热集中、电源供电的集中等问题,他们坚信,刀片服务器将成为研制曙光5000的必然选择。
说到刀片服务器,由于设计难度大,目前敢碰的厂家屈指可数,世界范围内也只有IBM、惠普等厂商。因此在做完全独立开发刀片服务器的决策过程中,曙光花费了很大的工夫去调研,用他们的话说,当时着实是捏了一把汗。因为设计这样的刀片一投就是几千万,而投进去如果没达到设计的目标,几千万就打水漂了。经过公司领导、研发人员多次讨论和认真分析之后达成了共识:干,必须干,而且我们一定能干好!还用他们的话说,当时那个场面叫做众志成城。
抱着这样的必胜信心,曙光人经过奋力拼搏,我们现在看到了,曙光的刀片服务器完全可以面向高性能计算的应用,并且在密度及各个方面达到国际领先。
从这个意义上讲,曙光大规模投入科研创新的决心和勇气是令人敬佩的。当他们意识到技术转向不过是时间早晚的问题时,便毅然决然地沿着这条路走了下去。
克服多方面技术难题
"做刀片服务器不仅要求有大量资金、人力投入,最重要的是在考验你的配套能力。通常情况下做一个服务器,设计主板,电源买回来就可以了。但做刀片服务器的一些配件是买不到的,因为很多都涉及到专业的设计。因而人力的投入非常吃紧。比如,原来设计服务器时一个研发组20个人投入到主板,而做刀片的时候,只能有5个人在忙主板的设计,其他人都被抽了出去设计别的了。"聂华说。
设计刀片服务器还不是唯一的麻烦。每一个值得夸耀的特性的背后都有极大的工作量。"为了实现高速信号传输,常规做主板的板材不能支持,需要在国外找到一些特殊的钢厂,增加了难度。你会发现,系统还是系统,连接还是连接,但当要做到超高性能的时候,所有的配套环境都变了。我不仅仅要关心信号的完整问题,还要关心配套的材料,关心物流是不是能支撑等等。过去我们只利用一条生产线,与一家ODM合作就可以了,而曙光5000呢,主板找一家厂商合作;主板上的高速接头找了另一家厂商合作,因为做主板的厂家没有压制头的设备;交换模块又找了一家。可以说这样做大大增加了我们的工程难度。"
曙光的各项自主知识产权和自主创新里,包含了很多业界第一。"整个系统研发过程中,共申请了50多项专利。这对我们是一件蛮自豪的事情。"聂华说:"我们最大的体会是,从纯技术角度不是每一件事情都有独创性,但几项技术集成到一个产品当中,是非常不容易的事情,而在业界我们总能第一个形成产品。"
"比如,水冷系统不是我们的本行,我们会和专业的厂商做更好的结合和定制。我们水冷机柜最突出的是下面是水,上面是电。这样的设计是考虑了漏水。水冷机柜不能进机箱,因为不便维护,机箱随便动的话就得动水管。我们将水和电做了隔离,内外做了两级交换的隔离。水冷模块虽然在机柜中占了一定的空间,但安全性大幅度提升了。"
追求的不仅仅是快
"国家不希望百万亿次计算的研发仅是纯科研的项目。"聂华表示,曙光5000同样也应该取得商业成功。"如果说曙光离成功还差一步,那就是我们应该如何利用技术赢得市场。"
为了这个目标,曙光公司一开始就着眼于"用",而不仅仅求"快"。
曙光5000用的是AMD公司的1.9G主频的CPU,如果换用2.3G主频的CPU,速度可以提高约20%%~30%%,但这样一年要多给用户耗掉接近200万度的电。因此曙光宁可放弃高指标,以降低用户的综合成本。
"我们放弃了上半年的(世界超级计算机)排名,只能参加下半年的排名。据我自己的科研体会来讲,"冲击前十"是我们考虑最少的指标。我们正着眼于用更多技术上的突破,来更好地满足用户的需求。我们不仅仅把它当作一个科研成果,而是当成产业推广的一件大事。为了这个,我们设计了很多有挑战的指标,而这种指标不是没有风险。"
曙光为自己设定的目标,体现在了"四高两低"中。
首先是各项指标高,比如说总峰值、Lin鄄pack、内存、带宽;第二个是高效能,同样的指标下,提升用户的可用度,包括设计、延时,带宽和单CPU可访问寻址;三是高密度,在7U的空间里,集中了4×10颗的4核CPU,共160颗CPU核,另外还集成了Infiniband网络交换模块和以太网交换模块;四是高可靠度,包括各种冗余的设计,减少各种故障点的设计,还有散热仿真工程的设计。
"两低"则是低成本加低功耗。曙光5000的造价约两亿元人民币,这与IBM比可能不占优势。但这两亿还包括了其他内容,如为千万亿次级的研发做准备,还实现了一些IBM同类系统中不具备的特性,比如每个CPU核可以直接进行64G内存寻址等等。算上这些的话,曙光实现了非常低的投资。维护成本也低,曙光5000的管理软件可以不增加原有的人员编制。对用户来讲,运营的成本非常低。"聂华说。
低功耗是因为曙光5000采用了各种节能的部件和节能技术,一年可为用户省下一千多万度的电。其中包括低功耗的内存,刀片系统集中散热,电源效率自动优化,风扇自动调控等,另外还采用水冷的机柜高效散热。曙光煞费苦心的设计,为的是满足用户需求,而不是争取排名。
为什么是曙光?
推出曙光1000时,中国高性能计算机落后国际先进水平8年推出曙光4000A与国外同类计算机推出时间相差4年;而现在的曙光5000与世界的差距只有两年多了,如果按计划在2010年推出千万亿次超级计算机,差距将微乎其微,中国正在迎头赶上。
为什么是曙光,而不是别人来代表中国追赶世界?
不久前曾经有国外厂商就刀片服务器与曙光产品做了个对比,并在一些媒体上刊登,称曙光的刀片在各个方面都不如他们。曙光的研发人员看到报纸上的数据后,纷纷表示,"虽然我们起步晚,但并不代表我们会永远落后!通过努力我们肯定会在不远的将来超过他们!"谈起这件事,聂华非常自豪,他说,这就是我们曙光研发人员所具有的"不服输"精神!
"曙光有创新的基因。"聂华说:"我们的企业文化叫做越压越强。我们经常说一句话,论队伍我们不如别人大,论投入我们不如别人多,但我们有创新基因。"
正是具备了这种敢为天下先的创新基因,曙光人在挑战时速极限的研发道路上,不断创造着一个又一个奇迹。