32路浪潮天梭K1瓜熟蒂落 浪潮技术创新厚积薄发

有道是“得高端者得天下”,然而在主机领域一直是国产服务器厂商心中的痛:在利润最高的主机市场,国产厂商没有丝毫的“话语权”,中国用户也只能任由国外品牌“漫天要价”。面对这样的境况,中国IT人迎头而上。1月22日,伴随着中国第一台关键应用主机——浪潮天梭 K1系统在北京钓鱼台国宾馆宣布正式上市,中国行业信息化核心系统运行于国产化平台上成为可能。这台凝聚了460位资深工程师四年心血的杰作,也将从根本上扭转了我国信息战略受制于人的被动局面,中国也由此成为全球第三个掌握新一代主机技术的国家。

K1有哪些创新?

浪潮天梭K1系统并不是心血来潮之物,而是国家和科技领军企业共同为推动中国IT产业的发展有计划有步骤地进行的。浪潮天梭K1来源于“高端容错计算机研制与应用推广”项目,它是十一五期间国家863重大专项,该项目由浪潮高效能服务器和存储技术国家重点实验室重点承担,浪潮天梭K1系统为项目的研究成果。

浪潮集团高级副总裁王恩东

浪潮天梭K1基于自主设计的经典CC-NUMA架构,最大可扩展32颗处理器、256核心,4TB全局共享内存,系统峰值浮点计算能力达到2560GFLOPS,也就是每秒可完成2.56万亿次浮点计算;内存总带宽1177.6GB/s,系统互连总带宽1088GB/s,系统I/O总带宽675GB/s,这意味着如果传输大小为15G的高清电影,处理器到内存之间每秒可传输78部,处理器之间每秒可传输73部,系统对外每秒可传输45部;系统体系结构支持64路扩展,并完成64路原型系统的开发。

浪潮天梭K1系统

据高效能服务器和海量存储技术国家重点实验室主任、浪潮集团高级副总裁王恩东介绍,天梭K1在研制过程中,突破关键应用主机多项核心技术及工程技术世界难题,建立了完整的自主化技术体系,使中国成为世界上三个掌握最新关键应用主机核心技术的国家之一。

突破一:创新体系结构和协同芯片组

天梭K1的核心技术突破之一,就是设计开发了“双翼可扩展多处理器紧耦合共享存储器体系结构”、与商业处理器兼容的两级目录Cache一致性协议,整体开发了多处理器CC-NUMA体系结构,研制成功关键应用主机两大核心部件之一处理器协同芯片组,突破了欧美国家对计算机“系统紧耦合技术”的封锁。

众所周知,芯片组可以称得上是计算机的“灵魂”和“躯干”,它能力的大小决定了计算机系统整体扩展性和I/O等关键技术表现。通常,普通计算机仅有4颗以下处理器,而天梭需要支持32颗处理器,有256个内存插槽,规模和复杂度都数十倍于普通计算机。

浪潮天梭K1系统发布

芯片组主要涉及2项核心技术:体系结构和缓存一致性。关键应用主机体系结构要解决的核心问题是处理器和内存的互联,天梭K1有32颗处理器,256个内存插槽,将如此规模的单元互联起来,既要保证数据一致,又要将协同开销降到最低,以取得更好的性能,这是计算机领域的世界性难题。计算机的运行过程中,各个单元中的数据必须保持一致,以避免逻辑错误。缓存一致性技术就是确定了体系结构以后,各个单元之间数据同步的规则。由于关键应用主机系统规模庞大,处理器、内存等单元之间的通讯需要通过第三方协同芯片来实现,亦即数据先传输到协同芯片的缓存,然后再传输到单元模块去。天梭K1系统有数百个数据同步单元,建立一套复杂的缓存一致性规范是十分庞杂的工程,全球具有该项技术开发能力的公司不到5家。

浪潮集团最终设计完成了“双翼可扩展多处理器紧耦合共享存储器体系结构”,成为国际上唯一一个只需要一级跳步的64路互联系统,目前该技术已经申请中国和美国专利。

双翼可扩展多处理器紧耦合共享存储器体系结构拓扑图

突破之二:开发出我国第一款通过UNIX 03认证的K-UNIX

如果说芯片组是计算机的“灵魂”和“躯干”,那操作系统则是计算机的“血液”,它将计算机的各个部件协同运作起来。浪潮成功开发出了我国第一款通过UNIX 03认证的操作系统K-UNIX,为天梭K1软件生态系统的建设奠定了坚实的基础。

浪潮K-UNIX 是基于LINUX内核自主开发的操作系统,专注关键应用,通过UNIX 03认证,意味着K-UNIX进入了关键应用软件俱乐部。UNIX03全称为Open Group UNIX 03认证,该认证是关键应用软件生态的入门牌。目前,UNIX仍然是关键应用软件的事实标准,不仅关键应用软件大部分是基于UNIX标准开发,而且关键应用软件在UNIX平台运行时间也最长、最成熟,因而,要开拓关键应用主机市场,打入Unix软件技术生态圈是必须的前提条件,但是该认证复杂大,门槛高,目前只有IBM、HP、苹果和Oracle四家厂商的产品通过了该认证。

浪潮研制的主板

UNIX 03是操作系统对SUS v3标准的符合性认证,由针对系统调用、库函数、编译器等在内的系列标准构成,需经过3200余处UNIX兼容增强,通过6万余个UNIX 03测试项。作为专门面向关键应用业务开发的操作系统,K-UNIX不仅针对CCNUMA架构进行了专门的优化,性能大幅提升,而且在安全性和容错能力方面表现突出。

突破之三:突破了异构系统互备运行关键技术

之前,中国关键应用主机技术一直处于空白状态,对企业、政府甚至社会具有核心意义的关键信息化系统一直运行在国外的产品上,浪潮是这个领域的初入者,用户出于风险考虑,也很难把核心系统放到浪潮产品上。浪潮确定了“互备运行、逐步替换”的办法,让天梭 k1系统走入实际应用中。

浪潮研制的K1电源背板等

经过兼容性研究、系统平台/应用平台移植、基础性兼容测试、功能测试、性能测试、集成测试和异构平台互备运行技术研究,浪潮天梭与国外关键应用主机系统,搭建了双机互备平台,天梭K1在几个月的运行时间内,表现稳定,从“备机”逐步转换为“主机”,成功实现了业务系统从国外小型向国产关键应用主机的移植,以及与国外小型机的互备运行,为关键行业应用实现自主可控提供了稳妥的技术方法。天梭K1系统的应用示范是在新疆建行完成的,承担12个生产性系统稳定运行1年多时间,完全满足现有业务应用要求。

此外,研制天梭K1是中国企业第一次进入主机研发领域,浪潮在产品研制阶段遇到了大量的工艺制程瓶颈,特别是PCB设计加工方面(PCB,印制线路板,简称印制板,负责集成电路等电子元器件之间的电气互连,是关键应用主机的重要部件之一)。浪潮在PCB材料、化学、金属表面处理等进行了大量实验,对材料编织对信号的扰动效应进行了深入研究,继IBM之后,全球第二个实现了600×500超大尺寸、20层高叠层、0.5%高阻抗控制精度的电路板的加工并稳定量产。

为什么是浪潮?

“台上一分钟,台下十年功。”浪潮天梭K1系统的研制成功,表面上看是460位浪潮工程师四年的呕心沥血之作,但实际上在他们背后是浪潮多年来的技术积累和技术创新的结果。

作为国产服务器的领军企业,浪潮从1993年研制成功第一台小型机开始,一直为建立自主的中国服务器产业践行高端战略。1993年,浪潮推出了中国第一台小型机——可扩展10颗处理器的SMP2000,标志着中国开始有了自己的服务器产业;1996年,浪潮集团建立了国内第一条专业服务器生产线,开启了国产服务产业国际化进程,同年起至今一直保持国产品牌销量第一;2002年,浪潮发布天梭工程,吹响了国产品牌进军高端的号角,天梭系列高端商用服务器多次获得国家科技进步二等奖;2009年9月,四路服务器NF560D2销量突破10000台,成为中国服务器产业第一款销量破万的四路服务器,标志着浪潮已经完成中低端产业的布局,为全面突破高端奠定了基础;2010年4月2日,浪潮正式推出了国内第一款自主设计的8路服务器——天梭TS850,仅用1年时间该产品即成为市场占有率前三强,该产品是入门级高端服务器,初步显示了浪潮在高端领域的实力。

2013年初,浪潮天梭K1系统面世,这是一款主流的高端服务器,十几年时间,浪潮从突破高端开始,至今已经初步完成了高端产业布局。

作为高端战略的核心组成部分,研发体系和能力建设一直浪潮集团的工作重点。经过多年积累,浪潮已经建成了由三级研发体系、自动化知识管理体系等构成的领先创新系统。在三级研发体系的基础上,浪潮以核心技术为关注焦点,创造性的提出 “技术专利化、专利标准化、标准国际化”的知识产权战略。知识产权工作已经贯穿于浪潮技术创新和产品研发的全过程。仅2011年,集团就申请国家专利802项,其中发明专利占55%,牵头制定国家标准4项,参与国家标准21项、行业标准6项,推动发布国家标准1项、行业标准9项。

此外,浪潮还非常注重人才培养,设立了首席知识官,打造企业“智库”。目前,浪潮拥有各类研究与开发人员1500多人。拥有博士以上高级专家22人,享受国务院特殊津贴5人,山东省科技拔尖人才11人,拥有外籍高层次人才30多人。这些都是浪潮研发天梭K1乃至更高性能服务器的“本钱”。

正如浪潮集团董事长兼CEO孙丕恕所说,浪潮天梭K1是中国大型主机产业的开端,下一步浪潮将继续向服务器产业更为核心的技术探索突破,并将携手关键行业的客户打开高端行业壁垒,为推动我国关键业务系统国产化应用,建立国产化产业圈做出更多的努力。

浪潮天梭K1系统研发故事

1、方寸之间的千针万线

天梭K1系统是一个庞大的研发工程,从芯片、到板卡,需要海量的研发工作量。

先后研制大规模芯片数十个。特别是处理器协同芯片,这是计算机中唯一复杂度可与处理器相比的芯片部件,浪潮研制的芯片组集成了4.5亿个晶体管,有2577根管脚,而intel最高端的通用处理器至强E7集成的晶体管数量也不过14亿个,针脚数只有1567个,如此数量、如此规模的芯片设计是国内十分少见的。

一般的多处理器计算机的板卡不超过5块,系统布线在5000-7000条。而天梭K1系统板卡数量超过110块,布线90000条以上。特别是计算板,尺寸只有50cm*60cm,如此狭小的面积上有40000个管脚,20层布线,挑战了业界计算板卡加工工艺极限。最终设计完成后,整套系统有300个传感器,367种、2177个零件。

2、“大和小”的艺术平衡

天梭K1体积和内部的板卡多大合适,看似一个十分初级的问题,但却必须要经验丰富的资深专家才能解决。从信号和供电的角度讲,天梭k1做的越小越好,因为信号传输距离过长会产衰减、失真现象,供电会有压降问题,但是散热问题就会随之而来,K1系统最大功耗有20Kw,平均发热密度超过普通服务器60%,而且在计算板卡发热密度更高,散热这一常规性问题变成技术卡口。

在通用服务器领域经验丰富的浪潮工程师在关键应用主机领域还是新入者,谈不上经验,只能在“战争中学习战争”。他们先后设计了20多个版本的系统基础结构设计方案,才最终平衡散热和尺寸的问题。其中计算板尺寸50cm*60cm,已经是国内最大的主板,甚至一度超出了国内PCB板卡加工工艺的极限,实现“10Gbps信号传输距离超过30英寸”、“6.4GT/s 21路并行传输超过21英寸”等多项业界信号传输距离的新纪录。