走进K1 Power——看IPS如何绽放Power之光

数字化转型正在对传统产业进行重塑,人工智能、云计算、大数据……为千行百业的智能升级注入了先进生产力,与此同时,这些前沿技术对智慧计算场景的资源需求也呈现指数级增长。数据显示,中国的关键应用市场将保持年均10%左右的提升,预计到2020年会有接近100亿的规模。提到处理关键业务和密集型负载,相信Power会是很多企业的选择。如今,围绕POWER——这一体系结构和通用处理器工程设计领域的最佳实践,开放的生态正使其发展得愈发繁茂,而浪潮商用机器有限公司(IPS)即是孕育这一片沃土的重要力量。

从1993年搭载10颗486 CPU的SMP2000,到2007年高效能服务器和存储技术国家重点实验室落户浪潮,再到2010年400多位浪潮工程师耗费4年研制成功K1小型机,使得中国成为除美国、日本之外全球第三个具备关键应用主机研制能力的国家……直至2018年基于POWER处理器的K1 Power产品线上市,浪潮在国内高端小型机设计的道路上始终扮演着引领者的角色。然而,每一次成功的背后都是关键技术的突破,时至今日,浪潮商用机器有限公司副总经理黄家明仍记忆犹新。

走进K1 Power——看IPS如何绽放Power之光


浪潮商用机器有限公司副总经理黄家明

2010年32路安腾架构的机器出来时,面临着一个大问题就是x86处理器通过缓存一致性协议的互联,GPU要和主处理器共享内存。为了让机器发挥更大的扩展效率,芯片之间要具备互联网络,但当时使用英特尔QPI协议连接要符合其处理器接口和规范,必须经过授权,如果是自主芯片之间使用QPI互联是被禁止的,因此浪潮要自行研发高速协议网络以实现缓存一致性。

“我们做了缓存一致性的协议处理芯片。这个芯片类似于一个没有计算核心的处理器,但是能够处理处理器核心之间通信的缓存一致性,这样能够把32路的安腾芯片结合起来,形成一台机器来跑,这是国内的重要突破。”黄家明说。这枚芯片是专为与QPI协议对接设计的,可以和英特尔处理器通信,能理解每一次缓存、每一次内存事务的过程。这次互联协议的技术攻关,为日后在其他平台上做不同的协议实现奠定了研发基础。

坚持自主创新,浪潮一直引领着国内高端小型机设计发展方向,突破了小型机多项核心技术,其中,浪潮自研的双翼可扩展紧耦合体系架构,支持互连网络单跳步32路扩展,获得了PCT国际专利授权。在体系结构之上,浪潮消除了底层硬件差异化,在整机上开发了KUX操作系统,向上与UNIX接口兼容。关键应用层面,浪潮一方面支持IBM DB2的部署,另一方面对与Oracle最接近且兼容性最好的KDB数据库进行移植,并且通过了IBM的严苛测试。

正是由于浪潮在架构设计和关键应用上的自研实力,为K1 Power的诞生铺平了道路。目前,IPS在2019年上半年中国UNIX市场的占有率已超过64%,以往购买过POWER8的金融客户中,有80%是省、市级城商行,以及农信和全国的股份制银行,这些银行有80%均购买了IPS的设备,后者为旧版Power机器提供了平滑、无缝的迁移方案。核心客户的认可足以说明K1 Power的过硬品质,而这也得益于IPS的一系列“秘密武器”。

“独步江湖”的高性能体验

作为瞄准核心业务应用的动力源泉,POWER处理器在性能设计方面的独特性一直“独步江湖”。通常,如果是x86处理器每个内核能支持2个线程,那么POWER处理器的每个内核就可以有8个线程,8路多线程POWER处理器内核的平均性能几乎是x86内核的两倍。较上一代产品,POWER9处理器的主频可以达到4GHz,每核性能提升40%,单核线程数提升4倍,L3高速缓存提升3.3倍,处理器互联带宽提升7倍,单处理器内存容量提升2.7倍,内存带宽提升2倍,I/O总带宽提升2倍,支持PCIe 4.0、NVLink 2.0、CAPI 2.0、New CAPI等协议。

“Power支持PCIe 4.0和NVLink 2.0,可以对CPU和I/O之间提供高带宽支持,满足关键应用负载的要求。”浪潮商用机器有限公司产品研发部副总经理尹宏伟表示,“K1 Power在商业数据库如EDB、DB2和Oracle、SPARC这类应用系统上,都是两倍以上的性能提升。对于开源的数据库,我们的测试也是有两倍以上的性能增长。”此外,整机性能更强的Power服务器还可以通过分区的形式满足不同的应用负载,大幅提升资源使用效率。

在关键业务场景,Power一贯的Scale Up优势使其在核心数据库平台能够轻松处理大规模业务并发,而在像分布式存储、大数据、AI等新兴的业务场景,Power同样优势明显。例如在运行开源数据库MariaDB时,搭载POWER9 LaGrange处理器的双路FP5290G2较四路x86 6148平台,每核性能提升1.6倍,CPU整体性能提升1.75倍。对于客户应用来说,在同等功耗和同等计算空间内,得到了翻倍的性能提升,有效降低了TCO。

此外,IPS研发团队还针对客户具体需求进行定制化研发调优,使得K1 Power在特定场景下的运行能力显著加强。浪潮商用机器有限公司产品营销部总经理江豫京介绍称:“前段时间,我们和国家某个证券相关机构做了POC测试,用K1 Power加上国产的存储设备来搭建平台,替换以前的系统。在仅迁移平台(300个应用),还没有做调优的情况下,我们的性能提升就让业务时间节省了40%。因此,基于浪潮在高端服务器研发和设计的技术积累,结合POWER服务器的强大功能,我们有信心在关键业务和创新应用场景下为客户带来更多价值。”

不仅跑得快 还要跑得稳

就像一辆好的超级跑车,不仅要有飞一般的速度,跑得稳才是成功抵达终点的保障。稳定性、可靠性,以及设计、性能、服务等维度的高标准,是Power在设计之初就秉承的第一要务。通过引入RAS(Reliability、Availability、Serviceability)设计理念,并增加独立的故障服务处理器等模块,K1 Power要在部件、系统、测试、散热等各个维度实现系统的稳定可靠。用黄家明的话说,半导体器繁多的颗粒总会出现或大或小的问题,处理这些问题需要多个业务部门的协作,所涉及的必要技术手段就是冗余。

走进K1 Power——看IPS如何绽放Power之光


RAS设计理念

除了空间冗余,即多路径冗余容错,还要考虑到时间冗余,与x86仿真指令可能出现的读回故障导致宕机不同,Power支持的指令集重试和动态路径选择,使得其在遇到指令路径访问不通时,可以重新选一条路径去访问远程的内存,这样就大幅降低了故障率。即可理解为每个系统控制单元中有两个冗余的时钟卡,通过线缆对系统提供冗余的时钟,当任意一个时钟卡出现故障时,另一组时钟可以无缝切换保持系统稳定运行。

无论是CPU与CPU之间,还是CPU与内存之间,亦或是内存DRAM芯片本身,IPS将冗余做到了芯片级、链路级和板机布线层面。例如在部件和链路上,电源的稳压模块做到了N+2的冗余设计,相当于有多套变压器把系统12V电压分给板机的各个元器件使用,而x86则是一套变压器供多个电压给板机系统使用。对于电源、SMP线缆、时钟、FSP模块、I/O控制器等关键部件,IPS都做了冗余设计。

除此之外,K1 Power还借助多达16万个故障检查器,实时监测着系统运行状态,对故障进行捕获,并在故障扩散传播之前隔离到限定区进行在线修复,甚至可以做到对CPU内部核心级别的故障隔离,确保系统持续运行。为此,IPS的首错数据捕获机制FFDC(First Failure Data Capture)在设计阶段就在进行各类错误模拟,在实际运行阶段会做错误捕获。发生错误之后,在维护阶段还可以做错误重现,把所有可能产生的错误提前做到预警、备案和处理。对于没有纠错机制的部件,K1 Power还支持重试机制,通过重试来判断故障是否为真。

在黄家明看来,错误捕获和隔离的RAS设计可以看作是Power的精华,“因为这部分RAS实际上涉及到了各个方面,而且每一项功能的实现都要从芯片出发,从板机的设计到系统的设计,以及操作系统的固件、BIOS,这就需要与负责操作系统的同事合作实现,因为操作系统里面需要加入更多针对性的内核驱动去处理这些故障,涉及到内存的隔离、迁移,包括内存数据多副本的故障转移等。这就要求有一个专门面向高可靠性设计的团队。”

只做超出客户预期的产品

笔者记得浪潮商用机器有限公司总经理胡雷钧曾讲述过一个生动的体验:在地铁建设过程中,有很多项目是需要赶工期的,有时候整个土建还没有完成,信息化设备就进场了。机器里面积了一层土,连芯片上面的字都看不见了,但Power的机器依然能够稳定运行,而且是在高盐、高蚀,高粉末粉尘的环境中。这样高品质的机器所经历的硬件设计考验必定也是极端严格的。

由于Power处理的信号都是高速信号,对信号之间的干扰非常敏感,为了保证高速信号在CPU、内存、I/O、加速器之间传递的稳定性,所有与高速信号走线层相邻的平面层都是地平面,以此更好的隔绝电子噪音造成的信号串扰。在板机设计时,K1 Power采用了40层混压主板设计,做到每两层信号之间都有一个D层,并且每一片主板都通过了IBM标准苛刻的热力冲击测试,实现100%可靠出货。

散热方面,K1 Power遵循“Less power, Less failure”的原则,在设计时就选用了低功耗的器件,提升零件可靠性,例如使用铟金属片导热材质而不是导热膏,使得导热效率提升近10倍,且长期有效。同时,还借助动态分区散热控制技术,让各发热区域独立风扇转速控制,提高散热利用率,保障CPU等元器件性能稳定发挥。

深入到系统底层,K1 Power在挑选元器件和部件选型时有着更高的标准。例如使用的抗硫化电阻能够在110度极限环境测试条件下较传统电阻使用寿命高4倍以上,设计寿命远超7年;铝制框设计的风扇增加了自重让系统减震效果更好,进而提升了系统性能和运行可靠性,设计寿命达到22年;稳定的自身散热系统不仅能提升导热效率,还可以在硫化环境下能避免老化。

为什么Power的研发周期很长?有很大一部分原因是做了大量的仿真工作,将潜在风险提前消除。拿结构仿真来说,其包括结构应力静态分析,振动及冲击结构动态分析,可有效控制结构可靠性设计风险;再如散热仿真,通过建立精度更高、粒度更细的散热仿真模型,可提高散热仿真的效率,降低服务器的散热与能耗,提升整机可靠性;而电信号仿真,则通过建立高精度信号仿真,保障了Power产品信号传输速率,确保信号传输质量和抗干扰能力。

在仿真之后的检测和测试环节,K1 Power的每一台机器都会经过覆盖率100%的功能测试,高端机型测试大项共计660多项,测试老化时间超过48小时,并且经过严格的Corner-test,确保每台服务器都能够在极限电压和动态频率下稳定工作。无论是检验覆盖率还是测试强度,均比x86服务器高出不少。例如在PCB热冲击测试中,x86服务器对PCB的热冲击测试是缓慢升温,然后再下去,而Power则是急剧升温,维持一段时间再下去,测试标准更为严格。

定制能力决定与众不同

可以说,IPS对Power的定制化开发能力,让后者更上了一层台阶。从安全性来看,IPS在部件层通过自主研发确保了系统更加稳定,对所有的部件均有安全认证机制,类似于可信计算的方式使得Secure Boot引导时,如果操作者的指纹信息没有在TPM芯片内录入,就无法进行操作,新更换的部件在没有经过认证前,也是无法安装上运行的。在固件层面,经过检验的固件信息贴片于芯片内部,只有在工厂模式中才能写入,用户模式则无法进行修改。AIX操作系统安全加固模块(K1 Power SSR)、国产可信计算模块、符合商用密码证书的外置硬件安全模块(HSM)、自研的可信操作系统KUX……都是IPS为客户保驾护航的独门绝技。

从整合能力来看,IPS的技术团队一直在思考如何结合x86的技术理念,拓展Power和OpenPOWER的产品边界。例如,IPS为某客户在两颗OpenPOWER测试时,曾被要求把Power做到600瓦,于是在设计时把x86的整套固件包括电源控制和热管理系统都移植到Power平台,满足了客户需求;再如,IPS把IBM原来的Call Home功能、机器管理系统等都针对本地服务进行了自主设计;在模块上,把TPM“改成了”PCM,符合了中国市场的标准。

由这种整合能力更进一步,即是浪潮成功的JDM模式——通过定制化生产交付的敏捷创新模式,这无疑更加适应互联网时代的需求,也是IPS开拓新兴市场的巨大优势。尹宏伟认为,互联网客户的快速需求使得厂商没有时间花费半年去测试产品,定制化可以更多地集成浪潮现有的产品或者架构,对重点需求进行局部开发,快速做出一类Power服务器来响应用户。对于云计算、AI这类新兴的资源部署方式和技术应用,IPS也有着相应的解决方案,可让关键数据库运行在云架构上,根据客户需求做动态调整,而Power在I/O能力、内存通信带宽、芯片互联等方面的优势,则为用户提供了x86之外的互补甚至是更好的选择。

综上所述,IPS凭借浪潮20多年在高端小型机上的成功经验,为K1 Power的成功打下了坚实的基础,并将这一优势继续发扬光大。自2018年5月2日正式运营以来,IPS以其过硬的产品品质、贴近客户的需求定制,以及深厚的自主研发能力快速占据了中国Unix市场,为Power打上了IPS的印记。K1 Power,不仅向x86客户证明了什么是物有所值,更为Power生态的发展之路描绘出了一个绚烂多彩的未来。