探秘K1 Power:如何打造一台坚若磐石的高性能小型机?

熟悉服务器领域的朋友,必然对浪潮K1小型机或多或少有所了解。在当年关键业务主机市场寡头垄断的格局下,浪潮400多位工程师耗费4年时间,于2010年成功研制出了K1小型机,为市场注入一股新的血液。使得中国成为除美国、日本之外全球第三个具备关键应用主机研制能力的国家,浪潮也成为全球第五家具备关键应用主机研制能力的企业。

  经过多年的发展,K1小型机获得了市场的广泛接纳与认可,受到来自金融、交通、政务、能源、医疗等众多关键行业客户的青睐。与此同时,K1家族产品也不断升级迭代,持续以强劲性能与灵活可靠的特性,支撑其客户关键业务应用的高效平稳运行。

  而随着2018年浪潮与IBM的合资公司——浪潮商用机器的成立,K1的发展路线图中更是出现了Power的身影。于是,国产关键业务主机的先行者K1,进入了一个新的发展阶段。浪潮K1小型机领先的核心技术与系统设计理念,再加上Power处理器强大的性能表现,浪潮商用机器K1 Power系列服务器由此诞生。

浪潮商用机器有限公司副总经理黄家明

  据浪潮商用机器有限公司副总经理黄家明介绍,浪潮商用机器分别在北京、济南两地建立了Power系统研发实验室,都配备了专业的电子设计自动化工具(EDA)。K1 Power研发团队目前有上百位核心人员,均来自于浪潮K1小型机研发团队,拥有10年以上高端服务器设计经验,是目前国内高端服务器研发领域最优秀的团队,具备从系统原理到主板PCB设计的全流程设计能力。此外,实验室还配备了顶级硬件研发测试平台,以快速诊断问题,保障产品的高可靠性。

  那么,K1 Power服务器究竟是怎样炼成的?其卓越的性能与可靠性背后是哪些关键技术在做支撑?在有幸参加了浪潮商用机器“探秘K1 Power研发之旅”活动之后,笔者终于对此有了一个大体的了解,下面就一一为大家揭秘。

  高速内核——POWER9带来卓越的性能表现

  服务器的性能表现自然取决于CPU。与X86处理器相比,最新的POWER9处理器具有显著的性能优势,可以说就是为应对数据密集型工作负载、满足严苛的高性能计算需求而生。

  上图是Power 9与X86处理器的横向对比,我们可以看到,从主频到带宽,POWER9均能够提供两倍以上的性能提升。与绝大多数X86处理器不同,POWER9支持最新的PCIe 4.0以及NVLink2.0协议,以此带来极大的内存与I/O带宽优势,加速CPU与GPU间的通信,满足更高的应用负载运行要求。

  像K1 Power这样的中高端服务器,通常用于承载组织的核心数据库应用,因此在判断其性能优劣时,对数据库负载的支持是一个很好的依据。据浪潮商用机器有限公司产品研发部副总经理尹宏伟介绍,在实际测试中,K1 Power服务器对于EDB、DB2和Oracle、SAP等商业数据库以及MySQL等开源数据库,都能带来相对X86服务器两倍以上的性能提升。

  此外还有非常值得一提的一点,是K1 Power对计算资源的高利用率。由于K1 Power服务器具备强大的性能,因此可以在单台服务器中以分区的形式满足更多应用负载——作为对比,x86服务器往往是一台服务器运行一个应用,通过部署更多服务器来运行更多应用。因此在实际运行时,K1 Power服务器的整机硬件负载效率更高,资源利用率更高。

  极致可靠——全栈可靠性设计理念,保障业务持续运行

  对于K1 Power服务器而言,在提供优越性能的前提下,保证整个系统的高度可靠是一个同样重要的课题。K1 Power服务器系统的可靠性设计遵循高RAS(可靠性Reliability、可用性Availability、可服务性Serviceability)特性理念,此外还加入了独立的服务处理器FSP,全方位侦测潜在故障,帮助及时修复,确保系统持续平稳运行。

  K1 Power系统全堆栈可靠性设计包括:冗余、捕获、重试、隔离、修复。针对每一个环节,都通过领先的技术保证有效性,从而在整体上提供高达99.9994%的可靠性。

  ·冗余。K1 Power服务器通过冗余设计保证系统持续运行:1、在硬件上,包括DRAM内存芯片、CPU与内存/CPU与CPU之间的链路等都是冗余的;2、每个系统控制单元中有两个冗余的时钟卡,当任意一个时钟卡出现故障,另一组时钟可以无缝切换;3、电源时序控制信号如Enable,Power good等做冗余设计,能实现更加可靠的电源开关控制;4、电源稳压模块(VRM)实现N+2冗余设计,以减少单点故障率;5、K1 Power系统关键部件如电源、 SMP线缆、时钟、FSP模块、I/O控制器等全部冗余设计。

  ·捕获。K1 Power服务器装载了多达16万个故障检查器,可以实时监测系统运行状态。此外,还采用首错数据捕获(FFDC,First Failure Data Capture)的机制,在设计阶段就进行错误模拟,在实际运行阶段进行错误捕获。而发生错误之后,还可以在维护阶段进行错误重现。将所有可能产生的错误提前做到预警、备案和处理。

  ·重试。通过校验与重试设计,让软错误不影响整体系统运行。除了内存或者缓存本身的纠错机制外,K1 Power服务器还设计了重试机制,判断某个故障是不是偶发性的。其中,内存的控制器或指令集的重试机制,是Power服务器特有的。

  ·隔离与修复。在发生故障时,K1 Power服务器可实现细粒度的隔离,如单个CPU核心隔离,逻辑内存块隔离。x86服务器CPU内部某一个区域或某一个功能发生故障时,往往整个CPU就会故障。Power处理器可以将发生故障的核心单独隔离,同时处理器能继续工作,从而实现在线修复/更换。

  钢铁之躯——高品质工艺,更严苛的标准与测试

  服务器的高可靠性的实现不止依靠系统设计,同样还取决于优秀的制造工艺。K1 Power服务器采用了严格的元器件和部件选型标准,并在极限环境下进行严苛的测试,力求打造高品质平台。从物理层面上,进一步提升系统整体可靠性。

  由于POWER处理器都是高速信号,因此为了保证信号在CPU、内存、I/O以及加速器之间传递的稳定性,K1 Power服务器采用了高达40层的高复杂主板设计,所有与高速信号走线层相邻的平面层都是地平面,保证高速信号良好的完整性。此外,主板也需经过更严苛的板机测试,以保证100%可靠出货。

  在散热方面,K1 Power服务器采用了更高效的散热设计和散热管理。其导热材质选用铟金属片,将导热效率提升了近10倍。而且铟金属片相对于传统x86采用的导热膏来说,导热稳定性更强,保障长期使用。K1 Power服务器散热管理采用了动态分区散热控制技术。这种动态、智能化的散热控制,既提高了散热的利用效率,也保障了CPU等元器件的寿命以及性能稳定。

  K1 Power服务器采用了高标准的检测,生产测试功能覆盖率100%,高端机型测试大项共计660多项,同时测试老化时间达到48小时以上。通过自动化的测试系统,确保每台机器的检测的有效性。基于严苛的测试环境,确保每台服务器都能够在极限电压和动态频率下稳定工作,保证品质达到业界最高水准。

  不惧威胁——自下而上的安全加固,保护业务数据

  在关键业务场景下,系统安全性是至关重要的。K1 Power服务器在系统安全方面也进行了充分的考虑,支持多种国际标准和中国政府认证。与此同时,并不仅仅依赖于操作系统层面的安全性,还会在更底层的技术层面进行加固。

  一个非常具有代表性的举措是,K1 Power服务器所有部件的维护都需要通过认证,新更换的部件在没有认证之前是无法运行的,这样可以有效避免非认证部件导致的可靠性问题,保证整个系统的一致性。

  在操作系统方面,包括浪潮KUX在内的多家本地安全可信操作系统厂商认证了Power服务器平台,并取得了产品兼容性认证证书。另外,通过浪潮具有自主知识产权的操作系统安全加固模块SSR(国家等保三级认证),进一步保障系统安全无虞。

  最后

  不难看出,继承了浪潮K1小型机核心技术积累和自主创新能力,再融合POWER处理器出色计算能力的K1 Power服务器,既立足于实际场景需求,实现更精细化的设计;同时在生产的每一个环节都以高标准、高水准严格要求。这样的服务器平台,无疑能够成为支撑关键业务应用持续稳定运行的可靠基石。

来源:IT168