华为服务器设计的艺术
[导读]故障率低于业界15%,阿里质量大奖与腾讯最佳供应商荣耀加持,通过FMEA、HALT与EMC等高大上测试的检验,这一切描述的是华为服务器。凭借创新
故障率低于业界15%,阿里质量大奖与腾讯最佳供应商荣耀加持,通过FMEA、HALT与EMC等高大上测试的检验,这一切描述的是华为服务器。
凭借创新、可靠、安全、开放四大原则,华为服务器秉持“持续创新 让计算变简单”的理念,连续7个季度出货量排在全球第四,覆盖金融、政府、互联网服务提供商与大企业。
华为服务器拥有稳定可靠、绿色节能、性能领先、持续创新和基于业务优化的特点,为企业关键业务保驾护航。这是如何做到的呢?
设计:精益求精
在华为看来,高质量、高可靠性的服务器是设计出来的。例如获得挑剔的日本客户认可的华为FusionServer RH8100 V3关键业务服务器,凭借创新的高可靠性设计、灵活扩展能力和卓越的计算性能,在Interop展上赢得了“BestofShowAward”大奖。它采用RAS2.0技术,包括电源、风扇等关键模块的热插拔技术、全冗余的硬件和软件设计架构,以及提升管理维护效率的“黑匣子”等。
华为FusionServer RH8100 V3
同时,使用高可靠硬盘设计,实现服务器内存和硬盘的自动装配,减少内存、硬盘人工装配引发问题的几率。再如华为刀片服务器E9000采用无源背板设计,进一步提升可靠性,避免单点故障,同时使用独立风道设计,耐40度高温,有效地保障了企业用户关键业务的连续性。
材料:精挑细选
服务器的用材决定着服务器的品质。这不仅仅是外表的健美结实,也包括强劲的内涵。
华为每一台服务的材质都采用电信级器件,质量等级高于业界标准。同时,坚持被集成战略,利用EMS(电子制造服务)厂商实现产品设计、代工生产、后勤管理、产品维修等服务。
为了掌控整个流程,华为实现严密的稽核制度,不定期稽核供应商,并派驻全职驻厂稽核人员。实时监控EMS厂质量数据,如质量数据异常会及时处理。特别是在硬盘与内存这种容易出错的领域,华为会将报错较多的问题让供应商进行出厂前测试,逆向推动供应商改进产品质量。
此外,采用器件降频设计。主要实现高频的配件以较低的频率工作,从而达到稳定工作的目的,解决频率过高带来高发热和系统不稳定的问题。主要作用是省电,实现节能减排,还能减少维护工作。
质量:固若金汤
有一个水桶,它是由许多块木板箍成的,盛水量也是由这些木板共同决定。如果其中一块木板很短,则盛水量就被短板所限制,这就是我们所熟知的短板理论。
HALT(highly accelerated life testing,高加速寿命试验)由美国军方延伸出的一种设计质量验证与制造质量验证的试验方法,主要用于产品研发设计阶段,对于暴露产品的潜在缺陷效果明显,是设计工程师提高产品可靠性的重要实验手段。
华为引入HALT测试,利用包括振动、高低温、温度循环、电力开关循环、电压边际及频率边际测试等阶梯应力,高效激发产品可靠性潜在缺陷,识别产品的短木板,将设计问题在研发阶段暴露,发现产品缺陷、操作设计边际以及结构强度极限的方法,涉及到线路设计、工艺、元部件与结构等方面。它将原来需要花费一年的新产品可靠性实验缩短到一周,所发现的产品问题与客户应用后所发现的问题一致,是华为新产品上市前所必需通过的验证。
不仅如此,华为还采用FMEA(Failure Mode and Effects Analysis,失效模式与影响分析)这种可靠性设计方法,发现、评价产品或过程中潜在的失效及其后果,找到能够避免或减少潜在失效发生的措施并且不断地完善。能够以低成本对产品或过程进行修改,并找到能够避免或减少这些潜在失效发生的措施。
为此,华为专门成立一个FMEA团队,包括生产总监、工艺工程师、产品工程师、测试工程师、质量工程师、材料采购员以及项目经理,由质量工程师领导该团队。从而搭建相应的失效分析平台,配备适当的分析工具。
当产品在HALT实验中出现故障时,分析并确定产品出现故障的根本原因及影响,优化故障管理能力。对于严重故障,要求避免。对于需要处理的故障,要求能检测并定位到FRU((field-replaceable unit,现场置换单元),让用户或技术员快速轻松地拆下电路板或零件并重新安装,使系统停止运转的时间减少到最小并且使系统可靠性达到最优。
测试:千锤百炼
真金不怕火炼,每一台华为服务器在出厂之前都经历了严酷的测试。涉及部件、整机、性能、兼容、系统等多个环节。展示了华为服务器各个关键部件在各种极端环境下的亮眼表现。
其中,电磁兼容(EMC)是对电子产品在电磁场方面干扰大小(EMI)和抗干扰能力(EMS)的综合评定,是产品质量最重要的指标之一。华为的服务器产品采用超过业界标准的EMC试验,确保服务器产品在共同的电磁环境中能正常工作。
例如,在暗室中模拟自由空间的标准化测试场地,确定受试设备是否满足标准规定的辐射发射与辐射抗扰度限值。同时,模拟自然雷击放电,测试设备在指定试验条件下是否满足标准规定的限制。
通常,服务器出厂前的整机拷机测试为2-4小时,而华为服务器测试为8-24小时;业界普遍采用随机扇区读写测试,华为的拷机测试项目众多,包括执行全盘读、全盘写测试;在内存拷机测试中,只要出现一次ECC报错,产品就不能通过测试;内存出厂前,会做金手指清洗,减少金手指接触不良问题。
流程:尽善尽美
从设计、选材、生产、测试、出厂,华为拥有一套完整的流程监控并保障服务器的质量。例如使用IPD((Integrated Product Development,集成产品开发)理念缩短产品研发周期,提升产品质量,降低成本。与此同时,服务器基于电信设备生产平台,制造起点高,赢在起跑线上。
同时,华为服务器拥有全球专业的检测认证中心GCTC,具备全流程严苛质量管控。任何“风吹雨打、火烧电击、沙尘盐雾、高压低温、冲击跌落、辐射霉菌”等严酷测试,都不能阻挡华为服务器成为品质卓越、质量可靠、令人信赖的产品。