如何打造高可靠性的信息化数据中心

数据集中、SAN、云计算、10/40/100G运用正引领我们整整的高带宽时代,数据中心的高速物理链路也遭遇自综合布线系统诞生以来空前的质量要求。即便是有着丰富经验的大型集成商、安装商和供应商,习惯了以往布线方式和检测方式的他们也正开始经历一番“磨难”。特别是高速、高密度光纤链路的使用带来了一些设计、安装、验收、维护等方面的深刻变化。本文探讨如何打造高可靠性的数据中心,并着重从测试的角度提供实现靠可靠性的保障方法,使得因布线问题造成的系统资源浪费、低效运行、停运等造成的损失减到最小。

高可靠性的数据中心布线系统一方面意味着基本上不会出问题,即便出了问题也一定是应用系统软硬件的问题,但实际情形却并不乐观。CTEAM 2010年提供的数据表明,我国1000点以上的工程检测报告的可信度在84%左右,不包括未进行光纤二级测试(后述)的比例。加上此因素后则可信度在 20%以下。另一方面,如果布线系统出现问题则需要尽快发现、定位并尽快解决。但在云计算系统中,低效的布线链路很难被即时发现,因为它会被系统误认为是服务器资源的退化,进而分配资源给其它服务器承担计算工作,结果造成云系统中可能积累大量被错判的低效服务器,且这种误判会持续相当长的时间,浪费大量计算资源。

那么,如何才能打造一个高可靠性的数据中心信息布线系统呢?

打造高可靠的数据中心信息化布线系统始于规划设计阶段。除了选择品质过硬的产品和能支持灵活扩容的方案,设计时预留适度备份(TIA942A要求4 级的物理链路达到1:1备份)、采用电子(追踪)标签、采用“结构化可重敷管线槽系统”、注意电缆系统散热处理、接地处理等措施可以大大减少系统可靠性降低的风险。设计任务书中应标明拟采用何种方式、标准等进行验收检测、选型测试、进货测试,在运行维护阶段如何采取措施保证标签准确即时更新、保证定期检测维护的周期和内容得以具体落实,也是提高可靠性的有效手段。具体时间中,任务书的效力在逐渐递减,这是需要解决的一个问题。

如果在施工管理阶段实施进场测试、入库测试、随工测试、监理测试等流程控制,验收阶段保证普遍实施光纤二级测试、铜缆外部串扰测试,使用维护阶段保证实施开通测试、维护后恢复再认证测试、扩容升级拓扑优化调整后再认证测试,则系统可靠性可达高指标。

甲方如何选择并委托有资质和经验的监理方、第三方检测机构来实施上述可靠性方案。目前在高可靠性特别是高密度数据中心布线系统工程中这还是一个尚未解决的难题。甲方如何就后续使用维护阶段获得持续的可靠性保障所需的人员、经验、工具也基本上处于自我摸索阶段。

其实,如何实施高可靠性项目已经是一套比较成熟的理论和方法,以下部分就如何通过检测来保障数据中心信息化布线系统的高可靠性进行介绍,以期缩短这种“摸着石头过河”不成熟期和高损失期。

如何避免开通应用时链路误码率高的问题

【案例】一家网络即时通讯公司租用电信机房作为数据中心,数十条万兆链路开通时工作不稳定,端口总有错误,且时常重启,由于光纤长度70~100米,损耗只有大约2.5dB,故怀疑是10G光模块问题,更换模块和交换机主机后问题依旧。后经过高解析度OTDR测试发现是中间误用了一段35米左右的OM1光纤。更换OM3光纤后系统回复正常。

由于损耗测试合格,链路长度不超差,故传统的损耗测试(一级测试,Tier 1)在此不能发挥作用,必须引入二级测试(在一级测试的基础上增加OTDR测试),才能检测是否有异质光纤、连接点/熔接点损耗超标、连接点/气泡/裂纹 /捆扎过紧是否有过强反射。为了识别1米跳线,OTDR最好使用事件分辨率指标短于1米的。

【案例】电缆光缆混合系统,万兆采用电缆,少量40G采用高密度OM4光纤系统。设备开通时误码率很高,超过 50%的链路不能正常工作。开通前对电缆链路进行过永久链路的验收检测,但由于高密度40G设备使用了预端接的MPO光缆进行连接,故没有进行检测,后来发现万兆问题是因为使用的Cat6A跳线有质量问题,串扰值非常高,MPO光纤因为安装时不便清洁就只用气囊吹了几下,造成插座内端面静电灰尘没有清理干净,部分光纤芯损耗超过3.5dB,加上MPO跳线安装前直接拆封没有进行清洁就插入设备,端面反射达到-17dB,误码率升高。

电缆跳线是最容易忽略质量的地方,但却是最容易处理好的地方。Cat6/6A一般不允许用户自制跳线,原因是成品率不高。永久链路(PL)在验收时一般会做检测,如果开通时只做通道测试(PC),则可能因为跳线水晶头不合格但通道检测合格致使链路误码率上升。数据中心中应该将准备投入使用的跳线都做预检(PC),以保障接入链路后100%能投入正常使用,这就是著名的不等式:PL+PC>CH。

由于跳线参数离散性很大,跳线测试需要居中性的Cat6A跳线适配器进行检测,以确保任何合格的PL链路都能接入使用。

由于长度一般很短,光纤跳线测试需要使用高解析度的OTDR来测试,以便区分跳线两端的反射(ORL)是否过高。测试时必须在跳线两端加上一段发射补偿光纤和接收补偿光纤,以避开测试死区和仿真端接情形。高速光纤跳线测试重点关注回波损耗参数(ORL),永远也不要认为刚开封的跳线就一定是清洁无污损的。这对保证整条链路的高可靠性重要。

由于MPO光纤将12芯光纤预端接在一个MPO插头/插座之中,普通的光纤测试仪不能直接进行测试,致使部分用户放弃现场检测,这是严重降低高可靠性的“不良行为”。其实解决方法很简单,实施此类一般需要使用扇形跳线与光源/光功率计或OTDR相连进行测试。或者直接使用MPO测试插座的测试仪进行测试。

如何避免验收测试不合格比例搞的问题

验收时发现大批量不合格是一件令所有参与各方都很尴尬的事情,最主要的原因有两个:一是产品选择不当,二是施工质量/工艺太差。第一个问题可以通过监测试、入库测试、进场测试等手段完美地解决。第二个问题可以通过随工测试、监理测试等手段及早发现并即时解决。

T2测试如何帮助保证高速链路的质量

T2测试(Tier 2)就是光纤二级测试,是在损耗测试的基础上增加OTDR测试,并判断是否有影响链路性能的“事件”。

低速链路不需要T2测试。这里1G速率是一个转折点,从1G开始特别是进入10G、40/100G高速链接后对光信号的色散和损耗都比较敏感。由于色散的测试现场存在实施困难和精确度问题,目前建议采用变通的方式来进行测试。TIA568C中增加了使用OTDR对连接点、熔接点的损耗进行检测,并提出了最低值极限要求。在通用光纤标准中要求中增加了光回波损耗测试的要求(分为-35/-40/-55dB三档,对应不同的连接器类型要求)。需要特别指出的是,由于数据中心光纤使用较短,跳接较多,一般的OTDR不适用与这种测试场合,而要求使用事件死区短于1米的OTDR,这样才能检测可能被使用的1 米跳线是否存在问题。

高密度短链路测试的特殊问题

如上所述,高密度MPO光纤的损耗测试需要使用扇形测试跳线(fan-out cord),或者直接使用具备MPO测试插座的测试仪进行测试。

跳线级测试:光纤、电缆

光纤链路误码率高最大的原因是光纤端面污损

端面污损占据光纤链路检测不合格比例90%以上。由于面板/配架插座不注意防尘,引起损耗增加。由于跳线多位凸出设计,非常容易收到灰尘特别是指纹的污染。高速光纤对损耗和反射非常敏感,因此高速光纤与低速光纤安装时的习惯要求差异大,接入前必须坚持端面检查和清洁流程。此时在低速光纤安装中长期积累的一些“不良经验”不再适用,比如默认新开封的光条线一定干净无污损的、使用一些喷雾自动清洁剂、使用气囊代替用清洁剂进行清洁、使用带纤维残留的清洁布/棉签等。

定期检测、视情检测、再认证与高可靠性

高可靠性的最基本要求就是a)不出或少出问题(防止问题),b)除了问题能即时解决(快速解决问题)。由于布线系统经常存在增删、扩容、拓扑结构改变、速度升级等必要活动,定期检测和视情检测向结合是防止信息化问题发生的最佳方法。一般建议1.5-2年需对布线系统进行轮测,而对于变动、开通、升级、扩容、故障后恢复等活动则进行再认证、视情检测相结合的方法实施检测。

【小结】

高密度数据中心信息化布线系统对可靠性要求非常高。这是保证系统运行效率、减少低效运行、停运、故障持续时间带来的巨额损失的最基础指标。高可靠性从规划设计阶段就要开始质量保障流程的落实,进而在选型采购、安装调试、检测验收、使用维护个阶段引入靠可靠性保障措施。检测方法、时机、手段在各阶段中起着最核心的作用。