如何进行数据中心预防性维护

维护计划

既然数据中心和IT管理人员们一直都在积极努力的避免因数据中心断电带来的高贵的企业损失,那么年底则可能是一个很好的时机来充分的排查数据中心的基础设施的服务战略,执行必要的维护。在许多企业,IT基础设施已演变成一个相互依存的,重要业务网络,包括数据、应用程序、存储设备、服务器和网络。在沿网络的任何一点的电力故障都有可能影响到整个操作,给关键业务带来严重后果。

在数据中心进行积极的服务和维护,可以帮助数据中心管理人员实现关键基础设施可用性、容量和效率的最大化。定期执行预防性维护可以显著减少断电停机的可能性。

电力设备维修

关键电源设备的定期维护应包括:

完整的视觉设备检查。这应该包括子组件、线束、电缆接触、电缆和主要组成部分。

目测检查所有断路器,包括温度计数、连接和相关控制器。

检查空气过滤器的洁净程度。

检查交流和直流电源,电容器是否肿胀/或泄漏。

记录所有的电压和电流的仪表、控制柜模块或系统控制柜的读数。

测量并记录谐波过滤器/陷波器的电流。

根据系统规格需要检查和记录所有的电子设备。

根据需要安装或执行任何工程现场更改通告(FCN)。

确定并记录所有低压电力供应水平。

计算并记录耦合输入电压和电流。

在这些测试服务结束后,执行系统运营测试,包括单元转移和电池放电。除了关键任务的电源和配电设备,所有机械系统需要进行预防性维修,以确保最佳的性能。

散热产品服务

散热模块有些移动部件会最终磨损。维护这些设备的目的是使这些组件尽可能延长使用寿命,执行其最初的设计的运行参数,并在他们报废之前及时的更换部件。这对于停机将对业务带来灾难性影响的当今数据中心环境,尤其显得重要。

维护任务因设备的不同而产生差异。应与当地的授权服务代表协作,并要求他们提供设备适用的维护任务的完整列表,征询他们的用户手册意见。

常见的冷却基础设施的预防性维护工作应包括:

检查和更换空气过滤器。堵塞的空气过滤器会减少气流达到系统,增加风机驱动系统的负荷。这可能会降低系统的散热性能,带来更高的运营成本,减少风机驱动系统部件的使用寿命,提升数据中心经营设备的温度。

检查和维修风机驱动系统。风机皮带、轴承、电机和车轮的磨损或损坏可能会导致气流损失或散热性能降低。

蒸汽发电和红外加湿器。加湿器可能连接泄漏的阀门和软管,排水渠可能随着时间的推移堵塞。红外加湿器灯泡可能会烧坏。应定期检查这些组件。

冷凝水排水渠及泵检查。确认合适的泵功能并验证水渠是否堵塞。显然,下水道堵塞和传感器失败都会造成泛溢。

检查和清理再热元素,排查和加强配套硬件。

检查压缩机的油位,并检查是否泄漏。压缩机运行过多或过少的油会使使用寿命降低。始终使用相同类型的OEM提供的油料。

蒸发器线圈应定期检查,以确认他们是否干净并且无碎片。正如你可能想象的,肮脏的线圈会降低散热效率。

冷凝器线圈应定期检查,以确认他们是否干净并且无碎片。电机应严密、轴承应不受约束。

为了减少相关的故障,我们推荐进行对技术人员进行全面维修方案和OEM培训。当正确实施,维护方案,确保数据中心设备最大的可靠性,提供系统性的检查,可有效进行初始故障检测和校正,无论这些故障发生或发展成重大缺陷,都可能导致代价高昂的停机。典型的预防性维护包括检查、测试、测量、调整、更换零件和内务管理措施。

艾默生网络能源关于预防性维护(PM)对UPS可靠性的影响研究表明,平均故障间隔时间(MTBF)为单位,每年至少两次预防性维修服务比没有预防维护服务的UPS优23倍。根据这项研究,由训练有素的工程师进行额外的访问的可靠性继续稳步增加。

该模型的结果如下图所示,它描绘了预期的MTBF数据投影到每年六次预防性维护,并将数学模型纳入了现实世界的数据得出的结果。“没有进行预防性维护”的一组的MTBF大大高于签署了紧急维护服务合同的。MTBF随着每年进行从零到六次的预防性维护而大幅度提高。

我们推荐每年至少进行两次预防性维护,但也许需要进行一些额外的维护。根据特定的应用程序停机时间成本,高投资回报率,可以实现在许多情况下增加预防性维护的频率。

一个正式的维护服务战略,包括定期的预防性维护,将增加您UPS、PDU和电池的可用性和可靠性。但是应该指出,这只是第一步。您还必须保护您的整个电力基础设施:从服务入口开关到机架安装,以确保和维持关键业务的连续性。