APC:在数据中心机房内营造秩序

数据中心专员们可以通过烦扰和开支最小的方式来摆脱机柜杂乱、地板下气流量分布不合标准以及电缆散布的状况。不论数据中心的混乱是否源自于多年的管理不善,也不论被电缆阻塞的数据中心是否已有长期的历史,均存在可实现快速修理和更长期发展变化的解决方案。本文概述了若干种处理混乱现象和消除无序状态之根本原因的新方法。

在许多数据中心中,很容易发现混乱的现象。粗略查看未经规划的数据中心就可以发现很多不良的现象,例如地板砖缺失、大量杂乱的电缆,以及最初级的局部制冷。幸运的是,要实现数据中心的秩序,可以实施一些解决方案,启动一定的流程,这些解决方案和流程可以是要求革命性的变化,也可以是促进渐进式的变化。

掌握控制权:解决混乱的工具和方法

面对混乱现象的IT管理员可通过负责以下两个领域的工作来解决这些问题:物理基础设施部署和变更管理措施。硬件创新(可实现机柜独立区域的便捷部署)和软件开发(可实现合理的物理基础设施变更管理)是对数

据中心进行成本合理且非破坏性的改造的两个关键因素。

虚构的物理基础设施部署

由于数据中心正在逐步向可伸缩的模块化机柜式解决方案发展,对混乱问题可以采用一个"补救"办法。通过部署包括UPS电源、配电、监测、电缆布设以及气流解决方案的机柜式系统,可在合理的成本下很容易地采用一种集成化的方式。

机柜已经发展到可以容纳更高密度的IT设备。选择标准的机柜规格是重要的第一步。关于涉及机柜选择依据的信息,请参见APC白皮书72号,"在高密度机箱内实现高效空间组织的5个基本步骤"。

新的一排机柜可被设置为独立的"区域",它位于数据中心内,但其运行独立于现有的基础设施(见图1)。随着现有混乱的基础设施开始以逐机柜或逐排的方式逐步淘汰,这些有组织的区域可以进行扩展。利用安装集成式机柜系统的机会,随着新设备逐步淘汰旧设备,混乱的增长可以转换为受控制的增长。

变更管理行为的变化

变更控制是IT管理员掌控其命运的系统性方法。传统的IT变更控制的特征是具有在IT环境中发起变更的正式请求,其后是对所提变更的正式审核,再后是对预期结果的分析,如果变更没有按计划出现,则还需要阐明撤消计划。

然而在这种方法中经常被忽略的是引导IT与物理基础设施演进的变更控制流程的作用。毕竟IT基础设施的故障影响的是一个应用程序或系统,而物理基础设施(电源、制冷)的故障则可能潜在影响到所有应用程序和系统。

通过采用自动化的变更控制流程,IT管理员可以从系统角度对数据中心的演进方式施加积极的影响。通过涵盖数据中心环境的设施或物理基础设施一方,IT管理员也可以使数据中心的演进脱离产生组织混乱的老路。

可靠的厂商管理也是避免混乱的一个重要工具。向第三方采购设施和系统的趋势模糊了性能质量的责任问题。希望逐步改变混乱状况的IT管理员应坚持严格遵守标准的数据中心规范,包括变更控制流程,这些应该是直接指挥系统之外任何服务合同的组成部分。只有通过让所有数据中心人员以相同的绩效标准工作,方可实现从混乱到秩序的演进。

混乱的原因

混乱的首要原因是无计划、无控制的增长。随着企业引入新的推动增长的流程,IT方面通过构建和支持新的应用来予以响应。IT设备与数据中心合为一体,以支持应用,而新系统则在忙乱、有期限限制的环境中部署。

新的服务器和应用程序可以在几天内被获取并投入使用。然而,附带的物理基础设施(活动地板、电缆、机柜、制冷、UPS、PDU)的安装则可能需要数月时间。在时间的压力下,设备的安装经常没有考虑对数据中心完整性和可靠性的长期影响。

混乱的环境还伴随着IT人员和供应商人员的转岗。这种转岗会打断任何可能随时间发展的制度性学习,由此妨碍秩序和组织的形成。最终,典型的结果是不断添加服务器以及与之伴随的通信和电源电缆,而不进行任何有秩序的更换或重用流程。

如果遗留的电缆问题是数据中心内混乱的根本原因,而且电缆问题出现在活动地板以下,则明显的解决方案就是安装架空电缆和配电系统,以支持IT设备,见图4。由于新设备采用架空方式获得供电和电缆连接,地板下方的电缆和电源可以弃置于原处,直至可以安全拆除而风险最小时为止。
混乱的影响

气流分布不佳

气流分布不佳会导致服务器及相关IT设备过热。IT服务器设备通常需要每分钟150-200立方英尺的气流量。这种气流量将排出足够的热量,使排风温度升高15-20°F(8.3-11°C)。如果不发生这种热传递,设备可能会停机、过早失效,或者使正被处理的数据破坏。

电源系统容量管理不佳

配电电缆具有确定的容量,使得其在电路保护器(熔断器或断路器)断开之前可以承担的负载量受到限制。不加控制的电路分配会在超出电路极限时导致停机。当有调节的电源(如UPS系统)没有得到良好的管理和维护时,也会出现停机。

自动化的容量管理系统(见图2)可以自动分配并跟踪单相和三相设备的耗用功率,确保电源系统上的全部三相承担平衡的负载。此外,系统还可绘制系统的功率路径图,显示物理系统关系和依存性。

通信混乱

不良的规划会在电缆系统、接线板和设备互连达到容量极限时对通信产生约束。随着电缆技术的发展,由于遗留电缆被弃用,用作系统间连接的电缆所经的路径逐渐达到饱和。当通信光缆与铜缆以随机方式混合布设时,这种饱和会产生深刻的影响。光纤容易断裂,而且其所传输的数据量很大,使得线缆出现问题时造成的影响更大。不影响数据中心运行就无法解决线缆问题,这正是混乱得以扩散的主要原因。如果潜在影响是停机或中断通信,IT管理员就不愿意去除空置或不使用的电缆。

旨在消除混乱的快速修理

要启动在数据中心内建立秩序的过程,可以采取许多措施:

以标准方式组织电源和数据电缆(详情参见APC白皮书72号,"2在高密度机箱内实现高效空间组织的5个基本步骤")

对电源电缆贴上标签,在一端示出特定电缆来源,在另一端示出所指向的负载
对特定的负载分配特定的电源电缆,并以文档记录电缆分配情况

拆除级别较低的电源板,在机柜背面部署垂直PDU,以分配可被监测的功率
更换损坏或缺失的天花板 – 这将提高气流的效率

审核穿孔活动地板砖的位置。拆除损坏的砖,并更换处于冷通道内的所有砖。

对地板砖上对经活动地板引出的电缆进行支撑的任何电缆切口进行密封

以逐渐演变作为长期的解决方案

随着数据中心的继续演变发展,存在着利用变更来营造秩序以取代混乱的机会。IT管理员如果面临遗留的混乱问题,不管问题是沿袭还是自身所造成,他都必须认识到这种不好的状况是在很长时间内形成的。幸运的是,导致形成混乱的因素也同样给出了解决问题的办法。

随着业务要求推动新的解决方案和设备产生,它们提供了向更为稳定、更为可靠的环境移转的机会。在对支持任务关键环境的数据中心基础设施方法和设备进行选择时,通过实施控制,IT管理员可以借助自然的设备更换和升级流程来解决遗留的混乱问题。
结论

面临混乱数据中心管理问题的IT专员现在可以有一些备选的解决方案。当今的许多技术提供了涵盖电源、供风、电缆布设及管理的集成式机柜式数据中心解决方案,可以在使停机风险最小的条件下实现从混乱数据中心到有管理的数据中心的转变。其关键在于利用IT系统和通信平台的自然演进。

可能需要一个将传统的活动地板环境转为废弃状态的转移范例,而这一点采用当今的技术很容易实现。IT管理员必须对行为方法进行标准化,即建立一套对IT基础设施与物理基础设施均进行管理的变更控制系统。只有通过对这些工具和方法的有效使用,方可从混乱演进到有秩序。

欲了解更多APC相关内容,请登录www.apc.com/cn,输入编号42842Y

或点击下面连接,准确填写相关信息,有机会赢取8G iPod touch!

https://www.apcc.com/tools/registration/promo/RegisterCustomer.cfc?ISOcountrycode=cn&method=getPromo&keycode=42842Y