数据中心改造应从六处着手

最近,有些经常在数据中心现场工作的工程师们,对于数据中心(DC)所采用的技术是否会继续获得提高产生了很大的怀疑。本文所指的对数据中心的“改变”,实际上就是指能够保证更恰当的模式应用到数据中心。尽管工程师们都有自己的工作方式,但这种“改变”无论是对于不定期到数据中心现场工作,还是对于有固定日程安排的现场工作情形都是具有现实意义的。

当然,我们现在会利用远程模式来处理很多方面的工作。不过,实际项目中还是会有不少通过远程桌面操作无法完成的工作。比如,经常会涉及到更换硬件、对线路情况进行目视检查、重新安装刀片服务器、插拔调整设备组件以及偶尔会碰到让人琢磨不透的操作系统安装过程等方面的情况。尽管大多数工程人员并不介意前往数据中心亲自进行现场处理,但有时依然还是会产生出:这些所谓的“标准”组件究竟是什么人设计的,他们在设计时有没有考虑到人类的手、手指以及眼睛是存在局限性之类的想法。

经过对这些问题的认真思考,本文给出了相应的解决方案供读者参考。这里所谓的“标准”组件,指的是19英寸机架、热通道与冷通道、服务器进出口、线缆以及线缆管理器、电源接口、KVM系统、照明以及几乎所有其它方面的物理架构。按照以上的观察,如果需要从人性化角度来对设计进行评估的话,所有这一切几乎都需要推倒重来。唯一不需要改进的部分可能就是非常不起眼的底板。该架构的工作看起来显得非常出色,但并不能认为底板的合格就代表整个系统在功能方面也同样合格。

为方便起见,本文将所有组件的具体情况都一一罗列出来,并告诉读者可能存在问题的地方以及相应的解决方案。

机架结构

尽管19英寸这一固有标准属于无法进行调整的基础部分,但真的就没有人想过到应该对机架内部结构进行一下调整,让标准架构(1U、2U、4U 等)系统的实际安装工作不再困难无比吗?举例来说,为了实现电源、网络、SAN等线路直接连进机架的目标,我们可以将连接器顺着边角两侧安装。这样的话,我们在打开机柜门时,就再也不用经受无数线路瞬时直接映入眼帘的严峻考验了。由于电线“架子”的限制让连接系统的具体操作变得极为困难,因此,更恰当的改进措施应该是选择插片式连接。

此外,为了让工作人员在工作的时可以看清楚手里正在进行的操作,设计者需要在机柜中安装几盏照明用的LED灯。灯具可以采用冰箱照明模式,即在门打开时直接亮起,关闭时马上熄灭。由于顶灯会导致顶部系统投下阴影,所以并不是合适的选择。为了确保机柜从上到下由内及外的所有部分都可以看清,就应当将照明灯垂直安装在机架前部与后部内侧的边缘位置上。

散热系统

尽管这样的设计理论上确实可以有效发挥作用,但对于现场人员来说,却意味着只能选择呆在热通道或者冷通道中工作。很明显,不论所选择的是哪一边,工作人员的实际感受都不会太好。从某种程度上,空气交换模式的真实效果将远好于空气冷却模式。换句话说,利用流动的空气带走机架所产生的热量才属于更有效的冷却方式。在最初设计的时候,机架就不应该使用效率低下的散热器。它只会导致产生的热量继续存在系统内部以及周围环境中。此外,相比之下,水平方向的风扇要比垂直方向的风扇能够带走更多的热量。

为了让风扇的散热效果更好,还应当缩短风道的长度,以避免风扇只能在一端发挥作用,而另一端不能有效覆盖的情况发生。更通俗的比喻就是,我们应该建立起一条空气“河流”来;这样的话,冷却空气就可以通过风扇源源不断地涌入,而热空气则能够利用风道前往排气扇。

机柜改造

至于机架系统方面,比较实用的设计是一些能够为上部移动提供方便的措施。毕竟,在一台服务器的上方安装另一台系统是一项非常麻烦的工作。由于整个移动过程会非常困难,因此需要耗费大量时间来慢慢地逐步进行调整。这里,首先要做的工作就是快速打开手拧螺丝或插销,将它从机架内部拉出来。接下来,为了可以便于卸下顶盖并进行必要的维护,还不得不将系统拉出到几乎脱离机架的程度。并且,在从机柜前端拉出服务器后,还要绕到后面才能断开电源。如果机架在背面或者旁边设置有快速通/断模块,系统在机架中的移动就可以变得更方便,从而实现移动一次就能够完成所有相关工作的目标。

另外,将所有需要进行更换的部件都调整到硬件设备内部更方便处理的位置,应该是一个可行性的设计?想象一下,如果我们可以从系统前端轻松地移除硬盘的话,将会是一件多么美妙的体验啊。而现在,为了完成这项工作,就需要拔除内存、固态磁盘以及中央处理器这些重重阻碍。

降噪措施

静音风扇已经出现。但遗憾的是,它们并没有得到广泛的普及;但数据中心发出的噪音却是那么的嘈杂,以至于当工作人员之间需要进行交流时必须要大声喊话。就这点而言,我们有理由认为机架与服务器都应该选择使用静音风扇。

安全性

还有哪些地方会比数据中心更安全呢?答案估计就剩下银行或者存在大量现金交易的地方。尽管数据中心内部不会存在现金交易(通常情况下),也还是需要采取一些专业级别的安全措施。

在进入数据中心或者内部工作区域时,工作人员就应当佩戴上一枚工作徽章。它的内部将包含有需要访问设备的实际编号以及相关工作任务的具体描述。这样设置就表示,我们只能打开需要访问的机架。在系统感应到徽章进入工作区域的时候,安置相关系统的对应机架就可以解除锁定。这种做法可以让安全性变得更高,防止系统因为意外事件被篡改、出现中断甚至遭到破坏的情况。

现实世界中,系统名称过于相似、机架位置安放错误以及粗心大意都是导致物理服务器出现意外中断的重要原因。因此,只有部署了恰当到位的安全措施,数据中心才能实现让访问者只针对需要处理的指定系统这一目标。如果徽章中的信息出现错误导致对应位置产生误差,就需要让技术人员对服务器名称以及机架位置进行重新验证。

对于数据中心管理者来说,该模式还可以实时显示出内部活动人员的数量、所处位置、在做的操作以及操作原因等方面的具体信息。而现在,管理者并不能知道哪台系统正在被访问,为什么或者是否有相关工作的授权。通过这种方式,一旦技术人员进入相关维修区,对应的指示灯就会点亮并通知保安与管理者工作正在进行中。所以,相信这将是数据中心向零意外停机目标迈进的重要一步。

硬件审核机制

按照个人看法,为防止需要使用标准计算机硬件的紧急情况出现,所有数据中心都应该为技术人员准备必要的应急用品。技术人员还应当对手机、笔记本电脑、救援车、工具箱以及物理维护所必须的其它设备进行全面登记。所有外部计算设备都不应该容许使用数据中心的内部网络。如果有人违规操作,就将给数据中心的安全性带来巨大风险。众所周知,外部硬件通常是病毒入侵的重要方式,而视频与照片带来的安全风险,以及工具导致设备出现问题都是非常危险并且很难有效控制的因素。

实际上,我们的目标并不是希望数据中心的实际工作变得更困难,而是希望整个操作过程可以变得更加轻松。这也正是上面给出这些解决方案来达到效率最大化的根本所在。举例来说,如果你刚走到数据中心修复系统,而机架旁边正在运行的系统恰巧刚出现了停机故障,后果很可能是其它人会直接把你当做造成这个问题的主因。而通过以上的方案对数据中心进行合理规划,就不会再发生这种令人尴尬的事情了。