夏季机房,IT经理如何确保安全运维?
硅谷动力 发表于:13年07月19日 13:31 [转载] DOIT.com.cn
据新华社电,近期暴雨侵袭全国,21个省份遭遇洪涝灾害,已致33人死亡、14人失踪。昨日6时,河北省气象台继续发布暴雨蓝色预警,预计承德中南部、唐山、秦皇岛、廊坊等多地区有大雨,局部有暴雨,为防止城市内涝、中小河流洪水和山洪地质灾害,提醒相关部门及广大群众做好防御工作。显然,进入盛夏极端多变性的天气,已向人们拉响了预警。
面对多变性天气,企业IT机房和数据中心同样面临管理、安全等多方面考验。而随着信息化技术迅猛发展,中国已经成为全球数据中心。4月17日,亚马逊Cloud Drive云存储河北廊坊数据中心提前完工,该项目总投资98亿元,将为亚马逊购物网站提供数据存储和云计算服务;6月6日,戴尔宣布其在成都的全球运营基地正式投产,占地面积达3万平方米,总产能可达每年700万台(戴尔台式机产品),助力戴尔为本地和欧洲及美国等海外客户提供产品和服务,而如此庞大的生产流程,背后的英雄却是数据中心。
IT机房和数据中心对企业业务发展尤为重要,由于国内气候环境的多变性,为IT运维管理带来了巨大挑战。夏季机房,IT经理不仅要解决机房温度湿度、保障服务器设备稳定运行及确保数据安全等问题,还要承受降低企业总体拥有成本的压力。
我们知道大多数机房都建有制冷系统,来保证内部温度在22℃的安全线以内。但是,夏季持续性高温会多引发系统、硬件异常工作,甚至是瘫痪罢工,且机房和数据中心的内部温度比平均水平每升高10度,数据中心“融化”的风险就会提高5%。如何确保机房或数据中心在高温多雨天气下安全、稳定的运维,成为众多IT经理当下迫切希望解决的问题。
作为企业的CIO或IT管理者如何解决这些“热”烦恼、“雨”担忧,不妨从以下几方面着手做起。
强化数据中心制冷系统
数据中心,支撑整个企业IT系统正常运转的后台架构,其包含计算、存储、网络等多种高性能、高密度硬件设备。如服务器、存储设备在作为动力源同时也成为热源的生产者,再加之夏季温度一再攀升,IT经理不得不采取措施,强化制冷系统,确保内部温度在安全线以内。
第一,结合企业自身数据中心架构布局,建设可随负荷变化的管理制冷系统。在满负载工作情况下,可提供足够的冷量和风量;不满负荷情况下,制冷系统可提供恰当的风量,在保证精确调节同时,也能更好的绿色节能,节约成本。
第二,根据数据中心不同密度区域,采用不同的制冷形式。例如,可在刀片服务器高密度区域采用水冷机柜等。
第三,可选用气流送风技术,但要做到非常均匀的送风,实际操作则具有一定难度,在此不建议中小企业采用。
小结:数据中心制冷系统强化,需CIO依据内部设施布局进行慎重建设。
选择合适的服务器设备
除了通过强化数据中心制冷系统外,从硬件基础设施出发同样能做到节能降耗、平台正常运转功效。面对极端环境或特殊应用的需求,设备生产商精益求精,针对高温环境推出耐高温服务器或自带降温技术设备的整体解决方案,例如戴尔PowerEdge服务器就可在-5℃到45℃之间正常运行。
戴尔为了确保企业数据中心的服务器、存储等设备能够在高温环境正常运行,降低额外的维护和基础设施成本,在研制耐高温服务器同时,为企业数据中心打造新风冷却解决方案。借助该解决方案组合不仅具备高散热能力和可靠性等优势,还使得方案中的服务器、存储和网络设备允许在更高温度条件下安全、稳定的运行,避免因高温宕机“罢工”现象。
小结:IT机房或数据中心拥有良好的服务器、存储设备不仅能降低IT故障率,更重要的是降低了企业TCO。
建立设备实时监控机制
企业IT机房设备(服务器、存储、交换机等)绝大部分是24×7小时运行,面对高温、多雨季节,企业应建立设备实时监控机制。监控机制包括两部分:员工实时检查和网络实时监测。
企业部署相关员工对服务器设备运行数据进行按日分析,并整理出服务器工作日志,以便第一时间处理异常现象;同时对服务器机房进行按日检查,避免人为诸如机房乱堆放杂物、有灰尘等情况干扰服务器正常运行。另一方面,企业选择一套服务器监控解决方案,对服务器进行实时监控,一旦出现宕机、存储硬盘受损及时发出警报,第一时间安排相关技术人员进行整修。
服务器、存储提供商在保障产品品质外,还会为其定制或添加多功能工具和软件,以应对企业多方面需求。而戴尔作为中国服务器第一大提供商,在产品日常维护方面更是行业第一。戴尔12G服务器内置硬件诊断工具Diagnostics,且无需依赖操作系统,若诊断出硬件不能正常工作,会自动发出警报;同时,戴尔为用户提供OpenMange Essentials系统管理软件,提供免代理监控服务。
除戴尔服务器外,IBM、HP、华为等服务器均有类似诊断工具或管理软件。
小结:人无远虑,必有近忧。企业亦如此,单纯依靠人工进行设备实时监控,必将投入大量人力物力。因此,选择成套的服务器监控解决方案才是最佳监控措施。
制定灾难备份修复方案
夏季机房突发情况有许多,诸如机房断电、服务器宕机、存储硬盘损坏等等,为保证机房正常运行,防患于未然,企业在夏季做好相应的灾备措施具有重大意义。
既然设备故障问题(服务器宕机等)不可避免, IT经理就需在购买设备时与相关IT专家进行讨论,分析企业可能会出现故障的情况,并将这些情况分析结果形成意见,制定一套灾备修复方案,以减少因故障而带来的损失。具体方案有:
加强设备维护检查,制定设备在夏季运行方案;储备或协调后备应急水源及燃料,保证在断电、断水情况发生时有足够的备用资源;以主动措施应对被动状况,例如储备应急冰块、购置通风用轴流风机、水喷淋措施等。
小结:做好灾备修复方案对企业来讲至关重要,不仅保证了平台正常运行,还进一步确保了数据的安全性。
做好防水、防雷安全措施
IT机房或数据中心做好上述几点就万无一失了吗?答案显然是否定的,企业机房还需做好防水、防雷等安全措施。
机房内摆放着大量的精密、贵重计算机及网络设备,其均具备高密度、高速度、低电压和低功耗等特性,不仅怕水,还对各种诸如雷电过电压、电力系统操作过电压、静电放电、电磁辐射等电磁干扰非常敏感。如果防护措施不力,企业随时可能遭受重大损失。
夏季多雨,机房更应防止漏水事故发生。IT经理可直接通过降低机房空调供水管道的压强来解决漏水隐患。通过对机房专用空调加湿器的供水系统的分析,专家认为机房专用空调加湿罐补水时并不需要过高的供水压力,相反降低了机房空调供水管道的压强,可使供水管道中的阀门、接头、弯头、管壁所承受的压力降低,安全系数提高,有利于机房空调安全供水的实现。
有雨必有雷。为了保护建筑物和建筑物内各项电子网络设备不受雷电损害或使雷击损害降低到最低程度,应从整体防雷的角度来进行防雷措施的设计。IT机房主要应从UPS电源系统防雷保护、通讯系统的防雷与过电压保护及防雷器的安装与接线着手做起。
小结:尽管IT机房在建设之初已经做过防水、防雷、防震等突发灾难措施,但在夏季多雨时节,仍需做好检查和防御措施,防患于未然。
随着大数据崛起、云计算渐成企业宠儿,各类计算越来越依赖数据中心;业务的多样化,也对IT机房的设备管理、运维以及安全等多方面提出了更高要求。面对故障多发期,夏季对机房和数据中心来讲均是一个严峻的考验。因此,IT经理做好夏季机房故障防御措施十分重要。
写在最后
面对夏季对机房多方面影响,IT经理除了采取一定有效措施防御故障发生外,更希望在保证平台正常运维下降低企业TCO,来提升整体能效。据DataCenterUsersGroup调查显示,数据中心能效已迅速成为业界优先考虑事项。绝大多数受调查者认为,数据中心在制冷设备(49%)、服务器(46%)、电源设备(39%)和存储设备(21%)等方面存在巨大的能效改善机会。由此可见,企业迫切降低投入、运维等成本。而最直接、最有效做到这一点的方案就是,企业在为机房采购设备时,从一开始就选择具备低能耗、耐高温等特性设备或成套解决方案,不仅可以有效减少故障率,亦能够降低企业整体拥有成本。