从存储开始 七招教你构建绿色数据中心

社交网站、网上银行、话费详单查询、视频监控、企业人事管理系统、企业ERP……,我们生活和工作所遇到的种种电子化应用都和现代数据中心有关,复杂多变的应用和庞大的数据量使得现代数据中心在电力和能源方面的消耗增长显著,严重的电力不足,使得数据中心机房凸显能耗危机,如同一场风暴的酝酿,绿色数据中心的概念已经从“起点”升至“沸点”。

那么用户对于绿色数据中心主要关注哪些方面?哪些技术和产品可以实现绿色数据中心的构建?建设绿色数据中心时面临的主要障碍是什么?用户又会为哪些绿色节能的技术和产品买单呢?IT168隆重推出绿色数据中心大型专题,将为您梳理各个领域绿色节能技术的发展现状,并为您推荐实现绿色节能的产品和技术。

实际上,数据中心的组成包括多个方面,本文将从数据存储与保护的角度来阐述一些有助于绿色节能的新技术,并介绍一些绿色节能的实用窍门。

SSD:成本与节能之间的尴尬

尽管固态硬盘(SSD)暂时还面临价格高昂和容量有限的双重尴尬,但其高性能、低功耗等诸多优点使其成为存储领域的近年来的热点关键词一直受到人们的瞩目。

固态存储(Solid State Disk,SSD)是摒弃传统磁介质,采用电子存储介质进行数据存储和读取的一种技术。由于突破了传统机械硬盘的性能瓶颈,因而拥有极高的存储性能。由于没有旋转磁头与盘体间的旋转摩擦,因此固态硬盘发热量小,散热速度快,其能耗仅是传统硬盘的1/5。根据国外专家的报告,通常情况下,在笔记本电脑中,固态硬盘的能耗只有容量相当的传统硬盘的一半儿。而作为企业环境中的存储解决方案,一个固态硬盘能够取代多块传统硬盘,预期节能效果会更显著。

大幅度的性能提升与高昂的成本,是企业对比数据中心内使用固态盘和硬盘驱动器所得出的两个结论。目前,由于可用性和价格高等因素,市场中固态盘产品的数量还比较有限。尽管存在诸多障碍,不少企业业经开始部署固态盘系统,虽然还远远不算完美,但结果证明是非常具有吸引力的。今天,固态硬盘已经开始向存储主流中渗透。包括Compellent、EMC、Fusion-I/O、HDS、IBM、Intel、NetApp、希捷、三星、Sun和Verari等厂商,如今,基本所有的主流存储厂商都已经推出了支持固态硬盘的企业存储系统。

固态硬盘在性能方面的优势不言而喻,绿色节能方面的优势也是固态硬盘极具吸引力的另外一个原因。随着IT部门的数据需求不断增长,电力开支也越来越高。因此,存储系统需要更高的能源效率。由于固态硬盘的突出优势和企业存储的市场需求,固态硬盘市场呈现了快速的发展势头。据Gartner统计,2009年厂商总共出货280000部固态盘设备,总收入4.5亿美元,并预计到2013年出货量和收入将分别达到530万部和19亿美元。

因为固态硬盘的成本太高,一般来说,企业没有必要在整个存储架构中都部署固态硬盘。而更多的作为传统磁盘存储的补充,Tier 0正是用来描述固态硬盘在企业存储架构中的位置的一个术语。因此,企业必须针对他们的阵列进行调节来利用潜在的性能好处。这个过程要求监控他们的信息流、将更新最频繁的数据保存在闪存中、将其他数据保存在硬盘中。除此之外,应用和操作系统也需要调整,让企业可以最大限度地利用闪存的优点。

还有一个问题是可靠性。固态硬盘从消费市场中兴起,这个市场的工作负载和可靠性要求相对企业系统来说比较低。新驱动器的损耗要比硬盘驱动器快,这就带来了不少问题。首先,企业需要完善的管理工具,采取措施确保驱动器故障不会导致所有应用离线。而且,额外的维护需求也会给企业带来更多人力和硬件成本。

不过长远来看,固态硬盘目前的这些局限性都将得到解决,对一些系统在IO方面压力较大,且希望绿色节能的企业,可考虑在固态硬盘方面有所投入,在改善系统IO性能的同时,率先尝试绿色节能的数据中心。

重复数据删除:给数据瘦身

由于磁盘技术近年来的快速发展,一些企业和用户越来越倾向于采用磁盘进行备份或者归档,由此带来的能耗问题也是突出的。传统的备份策略往往会在用户的磁盘空间里面产生大量的冗余数据,由此消耗了大量不必要的磁盘空间,带来一系列的能耗和冷却的问题。有什么办法能够消除掉这些多余的数据,从而避免不必要的能源消耗呢?

重复数据删除技术会深入到组成文件的数据块,分析文件由哪些数据块组成,并删除相同的数据块,只保留单一的副本。就像不同的房子可能都是由相同的木材、砖头、水泥等组成,不同的文件经过拆分后,也会出现很多的重复数据块,删除这些重复的数据块,就能大幅度缩减缩需要的存储空间

重复数据删除最大的优势在于节约用户数据存储所需要的存储空间,因而能够节约数据存储所需要的能源损耗。基于磁盘的备份归档方案与传统磁带库相比在性能、稳定性方面都有很多优势,但是一个突出的不足之处就是,磁盘介质是在线存储,需要一定的能耗,而磁带则是离线存储,本身不需要耗能。

重复数据删除能够大大减少数据存储与备份所需要的空间,因而减少存储与备份的能耗。大家知道厂商宣称的重复数据删除比根据不同的数据能够达到1:30或者1:20,无论对存储空间的节约方面和能耗节省方面都是有着突出意义的。

一般人往往容易混淆重复数据删除与数据压缩的概念,二者看起来的确有一些相似之处。但实际上,数据压缩技术通过对数据重新编码来降低其冗余度(redundancy);而重复数据删除技术则着眼于删除重复出现的数据块。前者属于文件级别,后者根据不同厂商的技术特点,既可以是文件级别的,也可以是数据块级别的。

尽管关于重复数据删除的实现方式,业内还存在“预处理模式”和“后处理模式”的纷争,不过重复数据删除在节约空间方面的显著效益已经使其成为企业采购备份设备时所必须考虑的因素之一。

重复数据删除可以在数据写入到存储目标前进行操作,称为预处理(Preprocessing)或在线处理(Inline);也可以在数据存储到目标设备后进行操作,称为后处理(Postprocessing)。如果希望数据快速备份,更关注缩小备份窗口,那么,后处理方案比较合适;但如果你“有的是时间”,又需要节省备份磁盘,降低成本,则不妨考虑预处理方案。

自动精简配置:按需分配

除了重复数据删除、数据压缩等等的技术能够通过减少数据容量减少磁盘数量,从而进一步减少能耗,存储领域还有一些其他的新兴技术,尽管并不能够减少数据量,但是也同样能够减少系统所需要配备的磁盘数量,起到节省能耗的作用。自动精简配置就是其中之一。

自动精简配置是从去年开始进入我们视野的,简单来说,自动精简配置就是一种容量分配计划的优化技术。在传统的存储系统中,当服务器端的某项应用需要一部分存储空间的时候,往往是预先从后端存储系统中划分出一部分足够大的空间预先分配给该项应用,即使这项应用暂时不需要使用这么大的存储空间,这部分存储空间也已经被预留了出来,无法给其他的应用提供存储空间。这就在系统中造成了无法利用的存储空间,不仅仅浪费了大量的采购成本,还产生了不必要的能耗。

采用自动精简配置的系统则不会一次性的划分过大的空间给某项应用,而是根据该项应用实际所需要的容量,多次的少量的分配给应用程序,具体的分配方式每个厂商有不同的特点,但是都保证了每个应用程序不会一次性的占用过多的存储空间。当该项应用程序所产生的数据增长,分配的容量空间已不够的时候,系统会再次从后端存储池中补充分配一部分存储空间。

自动精简配置听起来很简单,但是我们却不能小看这种容量分配方式的改进。原因在于,在自动精简配置出现以前,我们往往习惯于预测过多的容量空间分配给应用程序,这样每个应用程序都占用了过多的存储空间,导致整个存储系统的容量利用率变得非常低,很快我们就需要采购新的存储空间,而我们在采购的时候也同样习惯于预先采购大量的多余的存储空间以作备用,这种应用模式带来采购成本上、能源上很多不必要的浪费,也增加了管理的复杂程度。

另外,一些厂商的自动精简配置的实现方式是通过虚拟化从存储资源池分配存储资源到逻辑卷,所以比传统方法,往往可能有更多的物理磁盘来支持每个逻辑卷。这将减少输入输出列队次数,而且也将减少某一个“热点”在同一块磁盘发生过多次的可能性,多块磁盘替代一块磁盘完成了以往的任务,性能比传统方法也有显著的提升。

在“绿色存储”蔚为潮流的今天,自动精简配置也受到了越来越多的追捧。数据中心的能耗问题直接与磁盘相关,而自动精简配置能够帮助用户在不降低性能的情况下,减少磁盘购买数量,从而降低系统的整体能耗、冷却成本、以及二氧化碳排放量,因而也具有不可忽视的绿色意义。如今,自动精简配置已经成为“绿色存储”概念下的一个重要的关键词。

目前各个厂商的存储精简技术都可以减少存储磁盘的容量需求,容量大约有60%的缩减。也就是说,60%的能源和二氧化碳排放能够通过自动精简配置技术被裁掉。因为用户对于未来磁盘的需求数量降低了很多,而全球磁盘价格自然也是不断走低,这样当然也就大幅削减了资本开销。而且由于磁盘空间的减少,相应的电力成本、制冷成本、空间成本都相应缩减。

总的来说,使用自动精简配置后的磁盘需求削减,确实很大程度上缩减了TCO。减少的TCO意味着延迟未来的添加磁盘的需求。但如同虚拟化、重复数据删除等等新兴的技术一样,任何一项技术从诞生到逐步完善再到在应用中普及都还需要一定的过程,就这项技术而言,目前成功的应用案例尚不十分普遍,用户在决定部署时多少需要担一些“第一个吃螃蟹”的风险。但毫无疑问,自动精简配置是存储未来的发展方向,并且逐步成为存储系统的必备的主流配置。

MAID磁盘降速:有空就歇歇

暨服务器产品成为数据中心绿色节能的核心环节之后,存储设备也开始成为数据中心机房省电议题中不可缺少的关键。相关以绿色节能为重要诉求的技术开始受到瞩目,例如MAID(Massive Arrays of Idle Disks)技术,一些厂商宣称采用MAID技术可为磁盘阵列节省20%-30%的能源消耗。

简单来说,MAID技术能够仅在需要进行数据存取时才开始启动硬盘,硬盘不必随时处于活动的在线状态,从而达到省电效果。主要应用在近线存储(Nearline Storage)设备,尤其适用备份、归档等领域的应用。

目前厂商多是将MAID用于近线存储设备,如虚拟磁带库(Virtual Tape Library,VTL)或SATA磁盘阵列,但也有少量是应用于在线存储系统。在MAID的运作机制上,有些是以RAID为单位,有些则是以一台设备为单位,让这台设备上的所有硬盘同时进入省电的状态。

采用MAID能获得的省电效果则根据不同的系统和作业型态而有所差别,不同的厂商宣称了不同的省电百分比,通常都在20%-30%范围内。

一般来说,省电模式又会分阶段性进行,以Nexsan的AutoMAID为例,可分为三阶段,而各个阶段的时间间隔可由企业自行定义。

举例来说,在2分钟内没有读取数据时,读取头就会自行停留至没有存取数据的地方,以节省读写头的功耗;过了10分钟后若仍没有读取,就会进入第二阶段,硬盘会降低转速至4000rpm;若过了15分钟后仍没有读取数据,就会进入第三阶段,硬盘于是会停止运转,等到系统呼叫时再启动,但由于硬盘仍处于通电状态,因此还是在“准备状态”。根据Nexsan方面的技术人员表示,磁盘再启动的时间约为10~15秒。

尽管目前已经有诸多的产品支持MAID技术,但关于MAID技术仍然有一定的争议性,一些对该项技术抱怀疑态度的人认为,MAID技术要求定时的启动磁盘,频繁的停转或者启用磁盘,本身更容易对磁盘造成损坏,磁盘启动之后如果保持一定的转速能获得更高的效率。这个技术目前是否足够成熟,还需要进一步在应用中检验。

存储整合:鸡蛋放到一个篮子里

前面我们已经介绍了以绿色节能为重要诉求之一的一些新兴技术,这些技术也许并非是完全为了绿色节能而被开发出来,但都因为其绿色节能特性在今天格外受到关注。但是存储系统要节能省电,仅仅利用一条或者几条新兴技术是不够的,若企业要进一步节省存储设备所消耗的电力,还需要从整体的系统架构层面去考虑。

事实上,由于中国存储应用现状的局限,一些企业仍然倾向于采购DAS系统来满足存储需求,而当企业业务发展较快,数据爆炸式增长的时候,原有的系统很快不能满足新的业务需求,导致企业需要采购新的设备,如果新的设备无法和以前的设备较好的整合,就很容易在企业内部形成了大量的分散的存储孤岛。这些存储孤岛不但导致大量闲置的存储空间无法充分利用,同时也导致了企业存储系统不必要的能源消耗。

据业内估计,普遍企业IT系统中的存储利用率只有25%-40%,即大约有60%-75% 的存储容量还没有被使用,却在不停地消耗能源。合理的存储整合的方案能有效解决这个问题,通过共享存储,让所有磁盘都可以存取数据,平均存储利用率可高达60%。从而有效减少了不必要的能耗。

毫无疑问,一个统一的存储网络在单次采购的成本上完全无法与简单的DAS设备相提并论,实际上,这是很多企业仍然优先考虑DAS系统的重要原因之一。对此,一些业内专家给出了如下建议:

1. 存储采购不能仅仅比较单次采购成本,设备维护成本、管理成本、未来扩展成本、以及运营的风险成本等等都应该计算在内。企业应根据自身对存储系统的性能、容量、增长趋势等多方面要求进行评估后,再选择合适自身的存储架构。

2. 进行DAS系统采购的时候,企业也应该充分考虑未来扩展的问题。一些DAS系统能够平滑的升级到SAN系统,这样能够节省未来升级的投资。例如一些带有光纤主机接口,后端同时支持多种磁盘接口的存储系统,这样即使未来需要升级到存储网络架构,也可在原有系统的基础上进行升级。

实际上,存储整合是一项较为基础的工作,我们此前提到的一些其他的节能举措,有些也需要在存储整合的前提下才能起到更好的效果,例如分层存储等等,合理的存储整合解决方案并综合应用一些有效节能的新技术,能够实现高效存储数据,减少机器及磁盘数量,解决急速增长的能源消耗问题。此外,这个策略还可以减少系统的复杂性,降低成本,还可以改善网络效率和性能表现,从而对新的业务需求能做出更好的反应。

节能妙招:大容量磁盘替换多块小容量磁盘

在磁盘驱动器类型不改变的情况下,需要达到同样的存储容量的时候,我们可以选择通过选择大容量规格的磁盘来满足容量需求,从而降低磁盘数量,减少能耗。

此外,目前的SATA磁盘驱动器可以提供最高的磁盘驱动器可用存储密度,最大容量达到1TB,而很多其他类型的磁盘驱动器目前还做不到如此大的单盘容量。因此,采用大容量SATA磁盘替代一些小容量规格的SAS或者光纤磁盘,在节省能耗上同样相当有效。

即使在磁盘容量规格相同的情况下,典型的SATA磁盘驱动器,与光纤通道 (Fibre Channel) 磁盘驱动器相比,可以节省大约一半的能源。同时,一些具有磁盘修复及数据保护技术的SATA磁盘正日趋流行,已经成为很多企业应用的理想选择。

但是企业采用这一举措进行节能降耗同样需要谨慎:

1. SATA磁盘驱动器的数据存储量比光纤或者SAS通道主磁盘驱动器更大,但我们不能因此而忽略了数据可靠性。当前流行的 (Dual-parity) RAID-DP以及RAID6技术,能够提供更高的存储利用率和错误容忍度,可同时修复两个故障磁盘驱动器的数据。但是如果企业对数据安全性要求较高的时候,则应该以性能需求优先,选择光纤或者SAS通道的磁盘驱动器。

2. 当企业采用大容量规格磁盘驱动器替代小容量规格磁盘驱动器的时候,磁盘通道的数量变少,总体带宽和吞吐量都会变小。实际上,存储系统的总带宽和总吞吐量就是后端磁盘总带宽和总吞吐量的总和,在容量没有改变的情况下,用大容量磁盘替换多块小容量磁盘,相当于总带宽和吞吐量都变小了,对系统性能的影响不容忽视。因此,这个节能降耗的招数在实际使用中并不常用,仅能在一些对吞吐性能要求不太高的系统中使用。

分层存储:好钢用在刀刃上

所谓的分层存储是指的将不同类别的数据分配到不同类型的存储介质上,目的是提高存储效率,减少总使用成本(TCO)。以一个大学校园的具体应用为案例,学校里面可能存在着“一卡通”系统,学生可以通过一张通用的卡实现银行储蓄、学校管理、校内和社会消费支付功能。除了一卡通系统,可能还存在财务系统、学生档案以及电子课间等等一些其他的业务应用。

实际上,这些不同的业务应用对数据读取性能、数据安全水平的要求是完全不同的,例如“一卡通”系统往往要求系统7*24小时连续运营,对数据响应时间要求高,同时还要求较高的数据安全性;财务系统同样要求较高的响应时间和数据安全,但对连续运营方面要求较低,一般5*8小时运营即可;学生档案和电子课件往往对存储空间有较高的需求,但是相对而言并不要求较高的读取速度。

因此,作为这家大学的IT主管,我们完全可以把“一卡通”系统、财务系统等应用所产生的数据保存在读取性能最好、安全性最高、但相对较为昂贵的光纤硬盘上,而其他对读取速度和安全性要求相对较低的应用,例如电子课件,则可以放在存储成本相对便宜,但性能也偏低的SATA磁盘上。

这种透过分层式存储将存取较不频繁、数据安全相对较低的数据搬移到转速较慢的硬盘上,将有助于节省耗电量。以73GB、15,000转的硬盘来说,其单位容量耗电量是750GB、是7,200转硬盘的11倍。

此外,如果这家大学校园还有备份系统,为了获取最高的备份和恢复的性能,那么无疑磁盘备份将有更多的优势,但是综合考虑成本和能耗,磁带则具有更多的优势。采用合理的分层的多级的备份策略也同样是这家大学的IT主管需要考虑的重要问题,数据可以先备份到磁盘上,再从磁盘备份系统备份到磁带介质上,这样最终在节能、成本和性能三方面得到均衡。

与分层存储一起出现的通常还有信息生命周期管理的概念(ILM,Information Lifecycle Management)。信息生命周期管理是一种信息管理模式,它认为信息如同人、生态系统和企业,有自己的生命周期,有一个从产生、保护、读取、迁移、存档到回收的过程,在不同的时期,信息的价值会有所变化。针对这种价值变化,将自动化网络存储基础设施与综合服务和解决方案结合在一起,并根据信息和应用对企业的价值对其分类,然后制定相应的策略和技术手段对信息进行贯穿其整个生命过程的管理,从创建、使用到归档、处理,帮助企业确定最优的服务水平和最低成本。

通常来说,信息生命周期管理是一种新的信息管理策略,其目的在于帮助客户在信息生命的各个阶段以最低的整体拥有成本获得最大的价值。综合考虑应用信息生命周期管理的思路,合理应用分层存储,在获得性能与成本的折中平衡的同时,在节省能耗上也能起到不小的作用。