基于绿色存储的数据资源中心应该如何建设

随着全球气候日趋变暖和能源日趋紧张,能源成本不断上涨,人类的生存环境受到极大的威胁,因环境恶化而引发的自然灾害和疑难病症不断发生,节能减排、保护环境已经成为全人类的责任和义务。如今节能环保的理念已深入人心,许多组织和个人都在为绿色环保不断努力和无私奉献。在这种背景下,以"节能、环保、高效、经济"为核心价值的绿色浪潮正席卷整个IT产业,绿色IT已成为符合社会进步与环境保护要求、满足经济可持续性发展目标的新产业,绿色存储则是引领IT产业下一代革命的创新驱动力。

1、实施绿色存储是降低数据资源中心能耗的重要保障

IT产业是21世纪的朝阳产业,在带来全球经济高速增长和数字化进程快速推进的同时也带来了巨大的能源消耗。

据调查,IT产品能源消耗以每年8%-10%速度增长,2007年IT产品耗电总量约为500亿度,IT因耗电而排放的二氧化碳已达到4 000万吨!数据资源中心能耗则占IT能耗的40%,而存储设备约占数据资源中心电力消耗的37%-40%。并且据IDC与EMC的研究报告指出:数字资源正以52%的复合年均增长率飞速增长,至2006年,所创建、存储、复制的数字信息总量达到1610亿GB,并预计这个数据在2010年将达到9880 亿GB。相当于人类有史以来全部书籍信息的1500万倍。相对于数字资源的高速增长,存储领域的现状却是低利用率、存储孤岛、过多的冗余备份、低访问速度等,数字资源爆炸性增长和存储资源相对有限的矛盾已经十分突出。如何做到既降低能耗、提高资源利用率,又能满足后续的容量扩展和减少IT投入已经成为迫切需要解决的难题,引入绿色存储理念,建设节能环保的数据资源中心将是解决这一难题的重要举措。

绿色存储是一个系统设计方案,贯穿于整个存储设计过程。涉及到存储系统的外部环境、存储架构、存储产品、存储技术、文件系统和软件配置等多方面的因素,其最终目的是用最少的存储容量来满足业务的需求,从而消耗最低的能源。以绿色理念为指导的存储系统最终是存储容量、性能、能耗三者的平衡。全球最具权威的IT研究与顾问咨询公司Gartner发布的2008年十大战略性技术中,"绿色IT"排名首位。从2006年开始,每年的全球存储的行业盛会 SNW(Storage Network World)大会上,绿色存储技术都是最大的热点。SNIA(Storage Network Industry Association全球网络存储工业协会)于2007年末宣布成立了"SNIA绿色存储促进组织"(SNIA Green Storage Initiative)。

针对这一趋势,许多存储厂商如3PAR、Bwcade、EMC、HDS、HP、IBM、NetApp、Sun等都相继推出了包括存储硬件和存储软件在内的节能、环保型的存储解决方案,用绿色存储构建绿色数据资源中心已经成为社会进步的必需和必然。

2、实现数据资源中心绿色存储的关键技术

实现绿色存储需要先进的绿色存储技术支撑。绿色存储技术是指从环保节能的角度出发设计和生产性能功耗空间比更高的存储产品,降低数据存储存储设备的功耗,降低产品所产生的电子碳化合物,提高存储设备性能,降低建设成本和运行成本。目前,常用的绿色存储技术主要包括存储虚拟化、MAID、重复数据删除、自动精简配置和分级存储等。

2.1存储虚拟化

存储虚拟化是建设绿色数据资源中心的一项关键技术。数据中心的每台服务器都有自己专属的存储空间,服务器之间很难"借用"存储空间,造成不同存储空间的利用率差别很大而总体利用率偏低。虚拟化技术可以利用不同设备的容量来建立一个虚拟化存储容量池,然后解决各个设备的数据存储问题。虚拟化即把物理资源转变为逻辑上可以管理的资源,将不同的存储作为单个集合的资源来进行识别、配置和管理,以打破物理结构之间的壁垒。通过存储虚拟化,所有的资源都透明地运行在各种各样的物理平台上,资源的管理都将按逻辑方式进行,完全实现资源的自动化分配,应用程序将不再需要知道它们的数据保存在哪个磁盘、分区或是存储子系统中。

存储虚拟化包括带内(在数据通道中)、带外(拥有代理服务器和元数据控制器,在数据通道之外)和分离路径(带内和带外的结合体)3种方式。其中:带内(In-band)又称对称存储虚拟化技术,带内方法主要在主服务器和存储设备之间实现虚拟功能,是传统的产品和存储系统经常采用的方法;带外 (Out-0f-band)又称非对称存储虚拟化技术,带外存储虚拟化设备安装在主机和存储之间的数据通道之外,因而主机中需要安装专门的软件;而分离路径存储虚拟化技术综合了带内和带外技术的优点,在与软件绑定的开关或者产品中采用存储服务模块或者适配器实现存储虚拟化。通过存储虚拟化,实现存储系统的整合,提高存储空间的利用率,简化系统的管理,保护原有投资、提高运营效率、提升服务水平。

2.2 MAID

MAID(Massive Array of Idle Disks,大规模非活动磁盘阵列)。MAID最初的理论依据来自"80/20"定律,具体来说就是80%的访问活动围绕着20%的物理存储进行。据此,人们认识到:那些暂时没有数据被访问的磁盘驱动器,完全可以进入能耗相对较低的待机状态,甚至完全关闭,需要访问时再"唤醒"也来得及,从而达到节能的效果。例如,如果一个系统在2分钟内没有读取数据时,读取头就会自行停留至没有存取数据的地方,以节省读写头的功耗;过了10分钟后若仍没有读取,就会进入下一阶段,硬盘转速将从7000rpm降低至4 000rpm;若过了15分钟后仍没有读取数据,就会进入第三阶段。硬盘会停止运转,等到系统呼叫时再启动。采用MAID的系统通过仅在需要的时候打开电源的方式降低了系统的运行成本,提高了硬盘的可靠性,有利于增强数据保护。

2.3 自动精简配置(Thin Provisioning)

在传统的存储系统中,当某项应用需要一部分存储空间的时候,往往是预先从后端存储系统中划分出一部分足够大的空间预先分配给该项应用,即使这项应用暂时不需要使用这么大的存储空间,但由于这部分存储空间已经被预留了出来,其它应用程序无法利用这些已经部署但闲置的存储容量。这种分配模式一方面使闲置的存储数量不断增加,系统总体拥有成本升高;另一方面用户不得不购买更大的存储容量,才能适应环境,成本进一步加大№j。自动精简配置是一项新的容量分配的技术,不会一次性的划分过大的空间给某项应用,而是根据该项应用实际所需要的容量,多次的少量的分配给应用程序,当该项应用所产生的数据增长,分配的容量空间已不够的时候,系统会再次从后端存储池中补充分配一部分存储空间。

实际上,自动精简配置的工作原理与部分储备金体系的原理相似,银行无需一次支付所有的储备金,因此也没有人一次动用所有的存储资源。利用自动精简配置技术,能够帮助用户在不降低性能的情况下,提高磁盘存储空间的利用率,推迟用户磁盘扩容的时间,减少磁盘购买数量,提高存储性能,减少环境对存储的压力,降低总体实现成本,从而降低系统的整体能耗、冷却成本、以及二氧化碳排放量,符合绿色存储的要求。

2.4重复数据删除技术(Data Deduplication)

为了确保业务的连续、用户的稳定,对关键数据进行备份是必不可少的,在每一个数据资源中心,日复一日的备份操作会产生大量的冗余数据,占用大量的存储空间,基于此,一种新的数据管理方式一重复数据删除技术应运而生了。该技术针对不同的存储介质、不同的操作平台,引用一种基于数据块、可以人为控制数据空间的方式来删除冗余数据,只为相同的数据保留一份副本,其他被删除的重复数据将由一个指向元数据的的指针所代替,可以大幅度地节省存储空间。

重复数据删除可以对文件、数据块或者字节级进行操作。实现重复数据删除的方式主要有两种:第一种在数据写入磁盘之前进行判断,发现重复数据便以指针代替,称为实时处理(in-line),优点是所需磁盘空间较少。缺点是对CPU处理能力要求高;第二种在数据写入磁盘之后才启动去重过程,即所谓的后处理(post-processing),优点是对CPU处理能力要求不是很高,缺点是必须保留较大的磁盘空间作为临时工作区。不论采用哪种方式。通过重复数据删除都可以极大地优化存储系统,减少数据量,从而降低能耗以及减少产生的热量。

2.5 分级存储(Hierarchical Storage Management)

事实上,任何一种数字文献资源都具有生命周期。在数据刚生成的一段时间内,访问频率最高,为读者带来的使用价值也最高;随着时间的推移,访问频率降低,数据的价值也随之下降,低访问频率的数据量远远超过高访问频率的数据量。不同生命周期的数据是提供给不同使用对象的,这种以最低的成本获得最高使用价值的方式,就是对数据进行分级存储。信息生命周期管理(ILM)是实施分级存储的理论基础,它根据业务数据重要性和数据优先级进行数据分类,以此确定相应的数据所需要的存储系统,进而提高整个系统的安全级别,做到重要数据重点保护,对关键业务、关键数据实施容灾保护。同时,通过数据分类,区分出在线数据、近线数据和离线数据,把在线数据存放在快速的FC/SAS磁盘驱动器上,近线数据存放在相对较慢的SATA磁盘驱动器上,而将离线数据转移到磁带存储离线保存。

以高等学校图书馆为例,其数字资源既包括购买的商业数据库、共建的专用数据库以及自建的特色数据库等,数字资源拥有量小的数T,多的数十T甚至上百T。如果将所有的数据都储存在昂贵的磁盘中,并全部提供365*24小时服务,将会极大地增加运行和维护成本。如果根据分级存储理论,将不经常访问的数据按指定的策略自动迁移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,就可以获得较好的总体性价比,达到节能降耗、降低运行维护成本的目标。

3、实现数据资源中心绿色存储的设备评价与选用标准

选用具备绿色功能的存储设备是实现绿色存储的基础。是实现数据资源中心节能降耗的重要组成部分。在选择存储设备时,应选用遵从环保法规规范 CEEUP(用能产品生态设计框架指令)和ROILS(电子电气设备中限制使用有毒有害物质指令)的产品;同时选用该类设备可以参考Sun公司制订的有关下一代Internet服务器的评价标准,即SWaP(Space,Watts and Performance。空间、瓦特和性能)标准。该标准从设备占用的空间、消耗的电力、最终提供的服务性能3个维度给出了一个简单的评测计算公式,既 SWAP=P/(s*w)。其中P为基准性能测试工具获得的测试值,s为设备在数据中心机架中占用的高度,w为服务器在基准测试时的功耗。这个比值越大,说明该服务器或存储设备的综合指标越好,越能满足节能环保的数据资源中心建设需要。

4、结束语

绿色存储不仅是IT产品供应商的责任,也是终端用户的责任,每一个用户必须意识到自己既是绿色存储的驱动者又是绿色存储的实践者,有责任有义务为节能减排保护环境作贡献。图书馆是存储应用的大客户,在建设数字图书馆的进程中,应该自觉采用多种绿色存储技术和存储策略相结合的数据存储方式。以节能环保为己任,以绿色存储为起点,选用具备绿色功能的存储设备,建设节能环保的绿色数据资源中心。