DoSTOR存储分析 什么是Web 2.0存储

DoSTOR存储分析去年,Web 2.0已经在存储行业内成为一个热门词汇,许多大公司和初创公司都保证开发快速增长、合作型环境下的存储系统。但是在我们看到这些存储系统的将来样子之前,我们先看看这些系统适合哪些类型的数据。

因为没有更好的术语,我们就叫它Web 2.0数据。这种数据在本质和用途上都不同于传统的、基于事务的数据。它经常以大型文件的形式出现,一般是一个用户所创建的,而且这种数据可能在一定地理距离上共享。大部分的Web 2.0数据就如同它的名字所指的那样:图片、视频、以及电子邮件归档,但是这种类型的数据也开始包括来自监视摄像机镜头、地理空间挖掘数据、基因序列以及金融分析情境的信息。

基于文件的Web 2.0数据和公司的事务型数据一样重要,而且也要求类似的可用性水平、安全和保护。如同传统的公司数据一样,Web 2.0数据在不断膨胀——有过之而无不及。

它是Web 2.0数据吗?

大型文件

非事务型

经常是单个用户所创建

可能在一定地理距离上共享

加速的容量增长率

例子:电子邮件、图片、基因组、归档…..

不太适合于基于块的公司SAN(存储局域网)

为了应对Web 2.0数据的增长,企业们纷纷采用一种由Google(纳斯达克代码:GOOG)和Yahoo(纳斯达克代码:YHOO)这样的Web先驱所开发的存储技术。这种存储方式借用了高性能网格计算技术,使用大型的机架式的计算机和存储节点集群,而这些计算机或存储节点是由比较廉价的行业标准式的服务器和驱动器所组成。数据被分布和复制在不同的节点上,而且经常是地理上分开的。存储组件是CAS(内容寻址存储)或NAS(网络附加存储),使用SATA(串行ATA)或SAS(串行连接SCSI)驱动.

为了更低的成本,更少的电能消耗及冷却成本,节点被优化成只带有那些为应用程序所需求的功能。集群节点比刀片更便宜,更密集,而且没有冗余的电能供应和风扇。只有在节点层次上才有冗余,而且集群软件能够透明地处理节点故障,并同时提供弹性和灵活性。这种节点一定程度上是自我管理的,而且可以快速扩

根据你对硬件的设置和你所安装的软件,集群可以是计算密集型的,以便进行HPC(高性能计算);也可以是更加存储导向型的,能够在单一名字的空间内提供和大型NFS(网络文件系统)云一样的存储。

GoogleYahoo这样的公司已经构建并仍在构建它们自己的定制架构。Google直接从英特尔定购了大量的定制主板来满足它的低成本及低能耗要求。(如果Google是一个系统制造商,那么它可以排到前五位)。但是,你没有必要构建你自己的定制的Web 2.0存储架构。越来越多的主流存储厂商已经在为你开发这种类型的产品和服务了。

根据定购而设计

戴尔(纳斯达克代码:DELL)就是首先提供Web 2.0架构的公司之一。它的数据中心解决方案事业部在20073月宣布了云存储解决方案。通过这个计划,戴尔能够为集群式服务或存储设计、提供、甚至安装服务器及存储机架,并根据你的应用程序(以及低能耗要求)进行优化。该解决方案甚至还有维护和租赁选项。

根据戴尔在The Clouds博客上的讨论,该服务是针对大型订单(1500个以上的节点),而且你必须提供你自己的集群软件。戴尔没有像它销售给公众的产品那样提供现成的系统,但是它已经开发了专门针对集群应用程序的系统。

Sun微系统(纳斯达克代码:JAVA)和Rackable Systems(纳斯达克代码:RACK)也进入了Web 2.0市场。除了提供适合于集群的计算机及存储节点机架外,这两家公司还引人注目地提供移动式数据中心,这种数据中心是打包在存储集装箱内。例如,SunModular Datacenter S20就是安在一个20英尺长的海运集装箱内,只使用一套电能、网络和水处理设备。

水冷方式使得这些单元比起传统空气制冷方式的数据中心中的类似数量的节点更加密集,更加节省电能。这种系统的主要优点就是能够让大量的存储或计算资源在很短的时间内启动起来。你还是必须要提供集群软件来将它们整合起来,不过Sun在去年收购了Lustre集群文件系统,而且将它带进了它的Open Storage(开放式存储)项目中。

 

 

[双重密度]

双重密度

空间和电能消耗已经成为很大的数据存储问题,特别是对Web规模的数据中心。IBM(纽约股票交易所代码:IBM)四月份推出的iDataPlex Web 2.0服务器系统能够直接解决这些问题。通过将一个标准的42U的机架在它的垂直轴心上旋转90度,并在两边分别装进一半深度的节点(从前到后15英寸),IBM能够在一个传统上只能装42个CUP节点的空间内装进84个CPU节点,而且还有16U的侧面空间被留用于切换硬件。对于存储应用程序来说,3U单元可提供一个CPU以及12TB的硬盘驱动器存储,带28节点的一个机架最大可以提供336TB的存储。

对于电能消耗的减少来说,该系统的侧面弯曲设计更加重要。风扇单元将风吹进以便将节点冷却的距离被减少到了正常的一半,而且由于冷却距离和风扇能耗的关系是非线性的,因此节省了比一半还要多得多的所需电能。由于使用更少、更大的风扇,因此带来了更大的效率。可插入式的四风扇单元可以为八个节点提供冷却。根据IBM模块系统开发部门的高级工程师和副总裁Gregg Mcknight的说法,这些风扇的能耗大约是每个服务器6瓦特。对于那些空调系统严重透支的数据中心而言,使用水冷式换热器的iDataPlex可以为它们带来净的冷却效果。

根据McKnight的说法,“购买大量节点的公司当然希望这些节点能够合乎它们的期望”。

虽然IBM的这个系统不像戴尔的集群系统那么定制化,但是IBM也提供了22种不同的节点组合(处理器、I/O槽、内存及存储),还有几种不同的电能供应方案,以便让电能供应更好的满足应用程序的需要。IBM可以提供Linux或者Windows来运行基于Intel的节点,而且它还可以提供带Nextra软件(IBM收购XIV时所得到的技术)的集群容量。

因此,IBM可以提供“一个完整的空间优化的集群”。McKnight说,“整个解决方案都是预制的、布好线并经过测试的,因此客户可以在几分钟内就启动它”。

[严格存储]

严格存储

惠普最近推出了一个单纯针对存储的集群式系统,即HP StorageWorks 9100 Extreme Data Storage SystemExDS9100)。根据惠普NAS营销总监Duncan的说法,这个ExDS9100包含了运行LinuxHP C-class刀片、几个82驱动器的存储块、PolyServe集群文件系统、以及一个能够把“ExDS9100看成一个单个的大刀片”的管理软件。

“它是可扩展的NAS,而且只需要为每GB支付不到2美元的成本”,Duncan说,“90%的惠普客户所遇到的存储增长都是在基于文件的存储”。

ExDS9100存储密度很高(每单位有12TB),而且可以很容易地扩展。它在计算单元上使用刀片,但是你不需要为存储所支持的容量购买许多的刀片,因为这些驱动器并不是直接连在刀片上。一个单元包含了一个到四个的四刀片性能块,以及最多1082GB RAID 6(独立磁盘冗余阵列)存储块(容量范围从246TB820TB)。

你可以扩展容量,而且,对于CPU密集型的存储应用程序,比如随需视频,你还可以同时升级性能。Duncan声称:“一个新插入的性能块会被系统检测到,并在几秒钟之内初始化”。ExDS9100可以通过NFS协议或HTTP协议访问其他系统,而且通过PolyServe,多个存储系统可以连接在一起。

Duncan认为有三种类型的客户需要Web 2.0存储架构。第一个就是纯粹的Web 2.0公司,即那些商业模式是在互联网上提供服务或内容的公司。第二个是那些需要应对公司数据内容爆炸式增长的现有传统企业。进行基因组测序的生命科学公司可以在一周之内产生几百TB的数据。第三种是希望进行SaaS(软件即服务)的传统企业。一个很好的例子就是惠普自己的Snapfish在线图片存储服务,该服务已经作为ExDS9100的试验场。

后续

EMC(纽约股票交易所代码:EMC)已经在Web 2.0存储领域作出了几个声明和宣布,不过细节还有待公布。EMC在存储行业的地位使得它成为瞩目的焦点。EMC一月份宣布了Fortress SaaS存储平台,该平台是作为它的Mozy备份服务的后端架构(但它本身不是一个产品)。除了这个平台以外,EMC还自去年开始讨论两个代号为“Hulk”和“Maui”的产品。Hulk可能是一个集群NAS硬件系统,而Maui则号称是一个“全球”范围的集群文件系统软件。但是用户还需要随着EMC战略的展开才能等到细节的公布。