新存储技术革命性处理数据泛滥问题

随着企业存储需求的逐步增长,磁盘密度也在不断增加。但是真正的魔力其实在软件中,软件处理数据的速度不但加快了,而且处理数据的数量也比以前增加了。

Budd Van Lines的副总裁兼首席信息官道格拉斯绍尔特斯(Douglas Soltesz)就面临着一个相当普遍的问题:那些似乎永无止境地增长中的数据。

他说:“如果你给我无限量的存储空间,我都可以填满它。”该公司办公室和仓库最近4个月的高清视频存档已经在其Nexenta Stor NAS和SAN平台上占用了60TB的存储容量。 那些视频就是导致公司的存储需求以50%到80%的速度逐年递增的原因。

他说,如果他拥有再多一倍的存储容量,他的用户就会要求再多保存一倍时长的视频存档。

由于现有的硬盘技术结束了十年来存储密度不断增长的趋势,IT商店正在等待新的技术比如叠瓦式磁记录(shingled magnetic recording,SMR)和相变存储器(phase-change memory,PCM)等来提高存储密度。同时,他们还打算利用能够在商品磁盘、固态硬盘和服务器闪存上对数据进行虚拟化、重复数据删除和高速缓存处理的软件来降低成本和加快数据存取速度。

磁盘密度仍在不断增加

存储厂商希捷的高级副总裁马克雷(Mark Re)称,存储密度稳定增长了十多年之后,使用垂直磁记录(perpendicular magnetic recording,PMR)技术的磁盘的存储密度已经达到了每平方英寸1TB。

市场研究公司IHS iSuppli的存储分析师张芳称,希捷将从今年下半年开始销售使用SMR技术的硬盘。雷说,那最终会将SMR磁盘的存储密度提高到每平方英寸1.3TB到1.4TB。他补充说,希捷的SRM硬盘将从台式机硬盘的尺寸入手,然后在明年推广到其他平台比如存储阵列。

雷说,下一波技术是热辅助磁记录(HAMR)技术,它将把磁盘的存储密度提高到每平方英寸5TB。这项技术利用一个小的激光器改变了磁盘的磁场。预计希捷将在2015年或2016年发布其首款HAMR硬盘。

预计希捷的竞争对手西部数据将在今年第四季度发布填充了氮气的新硬盘,由于氮气的阻力低于空气,因此这种新硬盘可以在硬盘外壳中多增加1或2块磁片。磁片数量增加可以将PMR硬盘的最大存储容量由目前的4TB增加到5TB或6TB。西部数据称,它还打算在未来两年里发布SMR和HAMR硬盘,它还打算利用自装配分子和纳米印刷技术将硬盘存储密度提高一倍。

在闪存方面,厂商们一方面在努力提高磁盘的存储密度,另一方面还打算提高服务器闪存和固态硬盘中所用的闪存的有效存储容量和使用寿命。

惠普存储部门首席技术官米兰谢蒂(Milan Shetti)称,大多数闪存和固态硬盘所用的NAND闪存将在2016年之前被一种名为相变存储器的非易失性存储技术所替代。与改变物理内存磁场方向的磁记录技术不同的是,相变存储器技术是利用热来改变媒介的导电系数。 IBM苏黎世研究实验室的内存与探针技术经理哈里博兹迪斯(Haris Pozidis)称,PCM硬盘不但比NAND闪存硬盘的速度更快,而且它们的存储单元能够承受的读写周期数量也比NAND闪存硬盘要多出一两倍。这对很多应用比如经常读写数据的高速缓存来说很重要。

谢蒂预计,最初的磁盘容量大约为200到250GB,磁盘容量在2018年之前至少会增加一倍。他强调说,与现在的固态硬盘不同的是,这些存储容量都将是有效容量。在固态硬盘中,15%到20%的原始容量将被用来替代可能磨损的单元。谢蒂称,他预计每GB的价格将与现在的闪存硬盘相当。那就相当于PCM硬盘的价格将下滑15%到20%,因为所以的原始容量都将是有效容量。

重复数据删除:一种不可或缺的功能

在过去的10年里,重复数据删除技术已经从一种新技术变成了一种不可或缺的功能。

市场观察员们称,不要以为重复数据删除技术能够从硬盘中省出的存储容量会出现显著的增长。现在,重复数据删除技术通常可以将磁盘中的数据量减少十分之七。未来的技术进步将来自于重复数据删除技术处理数据的速度的增长以及在企业中推广使用标准的重复数据删除系统。

业内观察员们称,由于重复数据删除将在硬件而非软件中进行,并且能够在PCM等非易失性存储中进行,因此重复数据删除技术处理数据的速度将会更快。 谢蒂预计,每一种非易失性存储控制器都将有内置的重复数据删除功能,他还指出,与传统硬盘不同的是,重复数据删除不会在非易失性存储硬盘上造成碎片化的问题。

在数据被储存下来之前就进行重复数据删除处理的技术即in-line重复数据删除技术可以降低主存储器、备份和复制的副本的存储需求。Pure Storage称,in-line重复数据删除技术可以让其闪存阵列存储的数据量达到规定的规模的5倍或10倍。

观察员们还预计重复数据删除技术的应用范围会从传统的备份领域扩展到其他领域和更多的计算和存储设备平台上。戴尔称,它打算将它通过收购Ocarina获得的重复数据删除技术整合到其EqualLogic和Compellant系列产品中。戴尔存储部门的产品营销执行主任特拉维斯维吉尔(Travis Vigil)称,首先是对快照那样的数据进行压缩,然后才是访问频率更高的数据和文件。

惠普存储部门的产品营销主管肖恩金尼(Sean Kinney)预计,企业用户能够用于各种应用和存储的统一重复数据删除平台将会成为市场的主流产品。他说,那将降低购买许可证、培训和管理的成本以及企业组织必须购买的存储容量的数量。

性能满足速度的需求

某些用户不会因为要管理大量的数据就升级它们的存储系统,这其中还有更快存取数据的需求。

Case Western Reserve University打算将100TB的研究文件数据从一台EMC Celerra NS 480转移到一台Panasas ActiveStor 8上去,以便快速分析数据;然后将另外65TB的结构化管理数据转移到一台Nexsan NST 5310上去。学院的高级设计技术主管布莱恩克里斯蒂安(Brian Christian)称,除了更高的性能之外,用户们还想建立一个容量最高为600TB的单一域名空间,这远远超过了EMC和NetApp的产品只能提供的64TB容量。克里斯蒂安称:“我们的第一个高性能群集利用一台传统的NAS设备来作网络文件服务器,我们让它超载了。与同行谈过后,我们预计那会象我们需要的那样增长,我们需要一台并联NAS设备。”

为了提高性能,许多客户将利用服务器内部的闪存和存储阵列中的固态硬盘来为对速度敏感的数据提供高速缓存,然后再将那些数据写到速度相对较慢、价格相对低廉和容量相对更大的硬盘。

3年前,应用性能下降和升级成本上升曾迫使施乐旗下的TripPak Services和ACS Advertising的IT基础设施工程技术经理大卫阿伯特(David Abbott)去寻找新的平台,以便在成本不增加的情况下满足按照每年10TB速度递增的存储需求。

面向运输行业的服务型软件供应商现在正在利用Starboard Storage Systems的3台NAS设备来储存80TB的图像文件和45TB对性能敏感的数据,以便在Pure Storage的一台闪存阵列上提供500个虚拟机映象和200多个虚拟桌面。

在移动到Nexanta NAS/SAN平台上之前,Budd Van Lines一直使用的是一台Compellent SAN设备。他说,虽然它的存储容量并没有用完,但是它的IOPS性能却快用完了。 为了满足性能上的要求,NexantaStor的平台将固态硬盘作为存取数据的高速缓存以实现更快速的数据存取,然后再将数据写入7200转的SAS硬盘。

NAS厂商NetApp也通过其EF 540进入了闪存阵列市场。EF 540将兼具一致性、低延时、高利用率等功能,并且将数据保护功能与in-line重复数据删除和数据压缩等企业存储效率功能整合在一起。

软件加商品硬盘

在线营销SaaS供应商Constant Contact也打算由所有权硬件和软件解决方案转向软件控制的商品硬盘。

公司首席技术官斯特凡皮舍(Stefan Piesche)称:“当我在3年半之前加入公司的时候,我们扩展存储容量的主要方法是购买数量更多、速度更快的存储设备和数据库服务器。”虽然存储需求仍以每年15%到25%的速度递增,但是为了降低成本,他打算从基于3PAR的SAN设备的IBM DB2数据库转向基于戴尔服务器、商品磁盘和Fusion-io闪存卡的开源MySQL和Cassandra NoSQL数据库。

他说,这个新的平台不但在速度上比之前的存储平台快了不止一个数量级,而且在性能、可用率和灾难恢复上也有明显地提升,而且不会增加管理难度和成本。新平台可以将数据写入六个存储节点,从而提高存储性能,这意味着同样的数据会保留多份副本。 然而皮舍同时也说,商品硬盘和服务器在价格上具有非常显著的优势。

他还指出,他的客户不会因为储存在那些副本中的营销数据在存取上出现几毫秒的延时而蒙受损失,但是对于价格一直处于变化之中的财务交易系统来说,情况可能并不是那样。

他说,分拆数据库也有助于Constant Contact轻松实现扩容。他说:“我们可以将客户分组分批地放在不同的数据库上,而那些数据库通常是具有相同缩略图的同一数据库的多个实例。 我们希望那些数据库是吻合的,而且可以在商品硬件上运行,以降低我们的经营成本,因此再弄一个新的数据库其实是毫无实际意义的。公司现有5万多客户,我们增加了两台基于MySQL的商品数据库服务器,结果用户们的性能不会受到其他用户的影响。”

这个领域的另一家厂商CommVault称,它的Simpana软件平台可以将存储成本最多削减50%,将管理间接费最多削减80%,将每年的支持服务费用最多削减35%,因为需要储存的数据副本总数以及需要购买和维护的存储应用程序的数量都比以前减少了。

Sanbolic声称,它的Melio 5数据管理平台可以提供高可用率、基于共享数据服务器群集的应用扩展性、支持各种工作负载中的任何大小尺寸的文件的快速存取等功能,而且可以扩展成超过2000个物理或虚拟结点以及最多6.5万台存储设备的规模。它的Latency Targeted Allocator软件允许Melio平台在存储阵列内部共享服务器一端的闪存资源和固态硬盘,还可以跨结点共享传统硬盘。 公司首席执行官、联合创始人Momchil Michailov称,这就避免了单一故障点和数据及应用仓库数据存取难的问题。

有些新厂商将它们的软件与配备硬盘和处理器的物理硬件包装在一起。Gridstore的存储设备可以将存储控制器和数据虚拟化,以消除单一故障点的问题,并且让系统可以更快地从许多服务器中读取并行数据。 这会令控制器的数量增加,使用那些没有被用到的计算能力来提高性能和容量。 然而,它现在不仅支持Windows,而且还支持基于文件的存储方案。

另一种基于软件的扩展方案是将数据分割成无数的小块,分布在许多物理数据库上。Cleversafe的dsNet技术与PB级容量的存储设备配套使用最好,而且那些存储数据全部是由50到100KB的对象组成的。 公司总裁兼首席执行官克里斯格莱德温(Chris Gladwin)称,这个解决方案最适用于在线照片共享等应用。

下一个是什么

随着硬盘的容量越来越大速度越来越快,闪存硬盘的容量和可靠性也在增加,加上开源存储技术日渐成熟,某些业内观察员发现企业组织处理数据增长的方法也发生了根本性的变化。

随着新的非易失性存储技术得到推广采用,在固态硬盘和传统硬盘之间对数据进行分级的需求也没有以前那么强烈了,因为新技术在成本上的竞争力已经胜过了更为高端的光纤通道和SAS硬盘。但是谢蒂认为,容量相对较大、价格相对较低的SATA硬盘仍有用武之地,但是装配上的复杂性和不同的软件接口会导致用户不想在同一个系统中使用混合存储设备。

Hitachi Data Systems的首席技术官Hu Yoshida称,闪存硬盘的价格将在3到5年内降低到与高性能硬盘相当的价位水平上。他说,它们的竞争力已经相当了,传统硬盘的容量因为短行程(short-stroking)和在RAID数据保护配置下跨多磁盘写入数据而减少了一些。

但是即便是商品硬盘的存取速度也会增加,因为厂商们在那些产品上添加了更多的高速缓存。希捷预计这种混合硬盘将在2015年之前被应用到它的大多数产品线中。

云存储服务将提供速度较慢但价格极其低廉的归档服务,以降低内部存储设备的存储负荷。例如,Amazon Glacier服务的价格低至每月每GB 1美分。 顾问公司StorageIO的创始人Greg Schulz称,虽然检索数据可能要花3到5个小时的时间,但那可能并不会比从磁带存储器中恢复数据所花的时间更长。从价格方面来说,Glacier的竞争力不会比磁带差。

格莱德温称:“对象存储技术可以通过消除分级文件系统的需求来降低存储成本和复杂性。在一个非常庞大的数据存储系统中,运行文件系统需要增加服务器的数量,而那会增加能源成本、占地空间和直接成本。 他说,利用对象存储技术,象社交媒体网站那样的应用不用使用文件系统也能搜索好友。

与此同时,IT商店将继续青睐具有成本效益、由廉价硬件和廉价开源软件的云解决方案。

例如,Constant Contact认为私有存储云也许会使用开源软件来降低成本和提供无限的可扩展性。皮舍说,使用Cassandra,他愿意将存储群集分散到很多分布式数据中心以实现灾难恢复的功能,这样就不会产生任何的许可证费用,而且不需要任何复杂的设置和人工干预。

他需要的复制功能还没有实现,但是他必须不断去寻找,因为正如舒尔茨所说的,对于绝大多数人来说,绝对不会出现数据减少的情况。