行业解析:选择SaaS产品和服务的五个步骤

没有人用赛车运干草,也没有人在赛道上开拖拉机。每种交通工具都有自己的特性,使用范围和价位。面对不同的工作应该选用正确的工具。数据存储也遵循同样的原则。我们应该选择不同的存储类型满足不同的存储需求。

每个企业都有数量庞大的信息需要处理,其中大部分最后都要存起来。现在,客户读取历史记录胃口在无限量膨胀,公司因为数据读取和业务需要对信息量的需求也在不断增加,因此,需要存储的数据只会越来越多。而且会持续以指数级速度增长。《科学》杂志近期刊登了一篇由Hilbert和Lopez撰写的报道(见2011年4月1日出版的《科学》60-65页),报道称2007年全球电子数据的存储量是276EB(1EB等于10亿GB)。思科公司的一份题为“思科视野中的网络指标:全球移动数据流量最新预测,2010-2015”的白皮书指出,不久的将来,仅移动通信数据量每月就将达到几EB。到2015年,视频数据量将占这些数据总量的66%,而且,按照我们现在的使用模式,很多视频数据将被多次重复存储。

评论:三级分层存储将在未来大放光芒

如果思科公司所说的增长速度将保持平稳,那么到2022年,仅每月产生的移动信息量就将超过2007年全年全球的数据存储总量。当然,其中会包括像“跳舞的小孩”这样的视频,但与之相对应地,存储库里也会保存银行数据,加密健康记录和销售网点数据库等非常重要的信息。如果调出一个“跳舞的小孩”视频要花15秒,没多少人会介意。但对于文件读取请求而言,15秒的反应时间对客户来说会像是一个世纪那么漫长,长此以往,公司会被 “慢”死掉。有些信息就是要能即用即取,而其他数据则可以放在相对更慢更便宜的存储区。你可以把它想成温度,保存最快最重要的数据为“热”,保存最慢最不重要的数据为“冷”。

“如果你是一条航线,有人想预定一趟航班,那么让对方快速查到航班时刻表并完成预定操作会让客户心情愉悦。”希捷公司高级产品营销经理Teresa Worth说。 “航班预定一旦成功,航空公司也收到了机票费,那接下来航线数据就可以从 ”热“转为”温“了。如果客户想换航班,查询座位号或其他信息,客户肯定还是希望速度够快,但这时就不再是那么”热“了,因为航空公司和该客户的交易已经完成。航班飞过后,数据就可以变”冷“或近线存储了。当然数据仍需保持在可以被查询的状态,因为客户也许想在年末查询当年的飞行里程,并确定他们的这次飞行拿到了积分,但这时候让他们稍微等等也没有什么大问题了”

就像做饭一样,温度就是一切。或许还是跟做饭一样,热的材料最受关注,但做饭用到最多的还是那些冷的,放在冰箱冷藏和冷冻室里的材料。热存储一般都存在容量较低的驱动器中,而冷存储驱动器通常存储的数据则要多出好几倍。这就形成了某种动态的平衡,你必须在设计分层存储时考虑到这个因素。T一个公司分层存储时采用了何种方法对公司的经营收益会产生重要影响,甚至关乎着公司的存亡。

分层模型更新

存储分层这个想法已经出现几十年了,但因为存储技术的不断发展,这个想法的细节也在因此不停的更改。更改集中在中间层和存储架构上。

这里说的中间层是指选用的存储媒介。磁盘存储,也就是硬盘驱动器以前既被用于交易型存储(热)也被用于近线存储(温),而磁带则主要被用来归档(冷)这三种存储的具体含义如下:

交易型存储。指用于高速和大量商务交易的数据。交易型数据常常和产生利润的业务直接挂钩,对公司生计有着决定性的作用。

近线存储。以上述航班的例子为例,近线数据就是指那些从即时读取降级成快速读取的信息。它就像是放在档案柜的卷宗,而不再是摆在桌子上的棘手文件。你仍然能快速方便的找到它,但得稍微多花点时间。虽然时间成本增加了,但换回来的是存储媒介成本的大幅下降。

归档存储。不久,你的档案柜存满了。这时,企业常常会找出最老的文件,把它们装箱然后放到像地下室或仓库这样的冷存储室里。这就是归档。如果方法得当,所有的数据将仍然被有序存放,但很明显,想找到具体某个箱子查找到其内容会花更长的时间。随着每GB磁盘存储价格的下降,磁盘在不断入侵并占领磁带的市场,结果就是近线和归档存储之间的界限越来越模糊了,但磁带在企业归档市场中,尤其是在备份/故障恢复应用方面仍然处于统治地位。这说明,在基于磁盘的系统当中,磁带库也能被虚拟化和使用。

随着固态磁盘驱动器的普及,很多人正在注意到金字塔尖还有一个新的存储层:Tier 0。

分层模型更新

“Tier 0是专属于SSD的,它涉及到的工作任务最重,占空比、耐久力和性能稳定性最大” 希捷公司高级产品营销经理Teresa Worth 说。 “ Tier 0上的信息都是和交易及IOPS相关的。更快地完成交易能让公司挣更多钱,或者提升顾客的满意度,进而增加公司的竞争力。”

如果想完整的解释存储架构,可能需要有一篇专门的文章。小企业用直连方式和网络连接(DAS和NAS) 这两种存储可能就能很好的运作起来,这两种存储一般会分别选择eSATA 或 USB 3.0再加以太网,我们知道这些就够了。但是这些连接的性能和可扩展性都受到了某种程度的限制,因此不适用于较大的存储。而事实上,在上世纪90年代及本世纪最初几年里,存储区域网(SANs)的光纤通道技术已经标准化了。光纤通道的成功在很大程度上是源于对协议的宽容性。IP, iSCSI, ATM和其它协议都能在该网络中运行,效率也都一样。

现在,作为一种网络技术,光纤通道能产生的最大传输速度是8 Gb/s 或16 Gb/s,但驱动器接口的最大速度则仅为4 Gb/s。对于企业来说,这样的带宽够用了,但以太网的潜在带宽是10 Gb/s,而且以太网有价格优势和更广泛的使用范围,因此光纤通道将很快面临压力。过去高速以太网的致命弱点是它的高价位以及由此对系统资源产生的影响,但网络适配器中出现了TCP卸载引擎,它与更强有力的CPU结合后,高成本的问题已经基本得到了解决。这项技术加速了光纤通道在架构和存储驱动器两个层面的衰落,为以太网的iSCSI扫清了障碍,最近,因此受益的又变成了串行并列SCSI(SAS)。和光纤通道一样,驱动连接器和存储网络互联都在用SAS,SAS因此变成了现在最高性能分层存储的最佳解决方案。我们很快将跟进一篇专门讲述SAS的文章。

分层存储服务器选择

大多数分层存储都会用到某种类型的存储服务器。表现形式一般是:将单机服务器系统连在被称为JBODs(“就是一摞盘”)的外接存储箱上。这时,一个JBOD跟一个连在类似SAS接口上的装有基架的磁盘柜差不太多。The JBOD attaches这个JBOD反过来又跟服务器相连,服务器里会包含一个存储控制器,该控制器能进行RAID操作并将磁盘阵列连接到一个更大的SAN结构中。下图展示的Xyratex RS-1600-FC2就是一个JBOD磁盘柜。

分层存储服务器选择

还有另外一种方法:有些企业喜欢把控制器/服务器和驱动器装在同一个磁盘柜里。一种常见的设计是使用12个热插拔的3.5“驱动器,配合一个服务器平台和3 Gb/s 的SAS结构,然后把它们装在一个3U的磁盘扩展柜。存储器制造商们生产的磁盘柜有7U的,甚至还有能装载超过60个3.5”驱动器的8U磁盘柜,见下图所示的双面STX XS62-2810。

分层存储服务器选择

很明显,存储服务器的性能如何以及能否找到正确的目标层取决于使用了哪种存储处理方法和驱动技术。装有6 Gb/s SSDs 的最先进的Xeon 5600平台将被应用于Tier 0,而基于SATA的JBOD如果和三年前研发的单CPU相连之后,则更适用于Tier 2。现在的分层技术中有一些模糊的地方,其中大部分都是和Tier 1有关的。Tier 0需要可观的预算作支持,才能挖掘其性能的最大潜力,而Tier 2常常被用来平衡可靠性,容量和价格。前些年谈到这个话题的时候,我们的选择似乎还只局限于两种:也就是只需要在最快的SCSI 3.5“硬盘驱动器和最大的PATA或 SATA 3.5”硬盘驱动器之间作权衡。而现在,需要考虑的因素增加了很多。

这篇文章中表达的想法是和头三级驱动器存储相关的,也就是从交易存储到近线存储。这里的讨论中我们可以忽略磁带,而把目光聚焦在两种主要存储类型,它们的形状系数及其它一些需要考虑的问题上,这些因素在为分层存储方案选择驱动器时都需要考虑到。应用程序过去一直是被磁带和光盘统治的,不过,我们应该注意到,把磁盘也纳入考虑范畴将越来越有其必要性。一篇由企业存储集团撰写苹果公司发起的题为“分层存储蓝图”的论文说道:在磁盘,磁带和虚拟磁带解决方案之中,“故障恢复的失败率平均为40%。” 究其原因,在部分程度上问题就出在企业所存的数据的量上,以及存储大量数据时非磁带不选。在Tier 3选择相对更慢但更可靠的、又能保护RAID的硬盘存储能显着降低深层存储器中数据毁坏的风险。

SSD 驱动器选择:SSD

梯形存储的顶层是SSD,它的形状系数一般都是2.5”。现在,SSD将NAND 闪存作为其存储媒介而不是硬盘驱动器转盘来使用,对此你肯定已经不再陌生了。不过,NAND 存储器有两种:单层式存储(SLC) 和多层式存储。单层和多层代表的是每个存储单元里可放置的信息单元(bit)数。多层式存储(MLC)的优点是每个单元能存储更多数据,因此单个NAND芯片的总容量更高,但这是以牺牲速度和使用寿命(系统失效前闪存单元可执行的写循环次数)为代价的。

通常来讲,SLC的每个存储单元里可进行约10万次读写。2-bit MLC每个单元能接受的读写次数只有大约一万次,而到了3-bit MLC就仅剩一千次了。不过请记住,SSD中能进行数据写入的逻辑单元块有上百万个,而且,写入算法一直在发展,因此写入次数也在不断增加。随着容量,速度,读写次数的增加,基于MLC的SSD正在受到企业界越来越多的青睐,而且有望成为未来Tier 0市场的主力军。不过,SLC技术仍然是Tier 0应用程序中的首选。

SSD 驱动器选择:SSD

在企业存储市场中,SSD是如何被使用的呢?通过希捷公司的Pulsar系列产品,我们可以对此有个更清晰的认识。目前有三种Pulsar 产品:Pulsar, Pulsar.2和 Pulsar XT.2。早先的Pulsar 驱动器使用的SLC NAND容量分别有50, 100和200 GB,它们使用的都是3 Gb/s的SATA接口。 Pulsar.2使用MLC,容量从100到800GB不等。接口既可以选择6 Gb/s SAS 也可以用6 Gb/s SATA,并且希捷还提供了加密功能。对那些对数据安全要求较高,尤其是法律上对此有强制性要求的企业而言,加密功能是非常关键的。加密功能将确保所有写入磁盘的文件都得到AES的保护,没有特定权限的人都不能进入。Pulsar XT.2使用了容量为100, 200和400 GB 的SLC存储器,接口则只能选用SAS 6 Gb/s,型号有加密和不加密两种。

SSD 驱动器选择:SSD

Tier 0目前使用的仍然是SLC SSD,因为交易型存储系统每秒产生的数据请求可能会多达几百,甚至几千个,因此写入次数在这一级至关重要。这也是为什么尽管SSD性能表现非常高,一些企业公司在遇到重要应用程序时,仍然依赖硬盘的原因,因为硬盘是业界公认的MTBF 评级标准较高的产品。一般说来,同样花一美元,SSD可实现的IOPS是企业硬盘驱动器的20倍。 HDD大约是它的10倍。用哪个技术更好呢?答案不是固定的。不同的公司应该根据自身的需求和特点,对各项技术的优缺点进行权衡之后作出选择。