本文作者Howard Marks是Networks Are Our Lives的首席科学家。
对于归档问题,我在写这个系列的博文的时候就一直在想我可以汇总一个工作表来计算给定数据集下各种存储技术的TCO(总拥有成本)。我越是这么想,我越是意识到即使只是初步地估算数据长期存储的TCO,我也不可能很快地完成这项估算工作。因此,我决定暂时放弃这项估算,转而大体估计各项成本因素,将实际的计算放在以后进行。
首先,让我们来观察带有强制保留模式的NAS(网络附加存储),比如带有SnapLock的NetApp Filer。一个计划使用这种类型解决方案的存储管理员需要计算各项明显成本,比如另一个站点的第二个NAS,复制软件,数据中心单位面积成本(300美元/平方英尺),15%的一年维护和电力费用。5到7年后他们的NAS厂商可能会在那时候宣布他们的NAS使用寿命终止,从而让这些管理员不得不开始迁移。
然后,这些存储管理员必须将所有数据迁移到新的存储系统;如果他们身处像医药或华尔街金融机构这样的行业,并且政府要求他们的数据存放在不可修改不可删除的系统上,那么他们必须支付非常昂贵的费用来迁移数据,并在迁移过程中提交所有未被修改的文件。现在,作为一名咨询师,我是喜欢从事专业的服务,但是你其实可以有更好的方法来减少成本。
因此,如果你使用的是NAS模型,那么在20年的时间中你可能要有2到3次迁移到新系统。好消息是,每次迁移的新系统的成本可以只花费旧系统的一半,而且更好的是,维护费用也会下滑。
RAIN(独立节点冗余阵列)系统,比如日立的HCAP(日立内容归档平台)、Permabit或NEC的Hydrastor,可以大幅减少硬件更换工作的负担。五年后,当你的厂商停止支持今天使用1TB驱动器的节点的时候,你可以在集群/网格中增加新的带8TB或16TB驱动器的节点,并告诉系统你希望移除旧驱动器。只要1天或20个小时,系统就会将所有的数据迁移到新节点,并告诉你旧驱动器可以删除了。
数据压缩,重复数据删除和磁盘减速技术可以减少空间和电能要求,但是不能完全避免这种成本。此外,你还需要在不同的地点部署两个节点以便能够真正地保护你的数据。
架上存储系统使用磁带、蓝光碟片或ProStor的RDX技术(一种只可删除的硬盘系统),这种系统可以显著降低存储成本,因为架上的存储不需要电能也不会产生热量。此外,媒介厂商也没有向我们收取架上磁带的维护成本。
如果你意识到数据中心一般只有35%的面积真正用于机架空间,那么一个高密度的带重复数据删除功能的存储系统的单位存储密度大约为75TB/平方英尺。走廊、UPS和PDU等事物占据了剩下的空间。因此,数据中心只有一部分空间用于存储数据。
一些制造基于磁盘的归档系统的厂商在计算磁带系统的TCO的时候,他们假设归档磁带像备份磁带那样处理,即采用RecCall或Iron Mt.这样的归档仓储公司的服务。这些公司会每天来将磁带的唯一副本带到仓库中去。这是一个非常消耗人工的流程,并使得归档数据的访问变得很困难,因此在这种假设下,这些磁盘归档厂商就开始计算来回运送成本,操作员成本,以及当用户等待仓库返回所需磁带时所产生的效率损失。
当我在讨论可移除媒介归档的时候,我想到的是完全不同的另一个模式,即将数据写入主站点的两个存储媒介,然后将数据复制到第二个系统,而第二个系统再写入到第三个系统。仓库存储的应该是第四个或以后的副本。
在主站点,最活跃的数据还是在那些运转中的磁盘上(最好还带有MAID(大规模闲置磁盘阵列)或重复数据删除系统),第二层存储在机器库中至少应存有一个副本,而深度归档应该放在离数据中心不远的机架上。归档软件和/或B&L的Vertices可以跟踪所有进出的媒介,从而减少媒介错放的问题。
架上的存储媒介可以归档高密度的数据,其归档密度可达到200TB/平方英尺,而单位成本只有35美元/平方英尺,远低于数据中心300美元/平方英尺的成本。现在你只需要一个操作员来载入媒介。每天从架上拿两三次存储媒介并不需要全职工作人员,而且这是从架上拿存储媒介,因此其成本要远低于从第三方仓库中提取存档。
云归档的成本计算最为简单。云厂商会给你一个固定的每GB每月费率表,然后如果你将数据存储在多个数据中心,你再多支付一笔额外费用,此外还要支付一笔比较可观的网络连接费。虽然在20年期间这笔费用将一直累加,但是你却可以很省心。