主数据与归档数据的边界日益模糊——对此你打算何去何从?

与普遍观点相反,归档的方式比归档的内容和理由更为重要。对于大市场而言,“非归档数据”的概念已经过时。清除旧数据意味着要花时间或投资必要的资源来决定哪些数据可被删除,而大部分数据管理者都不喜欢做这类决定。因此,当今几乎一切数据都进行了永久保存,从而生成了巨大的数据和内容库,并造成了一种紧迫感,好像必须要建立一个能够在这个“永久性存储一切”蓬勃发展的新时代数据存储架构。

磁盘和磁带的使用现已重叠并提供更多选择

当内容所有者和数据管理者必须在主存储和归档存储之间做出实质性的权衡时,归档内容和理由这一问题显得更加重要。磁盘用于主存储,而磁带则用于归档。主磁盘非常昂贵,磁带归档为数据带来了巨大的管理负担,并且也限制对数据的访问。最新技术的发展已经改变了这一格局。对于长期存储来说,磁盘存储的成本不再过于昂贵。磁带解决方案不再是管理密集型,不再限制数据访问。然而,必须有合适的磁盘或磁带解决方案,才能让这些说法成立,并且对当今的归档使用量产生重要的意义。

现代归档的总体特征

最新技术的发展会对归档方式的效率产生巨大的积极影响,以下几点特征需要牢记:

低成本存储。节约成本仍然是寻求主存储替代方案的主要动机。

数据耐用性。归档数据必须得到很好的保护,对耐用性的需求包括站点灾难以及存储组件故障。归档就是要保留数据,而不是转移数据或丢失数据。

方便存取数据。归档数据必须能够轻松存取——如果不行,那又何必归档呢?

无线可扩展性。当今的架构需要轻松扩展,从而节约成本。

非破坏性的技术迁移。解决方案必须能够无中断地迁移到新的组件技术,从而提供长期利益,并从当前投资中实现成本节约。

优化归档存储的新技术特性

市面上出现了一些新的热门技术选项,实时归档策略时必须加以考虑:

1)擦除基于代码的对象存储。磁盘归档食物链中有史以来最伟大的事就是纠删码技术的出现,它有效地创建了数据开销,以便在组件故障时保护数据,这类似于“RAID技术添加奇偶作为开销”的方式。然而,纠删码与RAID不同,纠删码技术以数据分散的形式增加了开销,而RAID技术则在一组固定的硬件组件上运行。纠删码的分散算法将单独文件或对象转化为许多数据元素,每个数据元素都携带少量冗余,这样用户只需要取回数据元素的一部分来检索完整对象。当擦除基于代码的对象存储被部署时,无需复制,数据自然就能得到保护,以防止硬件组件故障。此外,当对象存储分散在多个站点时(称为“地理分布”),数据会得到进一步保护,防止站点级灾难,同样也不要复制。由于不需要数据复制,更不必说硬件是用来存储和保护数据的。这就是为何从根本上来说,充分利用纠删码技术的数据存储能够大大降低硬件成本。同时,由于只管理较少的数据,软件成本也有可能下降。最后,由于纠删码可在组件层面或驱动器层面处理硬件故障,而不是像RAID方式那样只能在机柜或机箱层面处理故障,我们很容易就会发现,在纠删码环境中将组件升级到新技术并不需要破坏性的叉车升级方式。

2)LTFS和NAS磁带。关于LTFS(线性磁带文件系统),已经有很多传言了。该技术于2010年推出,并能够实现全线的磁带使用模式。LTFS技术在磁带盒上提供了一个完整的自我描述文件系统,这使用户像是在自己的文件系统中将数据读取和写入到磁带上,用户可以逐字地将文件拖动到磁带上,甚至永远不用再担心“必须使用专属备份应用程序而在磁带上读写数据”的问题。当今市面上有一些解决方案,能够让大型磁带库像NAS共享一样被访问,读取磁带上的数据会变得多么轻松?越来越多的软件解决方案现在就支持LTFS格式,由于LTFS是作为SNIA组织的开放式标准而被推动的,LTFS磁带非常适合长期归档应用程序,这是因为开放式标准更有可能针对未来系统做好准备。LTFS软件能够将磁带上数据的读取和可移植性提升至全新的水平。

3)数据和磁带完整性检查。在磁带领域,数据耐用性的革命性特点就是数据完整性检查。一些产品让用户能够制定策略,确定磁带盒旋转到驱动器里的频率是多少,以测试磁带和磁带上数据的完整性。这就像旋转酒瓶进行长期保存一样。然而,与旋转酒瓶不同,用户能够对可疑的磁带采取行动,防止数据丢失。

现在做什么

显然,在当今存储一切的世界中,磁带和磁盘都起到非常积极的作用。通过上述技术,两者都能提供巨大的可扩展性和数据耐用性。正确的选择是由规模、用户访问需求和预计数据增长速度来推动的。

对于小于100TB的小商店来说:要认真看待可充分利用LTFS、通过NAS访问磁带并包含数据完整性功能的磁带系统。这些解决方案目前很不错,一些人可能甚至都忘记了自己使用的是磁带。

对于规模更大的环境,有选择是再好不过的。评估那些可充分利用纠删码对象存储的解决方案。这些解决方案可提供最全面的解决方案,以便读取数据,并实现较高的成本效益。如果预算非常有限,大型NAS磁带库将继续提供NAS读取数据的便捷性,并且只需牺牲很少的数据读取延迟性就能换得更低的成本。