数据裂变:数据以生物形式快速增长

导语:Steve Duplessie,作为ESG (www.ESG-Sino.com) 的创始人兼首席分析师, 被视为全球数据中心相关技术最权威和最具影响力的IT分析师,在数据中心相关技术的走向和产品化方面也被誉为导航师。他在数据中心方面的观点往往语出惊人,让人耳目一新。就目前数据增长,他也提出了自己的独特见解—就让我们来看看他是如何来看待这一问题的吧。

和数据中心相关的诸多问题都是由数据快速增长而衍生的。数据的不断增长,在看似平静的表层下,孕育着巨大的力量,凡是阻挡数据增长进程的都会被摧毁。不可遏止的增长数据,超出了你的文件系统、磁盘、系统、网络、保护计划,甚至你的生活所能承受的。我们只有无休止的扩容,奔命于数据增长可能带来的下一个问题。

找出问题的症结而不是追踪问题的表象,是我们必须要做的。数据增长是自然产生的(世界上新数据一直在不断生成),但大部分数据是由科学研究产生的。如数据扩展、副本、副本的副本、备份副本的副本、备份副本的副本的副本等等,这些不只是容量问题,而是和科学一样复杂的问题。

生物学中有一个被称为裂变的过程。裂变指一个细胞分裂,形成两个相同的细胞。若在合适的环境下任其发展,这些细胞将再次分裂,形成四个相同的细胞,以此类推。很快,整张桌子将摆不下快速繁衍的细胞。如果科学家采用IT人士的做法,他会在细胞过多前,将培养皿中的所有细胞倒进一个更大的容器中让它们继续快速繁衍。之后,不断重复这样的操作。

通常,生物科学家们选择精确数量的单细胞副本,用来进行不同的测试或实验。IT也应该考虑这种做法—我们也需要一定的数据副本来测试不同应用程序的运行。科学家利用副本进行多种实验来观察会发生什么,而IT部门则利用副本进行测试、填充数据库、创建备份副本和灾难恢复副本、发送副本给其他用户等等。本质区别在于,科学家们预先就知道他们需要多少副本,因此,他们是有规划的。而且实验完成后,他们可扔掉副本,不用任其一直复制下去。而IT行业中,我们很少清空培养皿,相反,我们不断创建新的副本。IT进程很少有科学实验室里的那种预先规划,这种由于副本保留导致的数据增长,造成很多数据是毫无用处的,我们绝大部分的问题都是由此而造成。而我们解决此问题,就只是从供应商手中购买新一代更大的培养皿来应对。

Data Domain的经验证明,在备份进程中清除重复数据是一件大好事。现在我们能听到一千个有关“重复数据删除”的故事,但一个不可否认的事实就是,清除不再有用的重复数据是有益的,而无端保留这些重复无用的数据是罪魁祸首。

如果说在数据生命周期结束时清除重复数据是件好事—那么越早清除越好,这是一个前沿领域。在这些毫无价值的重复数据有机会造成问题之前就尽快将其清除,从而避免与生物学复制类似的繁衍问题。数据清除、压缩技术、重复数据删除、消除或压缩复制数据,这些相近的概念都是可行的,从逻辑上,都为数据处理的下游创造出巨大利益。

如何能使上面的理论实现呢?目前有两种可行的方式:第一,根据进程和战略需求确定所需副本数量、保存时间,以及如何处理副本的计划。第二,在这些副本不可控之前,采用技术清除副本,就像清除一些IT中的蟑螂,若最终蟑螂胜出,你就只能被踢出局。

如果备份目标市场中的重复数据删除创造的价值远远超过20亿美元(且在持续增长),那么想象一下该功能更贴近数据创建点(我们产生的所有不同数据类型的创建点)的话,又会产生什么价值。我们会是绿色的(没有什么比这更绿色)、资源充足的(我们暂时无需购买任何新系统)、稳妥的(管理负担更少等于更少问题),而且可能实际上只花8分钟即可完成所有工作,并且有时间去思考如何为企业增加战略价值,这与整天在一个充满有害物质的房间里忙着倾倒培养皿形成了鲜明对比。

那么,我们何时开始将这项具有奇迹功能的技术运用到“食物链”中呢?如果它适用于备份,那应该也适用于主存储。但是主存储中创建的数据类型不同,如记录、文件、对象、块等数据。存储在主存储的数据经过了不同阶段:何时?在哪里实施删除技术?这是一个需要每个人都考虑和决定的。

1.所有数据都是动态或交易处理过程产生的—Word、PowerPoint、交易数据、 法律文本、视频和MP3等等,所有数据在一段时间内都是动态的。动态数据很重要,应该受到最高级别的保护,此阶段,如果数据丢失会造成很大影响。这是我们通常做第一个数据副本的地方,我们很可能在这里做镜像。

2.根据通用数据生命周期,某段时间后所有数据将成为“固定的”或“持久的”。数据不是同时进入固定状态,但最终都会发生。UDS的第二阶段就是我们称为的“持续活动数据”,也就是不再变化的数据,而数据仍然是非常活跃的。这并不是说,对该数据的访问就变得不重要了。通常在这个阶段数据访问会显得更为重要,我们往往在这里建立最重要的数据副本。通常,我们为了灾难恢复而复制数据;建立备份副本和快照;复制数据以测试/开发系统;用电子邮件将副本发送给我们的供应商、合作伙伴。之后,我们备份副本的副本并创建更多副本。我不是说我们不该建立副本,我们需要多次创建这些副本。只要不同的系统/应用程序需要,我们就要提供副本。我们可能不需持续支持那么多副本。

3.生命周期的第三阶段就是数据进入“持久非活动”状态。也就是不变动、极少访问的数据。90 %的商业数据则处在此生命周期。因此,从过程和技术方面来讲,90 %的资本节约和运营效率的提高也正在这个阶段发生。既然这些数据永不改变,而且你已经备份了其副本的副本,为什么有人还备份这些数据?在这个阶段,你应该考虑与前一个阶段截然不同的方式来处理这些数据。这些数据应该存储在一个非常廉价、一次写入极少读取甚至不读取的、非常节能的系统中,最好一个普通员工就能负责所有管理。这也是我们想大规模缩减数据副本的阶段。这仍然可以在“主”存储,但是,通过应用重复数据删除技术,可能会节省50%或更多的总容量。将备份常识/灾难恢复策略相结合,太棒了—你可能会有一两个轻松的周末。没有比这更节能环保的了!

4.第四阶段就是恢复阶段。通常需要异地深层归档或“以备世界末日的到来”。好在如果你必须要做异地备份,你无需对9756份同样的固定数据的副本进行恢复,是吗?3或4个副本对我来说似乎就足够了。

因此,下一步要弄清楚如何使重复数据删除的起始点更贴近数据创建点,其最大的价值点也在数据生命周期的第3阶段。我们还必须认识到,压缩备份数据(顺便说下,这是明智之举)意味着重复删除文件,但主容量中我们不仅仅有文件。我们需要重复删除数据块、记录和对象等等。在备份中完成所有这些是很了不起的,因为我们可以将所有数据类型合并到文件中处理,但当我们趋向上游来处理数据时,这表示我们做出了更明智的举措。例如,只有很少部分人考虑数据库压缩。考虑投入一大笔钱来挖掘资金潜力—在最昂贵、最复杂和最透明的交易系统上进行数据压缩,其投资回报率将是巨大的。备份当然是一个难题,但如果重复数据删除已在备份过程中创造了数十亿美元的价值,想象如果在交易世界中那又会如何。视频和多媒体方面的可挖掘的价值也很大,因为它仅消耗容量。基于内容的对象本来就很复制,这一块除了法规遵从之外,还不会被视为价值的主流。