如何对存储在云端的数据进行精简管理

一年又一年过去了,磁盘空间的成本已经显著下降,50美元就可以买到TB的磁盘,似乎几乎可以不考虑磁盘成本。在企业物理环境,你不会考虑磁盘空间,但是在云环境中,你必须考虑,否则你将为此付出代价。

但是在云环境中,又是另一回事了。如果你的云空间有太多低价值的数据或者太多文件副本,会给你带来两方面的不必要的开销。首先是每月的存储费用,第二个是不可避免的性能影响,尤其是涉及搜索、查看、报告和系统更新时。在云环境中,确实有必要对数据进行管理,包括精简、重复数据删除和压缩等。

第一个步骤是评估问题:是文档?还是表数据?这些数据类型通常有不同的存储限制,对这些数据进行管理所使用的策略和工具往往存在很大差异。

文档通常是作为记录的附件(例如签署合同的PDF格式),用户可能不能轻易找到它们。相同的文档可能被附到三个或者四个不同的记录,此外,你还需要考虑其他情况,例如用户为迅速变化的文档附上了每个版本。第一件要做的事情是建立一份系统文档的清单(包括它们附加的记录ID,以及最后一次更新日期等),并使用电子表格过滤器,删除重复内容。市面上有很多很好用的重复文件删除工具(通过检测文件的内容来删除),但是不知道这些文件工具是否能够直接在云应用中使用。除非你愿意下载所有文件内容到你自己的服务器来进行深度分析,否则你只能使用元数据分析来管理文件。另外,由于光盘存储很便宜,你还可以将你从云环境删除的所有文件保存在光存储中,以防过后有人需要这些数据。

表数据又是另一回事了,对于不同类型的云服务,有很多系统特定的技巧和技术。下面是通用的管理表数据的步骤:

• 确定你的云系统真的存储存储问题。一些系统(例如财务系统)因为需要审计,并且必须在长期内保存所有细节信息,因而不能进行删减。其他系统(例如营销自动化或者日志分析)通常收集大量细节信息,而这些不必要的信息毫无疑问将会拖慢系统速度。

• 确定哪些表数据消耗超过总存储量的20%,将注意力放在这里。

• 对于每个表数据,弄清楚单个记录的价值。一些表数据(特别是帐户或者联系方式)是不可以触碰的,因为可能涉及隐私信息,并且删除这些信息可能带来不必要的麻烦(尤其是当这些表数据与外部系统息息相关时)。其他表数据,例如营销自动化系统中的“匿名信息”,完全可以删除。

• 再进行下一步之前,将所有云服务的数据完整备份到磁盘或者光学媒介,我想说的是:这个步骤很重要。

• 对于你可以自由删减的表数据,可以考虑采用“信噪比”的方法。对于完全无关紧要的信息,是否需要保留一段时间?例如,在营销自动化或者网络监控云中,我们是否真正关心6个月以前的匿名访问者?信噪比分数小于零的信息是否能够删除?采用这个方法前,请确保首先得到所有相关用户群的同意,基于信噪比的数据删减方法可以在短时间内删除数百万条不必要的记录。

• 有些表数据的信噪比分数不错,但是随着时间的推移,这些存储的细节信息并不值得。例如,很多营销自动化和E-mail blasting系统使用活动表来记录重要电子邮件和网络交互活动。这些活动表可能占据系统一半的存储。但是一年前用户是否观看了视频A或者视频B有多重要?使用这个作为“试金石”:如果特定细节信息不会实际改变任何人的决定或者行为,它就不再是“信息”。在这种情况下,我们建议采用压缩的方法:保存信息,然后在六个月左右后删除大部分信息。这些历史信息通常作为自定义表存储,形式包括令牌字符或者微小存储需求的位图。这个策略需要认真的考虑,但是可以基于信息价值删减很多不必要的信息。

• 一些表数据(特别是联系信息等)可以在短时间内收集大量重复信息,尤其是当你的公司在信息收集和处理方面存在问题时。如果你的云系统提供重复数据删除工具 (来自主要供应商或者第三方),那么可以买一个好点的工具,然后认真研究。最好的工具具有模糊逻辑算法,可以让你在不需要将数据移出云环境的情况下找到和合并重复数据。这个合并过程适用于大多数数据,但是如果你有很多数据冲突(例如,相同用户的两个不同的手机号码)的话,你可能需要在进行合并前,创建阴影域,使用不同的数据来进行预先填充。出于多种原因考虑,数据合并必须分几个阶段进行:清楚10万条重复数据需要占用很多CPU事件,以及你是思考时间。不要急于进行合并操作,因为一旦合并,就无法撤销。

上述大部分步骤都是一次性修复,而不是一个过程变化。如果你不愿意为提高数据管理流程花钱,你可能需要时不时地关注一下这方面的进展。