直视大数据管理风险:机遇之前是风险

大数据对于很多企业来说,并不意味着机遇或是商业上的无限潜力,在他们能够很好地管理数据之前,大数据只意味着风险和无穷无尽的烦恼。

在大数据的三个重要议题:非结构化数据超越结构化数据、结构化数据量激增和对结构化与非结构化数据进行商业分析之中,前两个议题的解决是第三个议题能够得以实现的基础和前提,没有良好的数据存储、保护、迁移和梳理,想要把数据进行分析无异于天方夜谭——数据从何而来?又如何分析毫无结构、头绪的非结构化数据?企业首要做的就是降低在面对大数据的时候的“数据量风暴和风险”。

但问题并不像表面上看那么简单——这不是存储容量的又一场游戏——而是对企业存储全方位的风险包围和警钟,除了容量危机之外,企业在大数据时代面临着极大的管理风险,这其中包括了日积月累的异构存储架构与复杂环境的“僵硬架构”、有限的存储管理人员无法应对越来越复杂的存储环境、日益增长的数据带来的紧张预算,当然,我们也要看到随着数据量的激增与数据类型复杂度的增加,对于企业的法规遵从也带来越来越大的影响。

可以说,在大数据对容量与数据分析系统造成的挑战与压力背后,是大数据对企业存储管理带来的极大风险——即便是简单的数据与存储工作都会产生风险,如果我们再来看看我们要对数据进行哪些操作,就会觉得这个问题更加可怕:备份、恢复、快照、迁移、复制、远程复制、重复数据删除、容量回收、归档、加密解密——仅仅粗略算来,对数据的操作就不下10项。

无论是从企业存储策略与环境来看,还是从数据与存储操作的角度来看,大数据带来的“管理风险”不仅日益突出,而且如果不能妥善解决,将肯定会造成“大数据就是大风险”的可怕后果。

Gartner:大数据到底有哪些挑战与风险?

全球技术研究和咨询公司Gartner指出,CIO通过排斥信息管理的其它方面而侧重在信息的大容量上来管理“大数据”挑战,但这留下大量的挑战需要在以后解决。当信息管理人员同时失去数据访问和资格方面的控制时,他们可能将侧重点放在量上。Gartner分析师告诫,过于狭窄的侧重点将迫使两到三年后进行大规模的再投资,以解决大数据的其它方面的问题。

Gartner研究副总裁Mark Beyer表示:“当今的信息管理准则和技术根本无法完成处理所有动态信息的任务。信息管理人员必须通过规划信息管理的所有层面,从根本上重新考虑他们的方法。访问大数据浩瀚资源的业务需求为信息管理人员提供了企业改变使用信息方式的机会。IT领袖一定要教育业务同行直面挑战,同时确保一定程度的控制和协调,以使大数据机会不会变成大数据混乱, 这也许会提高合规分险,增加成本并创建了许多信息孤岛。”

正如上文所述,分析师认为,量只是大数据挑战与风险中最直接和最常见的问题,CIO在将大量的交易信息转化为决策上一直存在困扰 — 现在有更多类型的信息需要分析 — 主要来自社交媒体和移动(情景感知)。种类包括表格数据(数据库)、分层数据、文件、电子邮件、计量数据、视频、静态图像、音频、股票行情数据、金融交易和其它更多种类。而速度则涉及到数据流、结构化记录的创建,以及访问和交付的可用性。速度意味着正在被生成的数据有多快和数据必须被多快地处理以满足需求。

此外,在数据泄露、丢失和黑客活动日益增长的今天,更好的数据保护和数据防泄漏都是企业CIO需要关注的问题。就像某汽车行业CIO向DOIT记者曾经说过的,以前全备份一晚上干4个小时,现在全备份4个晚上干完1次算不错,在大量的汽车先进设计手段的刺激下,汽车行业的非结构化数据的压力“暴增”,远远超过原有信息系统的承载能力。

但所有这些内容都需要备份或留档,因为这些都是非常重要的汽车设计资料。极大的风险摆在这位CIO的面前:备份窗口原来越长、重复数据删除技术并不是每一个都对非结构化数据有效、非结构化数据和结构化数据在存储系统中处于互相割裂、孤岛式的管理与存储方式的支撑下。所以这位CIO对分层技术、重复数据删除、固态硬盘、统一存储甚至是云存储都非常感兴趣,“这也是被逼无奈”。

解决之道:如何避免大数据的管理风险

避免大数据的管理风险的第一要务,并非是技术或产品上的实施与部署,最重要的,是企业策略与CIO理念上的转变:大数据首先不是机遇而是挑战,首先需要着手解决的不是数据分析、利用,而是将数据更好的存储与管理起来,这才是大数据时代企业CIO首先要做的事情。

当然,纠正概念并非意味着我们没有更有效的手段和方案却解决大数据的管理风险。从数量上来看,大数据的“可怕”之处首先就在于它的“大”,也就是数据的规模化效应,以现有的手动的、人工的方式自然是不能够很好应对的,因此,重要的是要有高度自动化的解决方案来应对。

高度自动化的方案并不仅仅是将企业的数据存储策略自动化、数字化,而是要求能够将各种存储设备(包括存储的数据类型)统一的、自动化的管理,通过自动化的、可靠的策略执行减少人员的工作量,而自动化的监控和报告、预警能够警示所有的不合规或备份恢复等策略无法得到正确执行的情况。显而易见的是,自动化的管理能够在一定程度上降低采购成本和TCO。

我们注意到,市场上很多的产品都开始在简化管理界面,加强自动化与智能策略管理上下功夫,无论是IBM如今正当主流的StorWize V7000还是EMC去年推出的VNX,管理界面和自动化程度都非常之高,以V7000为例,其脱胎于IBM高端存储XIV的管理界面简洁有效,即便SAN中有多台异构存储,当V7000虚拟化整个SAN环境下的磁盘阵列后,绝大部分管理工作只需集中在V7000上统一执行。从而简化管理,降低因为专业管理人员有限所带来的管理风险。

除了自动化之外,纵观如今的中端存储市场,位居前几位的供应商的中端存储几乎都是统一存储当道。IBM的StorWize V7000自然不用赘述,是业内中端存储向文件数据+块数据的统一存储转变非常快和非常成功的例子,EMC的VNX和入门级的VNXe也提供统一存储平台,戴尔拥有基于EqualLogic平台的FS7500和入门级的NS3500,NetApp则彻彻底底是以NAS平台为基础的中端存储自然不用再赘述了。

我们看到在大数据的非结构化数据不断激增的趋势下,中端存储相比高端存储更容易将块数据和文件数据整合在一个统一存储平台中,而这些系统为了将企业原有的块数据与文件数据以及不同的存储系统进行整合,统一存储同时还多是“虚拟存储”:V7000可以虚拟化SAN环境下所有异构磁盘阵列,形成一个融合的、统一的存储池。数据可以跨不同阵列透明地存储、转移,因此整个SAN下的资源可以被充分调动起来,迅速解决任何一个空间或性能问题,从而大大降低因为存储环境复杂所带来的管理风险。

自动化、块数据与文件数据的统一存储、虚拟化带来的存储系统整合,这些方法都能够有效降低数据存储尤其是大数据存储的风险。