几十年前,当Oracle、SQL等数据库技术风靡全世界的时候,广大的IT人士可能不会想到在几十年后的今天,一堆堆毫无计划性、毫无关联的社交网络访问记录、图片,或者音视频会成为用户手心里的“宝贝”,这些数据在当今可能会成为一个生意人致胜的法宝。而对于十几年前,甚至几年前开始建设数据中心的管理人员来说,也不会预料到后端的存储空间会被大量的非结构化数据填满??
非结构化数据时代来临
是的,大数据时代来了,而且来势汹汹。大数据并不是一项技术,而是由于不断增长的数据量和数据种类而逐渐衍生出来的一种现象。搜索一下大数据的定义也可以发现,各家厂商都在基于自身的理解去定义大数据。以NetApp为例,其大中华区系统技术及专业服务部总监何英华表示,NetApp认为大数据应该包含三大要素,分别是:大分析,帮助用户获得价值;高带宽,让数据处理速度更快;大内容,指的是不丢失任何信息并实现高扩展性。而Teradata天睿公司大中华区产品技术及销售支持副总经理张锦沧则从四个维度解释了大数据的概念——三个V和一个C。三个V分别指的是数据量大、数据种类多和数据增长速度快。一个C指的是处理、升级或利用大数据的分析手段比处理结构化数据要复杂的多。
虽然每个厂商对于大数据的理解都不同,但其中一个共通点就是大数据包含了大量的非结构化数据,包含了诸如图片、音视频、邮件、社交网络数据等等与传统关系型数据完全不同的数据类型。
ESG中国区总经理王丛认为,大数据与增长量有关,但是不代表增长快的就是大数据。从存储角度来看,数据量的增长是一种挑战,如何将这些增速飞快的数据进行存储并合理规划存储空间,是亟须解决的问题。而从数据分析角度来看,大量的非结构化数据的增长在为用户带来挑战的同时,也带来了很多机遇。对于以交易型数据为主的行业,例如金融、零售业等,对数据进行分析,提炼出具有商业价值的信息将是此类用户面临的大数据挑战。而对于像广电IPTV、网游、社交网络等需要存储大量的音视频、图片、社交网络数据等等非结构化数据的用户来说,后端存储如何应对飞速增长的庞大数据量,是他们面临的大数据挑战。王丛表示不同种类的行业,面临的大数据挑战也不可等同视之。
存储领域的“大数据”效应
在大数据时代,非结构化数据量的增长是用户必须要面对的难题之一。近几年,针对非结构化数据的存储系统也在不断地出现。例如统一存储、集群存储等,都将海量的非结构化数据的存储作为目标。这些存储产品在大数据时代中能否合乎需求呢?
首先,统一存储产品集中了SAN和NAS存储两种功能,分别面向关系型数据和非结构化数据。国内市场中,相比于NAS来说,SAN的发展速度和用户采用率一直都占据优势。但随着最近两年非结构化数据量的攀升,存取文件系统更加有利的NAS系统逐渐受到重视。可以看出,最近的两年中,主流的存储厂商 EMC、NetApp、IBM、HP、Dell都将统一存储作为了自己的推广重点。
针对统一存储,王丛表示,它也存在着一定的瓶颈。比如,在某个时段,非结构化数据猛增,此时,非结构化数据的存取会占据大部分的带宽,而结构化数据就无法享受到应有的带宽。在数据中心用户中,以数据库为主要内容的结构化数据往往又有很高的业务重要性。因此,王丛表示,对于大数据时代所要面临的海量非结构化数据而言,统一存储可能会存在瓶颈。
在Gartner首席分析师张瑾看来,大数据对于存储领域带来的最重要的影响就是从Scale-up向Scale-out的转变。传统的存储一般都是采用双控制器或者多控制器存储,当容量和性能进行扩展的时候,往往只能从后端增加磁盘数量,当磁盘数量增加到一定程度时,前端的控制器却无法随之扩展,这种架构必定会形成性能瓶颈。但何英华也提出了不同的观点,他说,对于用户而言,Scale-up和Scale-out两种架构也并不是完全冲突的,有时两者也有互补的时候,用户须根据自身的应用类型,才可以判断需要哪种架构的存储产品。
众所周知,SAN系统具有很高的性能,但由于数据块和网络需求的增长,SAN系统的扩容问题也逐渐凸显。NAS是公认的解决文件数据的最佳方案,但是NAS头的瓶颈问题却也无法满足大数据的需求。用王丛的话说,存储容量和控制器的处理能力不成线性增长,必然会导致性能瓶颈。王丛表示,在大数据时代之下,集群存储的市场空间将会扩大。
在谈及集群存储和传统存储区别的时候,业内人士通常会使用一个形象的例子去描述。传统的存储相当于旧的火车,在一个火车头的牵引下,若想提升存储容量,只能采取不断增加车厢数量,但是火车头的牵引能力也是有限的。而集群存储就类似于动车组,在增加容量的同时,性能也不会削减。通过将数据分布到集群中各个节点的方式,集群中的所有存储资源可以整合为前端的应用服务器进行服务,大大提高了磁盘的利用率。
目前,存储厂商在这方面的动作也显示了集群存储日渐受重视。例如,2010年,EMC通过收购Isilon公司,弥补了其在NAS产品线方面的空白,并且确定了其在Scale out NAS产品市场的领先地位。同时,戴尔在2010年也通过收购Exanet进入到了集群文件系统市场。IBM在同年4月份发布了新的集群文件系统 SONAS。HDS通过收购BlueArc也开始销售高端NAS产品。
国内产品像华赛的N8000也是一款集群存储产品。王丛表示:“集群存储市场正在逐渐走向成熟,而目前中国市场可以选择的集群存储产品还不是很多。对于以非结构化数据为主营业务的中小型企业来说,一款可以满足其基本需求的集群存储是其迫切之需。”通过硬件存储厂商的不断并购也可以发现,他们早已嗅到了大数据带来的无限商机,集群存储市场潜力巨大。
大数据除了可以带来集群存储方面的市场机会之外,何英华也阐述了另一层面的大数据影响。他表示,伴随着非结构化数据的增长,用户所关心的重点可能会逐渐向数据仓库、数据的挖掘、采集等方面倾斜。他说,在底层硬件存储和用户的应用之间,增加了另外一个操作系统层,该操作系统可以为用户的应用与存储提供一个无缝的连接。他认为,用户面临的挑战未来会倾向于在软件层面解决,底层的硬件存储需要对这些软件应用进行良好的支持。因此,NetApp也将重点放在了其Data ONTAP操作系统之上。何英华表示,Data ONTAP提供了丰富的API供用户自己开发并适应自身环境的产品,以便更好地管理其应用和存储产品。
数据分析的机遇
除了看到存储厂商在大数据领域的动作以外,还可以发现数据仓库厂商也扛起了大数据的旗帜。张锦沧表示,在大数据时代,分析工具能否快速收集和分析变化飞快的数据,并且如何去有效地使用它们是一个挑战。而Teradata天睿公司在传统数据仓库方面积累经验的同时,也通过收购Aster Data公司向大数据迈进了一步。
同时,一些传统存储厂商也不再满足于自己在存储方面的市场空间,纷纷开始向数据分析发力。他们在通过不断的并购或者合作,在向数据分析领域扩展自己的触角。例如EMC在2010年通过收购Greenplum,正式进入了数据仓库市场。并且在2011年推出了支持大数据分析的下一代平台——EMC Greenplum统一分析平台。
在同一年,IBM收购了数据分析公司Netezza,开始拓展商业价值方面的市场。而在戴尔企业战略营销副总裁Praveen Asthana来中国时,针对数据分析,他举了一个很生动的例子。在加州有一个棒球队,他们没有钱去雇佣一些顶级球员。但他们却花了较少的钱请了一位数学家,该数学家通过对很多球员和球队的分析,得出了一些结论,这些结论主要是通过分析他们是靠什么因素获取胜利的。而通过这个结论,该球队找到了一些不是很出名的但是却有其独特优势的球员,靠者他们获得了很多奖项,并赢得了世界杯。Praveen Asthana表示,这就是数据分析的价值所在。
与此同时,这些传统的存储厂商也纷纷开始在Hadoop方面下功夫。从最近的新闻也可以看出Hadoop的确“集万千宠爱于一身”。在收购了 Greenplum之后,EMC推出了一款基于Hadoop的专用数据协同处理设备——Greenplum HD数据计算设备,可以一个单一、无缝的解决方案去实现对结构化和非结构化数据的协同处理。IBM在2011年也推出了基于Hadoop的 InfoSphere BigInsights分析软件,为大数据做准备。
NetApp通过与Hadoop的“鼻祖”Cloudera公司合作,发布了其Open Solution for Hadoop解决方案,帮助用户深入了解不断增长的数据。同样在2011年,戴尔也与Cloudera进行合作,加入了Hadoop阵营。有人形容现在的 Hadoop就像当年的Linux。也有人预测,未来的Hadoop会取得像Linux一样的成就。
王丛表示,Hadoop之所以会迅速占据技术热门,是因为它很好地解决了目前数据的“无计划性”。与以往的结构化数据不同,现在用户面临的数据种类、数据量,以及数据之间的关系都是毫无计划和规律的,这对于传统的数据库来说,处理此类数据简直不可能。而Hadoop的出现,解决了此类问题。在这里,就不赘述Hadoop的技术原理了。
作为一款出色的开源架构,确实给厂商带来了很多便利性。但是,开源也就意味着很多方面还不很成熟,需要不断完善。所以,王丛也表示,以目前Hadoop的发展状况,只有那些具有充足的开发资源,并且有着丰富的Hadoop经验的用户才能够开发出成熟的可用的平台。
面对大数据的汹涌来袭,数据中心用户必然会面临更多的新技术抉择。紧跟技术的潮流,选择适合自己的大数据工具,才能在大数据的潮流中挖掘出更多的商业价值。
集群存储
集群存储一般由多个存储节点组成,每个节点都包含了前端端口、控制器和后端的磁盘,他们组成了一个存储单元。而在大数据到来需要扩展容量或性能时,会以节点为单位进行扩展。对于大数据时代之下,数据增长趋势难以预测的用户来说,集群存储可以实现像搭积木一样的简易扩展性,同时也不会影响现有存储的使用。
集群存储的灵魂是其分布式操作系统,所有对集群存储的操作都经由分布式操作系统统一调度和分发,分散到每个存储节点上完成,可以大幅提升性能。这种结构与传统的NAS或者SAN完全不同。集群存储可以实现容量和性能的线性提升,不会遭遇到控制器的处理瓶颈。