DOSTOR:2012 Q1-Q2大数据市场观察

2012 Q1-Q2大数据市场观察

一、2012 Q1-Q2大数据市场综述

综述:根据DOIT 2012年Q1 IT应用调查显示,超过90%的用户对于大数据(Big Data)概念有所了解,超过80%的用户表示其所在的企业正在面临大数据的挑战,而85%的被调查用户表示,85%的大数据属于广泛存在于社交网络、物联网、电子商务领域的非结构化数据,企业中只有不到15%的数据属于传统的结构化数据。

大数据市场开始关注复杂数据类型

在2012年Q1-Q2季度,大数据市场的话题正在从大数据的“量”上,转而开始涉及到大数据的“质”上,除了大数据的巨大数据量所造成的企业存储挑战,越来越多的企业开始重视大数据中的另外两个问题:大数据浪潮中包含着大量的非结构化数据和异常丰富的数据类型——其中也包括异常丰富的终端所造成的数据来源问题。

大数据可以概括为三个V,即大量(Volume)、多样性(Variety)和速度(Velocity)。这也是早期阶段企业处理大数据所面临的三大挑战。传统数据库通常面对的不过是几千行几万列的数据规模,而大数据所面临的数据量能达到几亿行几百万列。而且,大数据所处理的70-85%的数据不属于关系型数据,而是文件、文本、视频、多媒体等“多种数据格式的复合体”。如果想在如此庞大的数据量级中进行检索必须要有针对大数据的检索和处理方法,需要一种完全不同的IT系统架构。

企业倾向于自建Hadoop方案

大数据市场中最重要的解决方案仍然是Hadoop,但越来越多的企业开始寄希望于传统或者说旧有的架构能够解决大数据的问题,而不是依靠新的平台。Hadoop虽然属于开源项目,但包括IBM、戴尔、惠普、Oracle在内的供应商提供的Hadoop解决方案都价值不菲,这也带来了企业更加倾向于自己建立或者通过SI或ISV建立Hadoop平台。在2012年上半年,企业自建Hadoop的热情更为高涨。

根据DOIT IT应用调查的数据,超过70%的企业考虑利用Hadoop自己开发面向大数据的解决方案,只有不到20%的企业用户鲜明的表示将采用供应商提供的大数据(Hadoop)平台或解决方案。

大数据风险问题被提出

在以上两个季度,大数据话题中重要的话题还包括大数据所带来的存储和数据风险问题。企业在大数据时代面临着极大的管理风险,这其中包括了日积月累的异构存储架构与复杂环境的“僵硬架构”、有限的存储管理人员无法应对越来越复杂的存储环境、日益增长的数据带来的紧张预算,当然,我们也要看到随着数据量的激增与数据类型复杂度的增加,对于企业的法规遵从也带来越来越大的影响。

可以说,在大数据对容量与数据分析系统造成的挑战与压力背后,是大数据对企业存储管理带来的极大风险——即便是简单的数据与存储工作都会产生风险,如果我们再来看看我们要对数据进行哪些操作,就会觉得这个问题更加可怕:备份、恢复、快照、迁移、复制、远程复制、重复数据删除、容量回收、归档、加密解密——仅仅粗略算来,对数据的操作就不下10项。

无论是从企业存储策略与环境来看,还是从数据与存储操作的角度来看,大数据带来的“管理风险”不仅日益突出,而且如果不能妥善解决,将肯定会造成“大数据就是大风险”的可怕后果。

二、2012 Q1-Q2大数据市场领导厂商动态

1、IBM

作为行业的领导者,IBM在大数据领域2012年上半年的重点在于两个方面:1、大数据可能面临的风险;2、大数据的数据分析、数据价值的提取。

在第一个问题上,IBM主要推动以高度自动化的解决方案来应对,IBM方面认为,高度自动化的方案并不仅仅是将企业的数据存储策略自动化、数字化,而是要求能够将各种存储设备(包括存储的数据类型)统一的、自动化的管理,通过自动化的、可靠的策略执行减少人员的工作量,而自动化的监控和报告、预警能够警示所有的不合规或备份恢复等策略无法得到正确执行的情况。显而易见的是,自动化的管理能够在一定程度上降低采购成本和TCO。

同时,IBM倡导通过统一存储的方式来提高面对大数据的复杂数据类型——尤其是非结构化数据——的挑战,IBM认为,在大数据的非结构化数据不断激增的趋势下,中端存储相比高端存储更容易将块数据和文件数据整合在一个统一存储平台中,而这些系统为了将企业原有的块数据与文件数据以及不同的存储系统进行整合,统一存储同时还多是“虚拟存储”:V7000可以虚拟化SAN环境下所有异构磁盘阵列,形成一个融合的、统一的存储池。数据可以跨不同阵列透明地存储、转移,因此整个SAN下的资源可以被充分调动起来,迅速解决任何一个空间或性能问题,从而大大降低因为存储环境复杂所带来的管理风险。

自动化、块数据与文件数据的统一存储、虚拟化带来的存储系统整合,这些方法都能够有效降低数据存储尤其是大数据存储的风险。

另一方面,IBM BAO重点推动业务洞察与分析大数据的数据价值,提取数据的知识。IBM在五个方面提供支持,包括:第一是提升决策水平,第二是提升抗险能力,第三是提升总体效率,第四是提升用户体验,第五是提升企业盈利能力。IBM方面提出,通过BAO解决方案的深刻分析能力,企业能够加强对业务的理解,包括对消费者、市场活动、竞争对手等的洞察,通过监测模型,预测机遇和风险,从而获取价值。同时,精确的内容分析能够帮助企业高效分析所有相关的消费者信息,从而提高流程效率和准确性,增强业务的敏捷性,做出实时、优化的业务决策。自动信息分析能力则能够加强企业内外部协作,从而加快决策速度。最为重要的是,突出的预测能力使企业得以在市场情况变化之前计划、预算和预测资源,优化结果,提高企业可视化和执行力。

此外,今年IBM钱大群表示,IBM会不断将投资倾斜到以中国为领头羊的新兴市场。

2、EMC

EMC方面在2012年上半年的市场战略主要分为三个部分:1、文件存储系统EMC Isilon;2、EMC Hadoop和Greenplum解决方案,大数据分析平台;3、大数据时代的数据保护和备份恢复、灾备问题。

在EMC Isilon方面,EMC在今年EMC World 2012上,将其提升到与传统中端存储VNX的同等地位,EMC Isilon是针对大数据提供的技术,有空前的可扩展性,空前的容量和超凡的易操作性,可以管理15PB。同样可以保持很好的文件系统 IO/s 性能,IO操作可能达到百万级。更重要的是易操作性,每次需要扩容的时候,企业根据数据量增长的过程,只需要增加新的节点。

EMC Hadoop和Greenplum解决方案方面,Greenplum Database是专用于结构化数据的并行处理的数据库,不仅能够很快地对大规模数据进行处理,原来在传统情况下需要几十分钟几个小时的,在并行的情况下可能几秒钟就可以得到很好的结果。Greenplum Database另外的特点是对数据的吞吐能力,与其他传统数据库的对比,有10倍数据吞吐量的增强,能保证分析的数据是想要的数据。Greenplum Database提供极佳的可扩展性,自动并行化处理和调整,添加节点实现线性可扩展性。

今年EMC推出了在Greenplum上处理非结构化数据的Hadoop平台,不仅仅能处理非结构化数据的增长,而且和结构化数据平台紧密结合在一起,能够帮企业更好的处理数据,为企业找到增长的亮点。今年,EMC还推出了Greenplum Chorus新的数据协作平台,让业务部门和IT部门能很好在同一个平台上协作,把数据真正价值挖掘出来。

最后一点,EMC的BRS部门在今年重新被“唤醒”,EMC在EMC World 2012上最重要的话题之一就是BRS——EMC备份恢复部门——这一部门今年与大数据紧密相连,主要话题聚焦在大数据的数据保护难度和可快速实现的备份恢复与灾备上。

3、惠普

惠普是在大数据领域较为低调,解决方案方面惠普主要是发布了扩展信息优化解决方案(Information Optimization solutions)。惠普的主要精力仍然是在于咨询服务研讨会上,其中包括:惠普大数据战略研讨会(HP Big Data Strategy Workshop)、针对Hadoop的惠普路线图服务(HP Roadmap Service for Hadoop)帮助企业评估和规划Hadoop平台的部署。同时,惠普宣布惠普永续支持服务(HP Always On Support Services)可用于全新的HP AppSystem for Apache Hadoop以及包括惠普组件的参考架构。

此外惠普宣布推出了最新版惠普Vertica 分析平台(HP Vertica Analytics Platform),惠普方面表示,Vertica FlexStore架构为大数据分析提供灵活的框架,包括与Hadoop、Autonomy或任何其它结构化、非结构化或半结构化数据源的高级集成或联合。   Vertica 6扩展了其分布式计算框架,内置支持高级R分析语言的并行执行。通过强化对云和SaaS(Software-as-a-service)的支持以及针对混合工作负载环境的更深入能力,Vertica 6成为针对大数据分析的最强大、最全面的平台。

三、2012 Q1-Q2大数据技术动态

1、Hadoop

Apache Hadoop 2.0今年发布了首个 alpha 版本,该版本还不能用于生产环节,还有一些很重要的开发没完成。该版本包含很多新的很重要的功能,包括HDFS HA (manual failover)、NextGen MapReduce a.k.a YARN、HDFS Federation、Performance Wire-compatibility for both HDFS & YARN (via protobufs),除了新功能以外还有一些重要的改进,例如 HDFS Snapshots 和 auto-failover for HA NameNode, 另外在稳定性和性能方面都有提升。

四、2012 Q1-Q2大数据市场重点新闻

IBM新版并行文件系统增加大数据功能

新的发布有Active File Management(主动文件管理),一种异步版本的GPFS多集群同步复制功能,可以让中央GPFS站点镜像到其他远程站点,让远程站点的用户可以本地访问镜像数据而不用通过广域网。这种链接是双重的,因此任何一方的更新都会导致另一方的更新。

http://www.dostor.com/article/2012/0522/4619059.shtml

EMC在Isilon上整合Hadoop大数据产品

随着Isilon OneFS v6.5的发布,EMC已经在提供一站式Apache Hadoop解决方案以及它认为在Hadoop领域中缺乏的一些要素。

http://www.dostor.com/article/2012/0201/7088461.shtml

Cleversafe搭建10EB大数据存储系统

Cleversafe承认目前最大的单一存储系统是来自SpectraLogic T-Finity家族的一款3.6EB磁带库。而Cleversafe有了一个能够与磁带相抗衡的系统,因为它能够在线访问多达1048576TB数据。

http://www.dostor.com/article/2012/0131/3149922.shtml

大数据:Oracle出货Exalytics内存设备

Oracle所谓的Exalytics In-Memory Machine是一款基于Sun Fire X4470 M2(去年6月公布)高端x86服务器的数据库设备。从技术上讲,这个内存设备被称为Exalytics X2-4,应该还会有更多更低端和更高端的型号。Oracle早在去年10月份的OpenWorld大会上提前展示了,并且在今年二月底开始出货。

http://www.dostor.com/article/2012/0315/9621653.shtml

大数据的价值!EMC推协作+社交创新产品

EMC新推出的Greenplum chorus产品:在结构化和非结构化数据上不限制数据的规模,具有全球化应用效果的开放架构产品,在大数据分析方面提供一个智能协作的应用程序,快速回应客户对数据的需求,Greenplum chorus针对传统的分析流程相对冗长,提供更快、更容易的敏捷分析,建立成熟的分析模型应用于业务中,通过一个协作的平台帮助客户在现有以及未来的业务应用上提供弹性的分析模型借鉴。

http://www.dostor.com/article/2012/0423/5577005.shtml