据分析,到2020年,全球以数字信息存储的数据量将达将达到35ZB,是2009年全球存储量的40倍。而在2010年底,根据IDC的统计,全球数据量已经达到了120万PB,也就是1.2ZB。在信息化的建设过程中,数据可以分为3种:结构化数据、半结构化数据和非结构化数据。其中,85%的数据属于企业业务过程中产生的文档等非结构化数据。而何谓“大数据”,通常所指的就是这些海量的非结构化数据。在这样的大数据时代,如何将大数据管理好,如何对大数据进行分析处理,挖掘出价值? 相关的一系列问题成为了所有企业面临的共同挑战。
IBM的大数据平台愿景
在大数据时代来临的时候,面对这么多数据,如果没有好的分析工具的话,将很难从数据中得到有效地信息。IBM看到了大数据带来的机遇,在原有信息管理平台所提供的解决方案基础上,向着大数据的管理和分析迈进。IBM软件集团大中华区信息管理软件总经理卢伟权表示,IBM能够为用户提供一套完整的信息管理解决方案,从数据的管理、集成再到分析,并在整个过程中提供对数据的治理,从而对整个数据生命周期进行有效的管理。而IBM在接下来一年中的重点工作,就是大数据。
2011年,IBM已经相继的推出了自己的大数据管理解决方案以及大数据平台愿景,正式将大数据纳入其信息管理技术框架之中。而且IBM最新也推出的两款大数据分析的平台,InfoSphere BigInsights和InfoSphere Streams。从名称上可以看出,BigInsights所指的是利用大数据获得更多的洞察力,而Streams则表示流动数据的分析。在这两款平台中用到了Hadoop MapReduce、Jaql等开源技术,可以提供内存以及磁盘的分析功能,而且它们也有自己的明确分工,BigInsights用来处理磁盘中的静态数据,Streams在内存中对流动数据进行实时的分析。
BigInsights:静态大数据分析平台
InfoSphere BigInsights的存储和运算框架采用了开源的Hadoop MapReduce生态系统的各种开源组建,利用分布式文件存储系统,将文件分成不同的部分存储在不同的节点上,并进行备份。相应地可以在原有系统基础之上,添加更多的节点进行Scale Out,增加了扩展性。而且BigInsights中提供了IBM开发的增值集成功能,例如IBM特有的通用并行文件系统,即GPFS,利用GPFS的目的是为了避免单点故障,保证了可用性。
目前BigInsights提供了两种版本,一种是企业版(Enterprise Edition),用于企业级的大数据分析解决方案。另一种是基础版(Basic Edition),去掉了企业版中的大部分功能,用户可以免费下载,主要提供给开发人员和合作伙伴试用。作为一款企业级的Hadoop解决方案,BigInsights能够在常用、低成本的硬件上运行,并行支持线性可伸缩性。
Streams:实时大数据分析平台
InfoSphere Streams其实最早诞生于美国国土安全部和IBM合作的反恐项目,当时美军利用Streams进行反恐数据的实时分析,而现在Streams已经转化为商业的项目。在Streams分析平台中用到了内存分析(In-memory Analysis)技术,它可以用于对流动的大数据进行实时的分析,它允许用户开发的应用在信息从成千上万个实时源到达时便快速对其进行采集、分析和关联操作,及时捕捉并处理关键业务数据。
而Streams最大的特点就是内存分析,利用多节点PC服务器的内存来处理的大批量的数据分析请求。与BigInsights不同,Streams中的数据并不存储在磁盘当中,而是在内存中进行实时的分析,也就是说Streams数据不落地,而是载入多少数据就分析多少数据,能够与BigInsights形成互补。简单来说,Streams的特点就是小巧灵活快捷,数据是实时流动的,其分析反应速度可以控制在毫秒级别,而BigInsights的分析是批处理,反应速度无法同Streams相比。总体来说,BigInsights和Streams二者的设计架构不同,也用于处理不同的大数据分析需求,并可以形成良好的互补。
BigInsights和Streams这两款产品是IBM大数据平台中的最重要产品,也是目前业界唯一的针对大数据的分析软件产品,它们的推出让IBM成为目前业内唯一一个拥有专属大数据分析平台的厂商。IBM通过这两个平台,能够在大数据上提供更为快速和多样化的分析处理能力。IBM中国开发中心信息管理首席架构师及大数据架构师陈奇表示,BigInsights和Streams两款产品定位为企业级的大数据分析产品,将在实际应用中充当IBM大数据平台的动力引擎,帮助企业用户在统一平台上实现对动态数据与静态数据的综合分析。