掘金大数据 不能仅靠Hadoop

 “作为一个IT人,如果不会聊两句Hadoop和云计算,都不好意思跟人打招呼。”套用电影《大腕》里的经典桥段,足以说明云计算和大数据在业界的流行程度。君不见,英特尔、EMC都发行了自己的Hadoop优化版本,IBM、甲骨文都已经将Hadoop当做了自己大数据解决方案当中一部分,CloudEra则力图创建商业化的Hadoop整体解决方案。一时间,Hadoop甚至成了大数据解决方案的代名词。

  大数据≠Hadoop

  不过,当商业用户在实际创建大数据应用解决方案,希望借此从中获得商业价值时,他们就会发现,有了Hadoop,仅仅是有了大数据解决方案的基础架构部分——这也是目前大部分厂商在研发并能提供的;而对大数据的完整应用方面,绝大部分厂商还只能提供大数据整体框架当中的一部分,更别提如何帮助企业将现有的IT架构与未来能够处理大数据的架构进行融合了。“我们现有的IT架构都是主机+集群模式,如何将现有平台与大数据技术结合,这么做在处理数据会遭遇到哪些挑战,我们心里还没底。”某银行客户如此表示。实际上,上述金融客户所遭遇的问题,在国内并不鲜见。显然,他们需要的一个具有强悍能力的大数据集成平台,而不是一个单纯的Hadoop技术方案。目前,IBM、甲骨文以及微软都有类似的方案。

IBM大数据平台框架和应用程序解决方案

  IBM大数据平台框架和应用程序解决方案,从中可以看出基于Hadoop技术而发展起来的BigInsights已是IBM大数据平台当中分析静态数据的核心和基础。

 端到端:IBM大数据方案解析

  从IBM的大数据平台框架和应用程序解决方案可以看出,其中大数据平台包括4大部分:信息整合与治理组件、大数据的核心处理平台(包括基于开源Apache Hadoop的框架而实现的BigInsights平台、流计算平台、数据仓库、语境搜索等四部分)、加速器,以及包含可视化与发现、应用程序开发、系统管理的上层应用。

  IBM软件集团大中华区信息管理软件总经理卢伟权先生表示,除了传统上提到的大数据量(Volume)、多样性(Variety)、速度(Velocity)之外,数据的真实性(Veracity)在未来的大数据应用中会越来越重要。“社交数据、企业内容、交易与应用数据等,超越传统的数据源,这些都需要有效的信息治理来确保其真实性及安全性。”他说,“IBM除了可以对传统的数据仓库和数据信息进行管控和审计,也可以对来自不同信息源的大数据信息进行真实性审核并实现有效管控,这也是IBM在业界特别强于其他厂商重要的维度。”

  据悉,实现信息整合和治理的组件是Guardium,其数据治理部分有三大特色:首先,其主数据管理能够将来自不同数据来源的重复数据集中在一起管理;其次,每一个产品里面都有安全性管理;第三,通过一个整合的平台进行管理。目前,Guardium能够管理包括DB2、Netezza、Oracle、Sybase、Informix、SQLServer、SharePoint、Teradata、MySQL等在内的软件数据。

  在此之上是IBM的BigInsights平台,此方案基于开源Apache Hadoop的框架实现,并增加了包括管理能力、工作流、安全管理等能力,并融入了IBM研究实验室的独特和领先的数据分析、机器学习技术以及文本数据分析挖掘。IBM表示,所有这些增强都是为了更好的使得该方案能适用于复杂的,海量数据的分析。“Hadoop平台上并没有相应的管理工具,也没有将不同的数据进行汇总的功能。”卢伟权说,“IBM借用过去几十年在数据库领域的经验,将数据库的管理办法也移植到大数据管理平台上,让Hadoop平台的可用性、可管理性、安全性都提高了很多。”根据不完全统计,IBM在Hadoop平台上至少新增了100个功能。

  不仅如此,BigInsights不仅支持目前最流行的x86平台,也能支持性能强劲的Power平台。“借助为Power平台优化的Linux系统,BigInsights能够在Power System上良好地运行。”卢伟权说,“这就使大数据方案在分布式处理能力的同时,还能充分享受到Power系统的高性能。”IBM大中华区软件事业部银行业解决方案高级顾问陈剑补充说,“IBM的BigInsights方案是非常开放,不仅能够支持标准Hadoop,也能支持一些主流Hadoop发行版,例如Cloudera Hadoop。这就意味着客户可以从第三方平滑地移动到IBM企业级Hadoop平台上。”作为对比,Oracle的大数据方案,明确要求应用Oracle公司优化过的Hadoop版本。

  不过,“BigInsights并不是对数据仓库的替换方案,它是对传统数据仓库的一种补充和延伸,整体构成一个更广义的Internet级别的海量数据仓库。”陈剑先生说。

 3A5步:技术之外的IBM大数据能力

  除了IBM的技术平台之外,IBM软件集团大中华区业务分析洞察及智慧地球解决方案总经理卜晓军先生表示,IBM的大数据能力更体现在IBM能够利用其过去在企业的信息架构当中所积累的能力,帮助企业去打造一个端到端的“3A5步”的完整能力,帮助客户解决从海量数据当中发掘其背后的商业价值。

  “以证券行业为例,他们在应用大数据的切入点,就是如何在每秒钟上百万笔的交易中间进行及时分析,从而发现交易异常,帮助决策。”卜晓军说,“大数据能够给客户带来的商业价值是什么,在电信行业、移动互联网的行为分析非常清楚,IBM能够帮助他们实现,并通过3A5步的方式不断优化,持续获益。而对于一些新兴行业,IBM也有责任帮助客户在大数据环境下,找到转型切入点,从而获得商业价值。”

IBM智慧洞察帮助客户从大数据当中获取商业价值

  IBM智慧洞察帮助客户从大数据当中获取商业价值

  IBM软件集团制造事业群总经理萧丁瑞先生表示,在制造行业,由于形态差异比较大,对大数据应用切入点就有不同的需求。“对大数据的应用切入点,在制造业可以根据业务形态和生产形态这两个维度进行划分。制造业中的业务部门和客户服务部门,甚至于针对消费电子和消费市场的产品设计部门,因为有足够大的数据量,他们需要分析客户需求,进行精准营销、服务和设计。”他在接受比特网记者的采访时说,“而从生产面来看,连续性生产对大数据应用方案的需求就远远组装业。其中,IBM的半导体工厂就是最好的示范,已应用了IBM整套大数据解决方案,借此提高半导体机台的生产良率,降低维护时间。”

小结

  在大部分厂商还满足于提供局限在基础架构层面的Hadoop大数据解决方案的情况下,IBM已经拿出了一套从大数据当中挖掘出商业价值的整体框架和可用的商业化平台,并在在金融、电信、制造、零售等多个行业当中已有成功的案例实施。可以说,在客户急需大数据整体解决方案的情况下,IBM为客户提供了一个可见的实现蓝图。