第1页:Hadoop的魅力在哪里?
近两年,IT业界创造了很多新名词,继云计算之后就是大数据。如果你在谷歌里搜索一下会发现,国内外IT业界提到“大数据(Big Data)”的频率都要远远高于其他名词,甚至其搜索频率高过了“云计算”。其实,云计算不是浮云,大数据也不会是洪水猛兽。
图 Informatica核心技术部资深产品管理总监郑玮
那么,什么是大数据?郑玮则一针见血地指出:什么是大数据:大交易数据、大交互数据和大数据处理的总称。相对于业界提出大数据的规模性(Volume)、多样性(Variety)、高速性(Velocity)和真实性(Veracity)的“4V理论”,郑玮更加推崇大数据的三个特征(3V:Volume、Variety、Velocity),除了数据总量之外,还有数据的速度和种类。
第三方市场调研IDC公司预测,未来10年,数据总量将增长44倍,达到35ZB(Zettabyte)。这些庞大的数据量、80%的混合结构数据,以及考验CIO神经的数据分析处理能力,都对企业应对大数据综合实力提出了高质量的要求。
Informatica郑玮定义大数据
当然,我们看到有很多行业仍然显得风平浪静,远不像互联网、金融、制造业等竞行业竞争那么激烈,但是从行业竞争的角度来说也是“暗流涌动”。 Gartner研究表明,全球500强中85%的企业将无法利用他们的大数据,而且,如果没有得到正确的管理,大数据也可能代表了巨大的成本和法规遵从风险。
Informatica郑玮解读大数据三大特征
对处理数据的平台带来新的压力。采用昂贵的设备进行数据处理当然好,但巨大的成本压力已成为很多企业难以承受的负重。用户希望能够以更经济的方式、更好的性能来处理数据,从而能够经济有效地利用快速增长的数据推动业务创新。在这样的背景下,Hadoop获得了快速发展。
Hadoop的魅力在哪里?
2008年,作为Apache开源项目发布的Hadoop,自问世以来几乎成为了大数据的救世主。Hadoop的两个重要特性:经济性和可扩展性,让其一时间红遍全球IT界。一些开路先锋已经投入很大精力来开发Hadoop,Hadoop取得的成功同时也促使主流市场对其稳定性、成熟的管理等更高的需求。这个群体中有影响力的主要厂商包括Cloudera、亚马逊、MapR、Hortonworks、DataStax、EMC、IBM、Informatica、微软和甲骨文等。
Hadoop的魅力到底在哪里?郑玮指出其中原因,Hadoop结合了成本低、可扩展性、无需构建预定义模式(predefined schema),而且能够灵活地处理任何数据等优点。
当然,能够让Hadoop几乎一夜成名的原因还在于Hadoop能够真正提高大数据的价值。精益原则在大数据时代比以往任何时候都有效,并且是使大数据不成为大债务的关键。Hadoop使企业能够使用精益数据管理,以降低数据成本,这包括:业务成本、硬件成本、人工成本、软件成本、存储成本。此外,通过易访问性、可操作性、权威性、整体性、相关性、安全性、及时性、可信性等特性,Hadoop还能帮助客户增加数据的价值。
第2页:Informatica释放Hadoop的潜能
Informatica释放Hadoop的潜能
“没有数据集成,大数据就仅仅是许多海量数据的孤岛” 郑玮表示。
在IT环境中,Hadoop不能作为一个孤岛存在。为了让Hadoop可以跨越不同平台并成为一种主流技术,用户需要将Hadoop作为他们IT大环境中的一部分来管理,通过Hadoop重复使用他们的开发技巧、资产及数据,并统筹管理全部数据。而在大数据时代,许多人寄希望于Hadoop厂商们能够开发出成熟可靠的工具、功能和技术创新,以更经济的方式、更好的性能实现数据处理和分析。
一直以来,Informatica公司都立足于提供一款单一的平台,借助统一的环境和方法,全面满足数据管理和数据集成方面的要求。特别是,Informatica 9.5的推出为企业用户带来了他们所需的交互性、生产力以及可管理性,以便快速采用Hadoop并最大化他们的大数据投资回报。
其实,早在2011年6月份,Informatica就推出了Informatica 9.1 for Big Data,打造一个专门针对大数据分析而创建的统一数据集成平台。如果说Informatica 9.1 for Big Data还是对大数据功能的一种尝试,那么Informatica 9.5则完全以大数据为核心的新一代大数据平台。
已经拥有近20年数据集成创新经验和领导才能的Informatica,扩展了其数据集成平台以支持Hadoop,最新发布的Informatica 9.5提供了全新及扩展功能,极好的释放了Hadoop潜能,帮助客户实现大数据最大投资回报。
Informatica 9.5释放Hadoop的强大潜能
那么,具体Informatica怎样来释放Hadoop的潜能的呢?郑玮通过数据处理的六大步骤给予说明。
第一步,是将数据摄入到Hadoop;
第二步,发现Hadoop数据的异常、关系和域类型;
第三步,在 Hadoop中解析和准备数据,这对于Informatica来讲是非常独特和重要的,现在数据类型非常多,要对其进行分析,首先要解析,将其变成可以工作的结构型数据;
第四步,在Hadoop中转换和清洗/标准化数据,数据一旦格式化后就可以进行转换、过滤、集成、分类等等;
第五步,在Hadoop上调用自定义业务分析;
第六步,从Hadoop上读取数据,目前一些大的报告工具,还不能够直接在很多平台上运行,因此需要把计算结果提取出来放到传统数据库中。当然,在一到六步的实现过程中,企业还需要管理整个过程,需要监督、监视系统发生情况。
目前,Informatica 9.5已经实现了上述提到的一、三、六步的功能,而二、四、五步功能则将在2012年底推出的Informatica 9.5.1版本中实现。
编者按:
当前,IT巨头都在通过自己独立的方式化解“大数据”难题,虽然极力避免,但是受到某些IT厂商霸道“绑架”行径却是屡见不鲜。如果厂商提供公开的API还好,如果厂商有意封闭,那么最抓狂的还是企业用户,就等着“一条道走到黑”吧。第三方大数据平台的出现,将在一定程度上打破企业用户担心的“捆绑”危机。