Hadoop的核心是百分百开源

2012Hadoop与大数据技术大会11月30日北京召开。Hortonworks CTO Erir Baldeschwieler就Hadoop的现状与将来发展的趋势做了精彩的演讲。

Erir首先介绍的什么是大数据。以及Hadoop的概念。Erir认为不同的企业对大数据的应用都不同。
“首先可以看到交易系统,看看现在公司在做什么,他们也在更新自己的一些数据。可以看到这里有很多的数据是你的公司要处理的,一个传统平台并没有这么高的成本效益来处理大数据,所以我们需要一个很好的平台能够搜集所有的有效的数据,有效地处理大数据,与它的系统进行交流和沟通。一个小的数据平台和大的数据平台有什么区别?首先在水平上有扩展性,这是一个很具有挑战性的问题,所以需要一个使用起来非常方便并且非常灵活能够在不同一些应用中都能使用的,也能在虚拟的云计算中使用的平台,这是你所期待的平台,这是大数据平台的概念。”Erir讲到。

对Hadoop概念的答案是,它总结了Apache平台上各种开源的存储和项目,所以有很多的处理,处理了很大的数据,这有两个基本的层面,一个是HDS,它是一个分布式的文件系统,还有Map  Reduce,是一个处理平台可以处理非常简单的工作,能够把它进行细分,然后把它分布到成千上万个机器上。通过这样的系统可以看到,有4.5万这样的应用,通过开源来进行应用,使用起来非常地方便和快捷。这个平台有什么关键的特点。首先我们有可扩展性,你需要有这个能力很容易地在电脑上使用,现在已经有4万多台电脑,而且在可控制性上非常地重要,而且可靠性是非常重要的。虽然它的重要性变得日益地增加就更加地重要了,如果在另外的集群如果有问题会造成巨大的问题。

Hadoop的核心是百分百开源

部署Hadoop的,可以看到这里有各种各样的价值,包括交易价值和社会价值,社交媒体也在使用。所以可以利用企业智能工具进行自己的部署。因此我们有了分销也有了相关的参考架构,同时也有一些机构来支持Hadoop的企业级应用和部署。我想,Hadoop将会是未来的大数据的平台,2015年的时候,全球的数据中的一半将会是通过Apache的Hadoop来处理的。另外Hortonworks的使命是为大家提供百分之百开源的Hadoop的平台。另外我们也会做进一步的投资使它成为企业级的大数据平台。因此我们鼓励生态系统的开发商能够提供更多的生态系统的开发来支持Hadoop的平台。另外我们会做大量的培训。

核心是什么?我们希望每个人都关注百分之百的开源分布,因为核心是这个平台一定是开源的平台,尤其对全球来说都是开源的。对大数据来说,为什么会成功?成功的关键在于达到一个临界的质的积累。这也是为什么我们公司支持百分之百的Hadoop开源分布。这样在未来任何一个合作伙伴和供应商都可以在开源平台上合作。现在很多人都在做Apache的Hadoop的标准调整,希望和我们的平台结果对接。但我想,在未来我们不希望把市场进行细分,不管是怎样的状况。

Hadoop可以减少成本 提供效率

“如果你需要在单元的成本上减少,而人员的操作成本上也可以减少,这是非常重要的一点。我们看看Hadoop的应用和部署吧。”Hadoop主要的活动,一个是交易系统,包括了网站、网址、数据系统和与客户的交流,下面还有业务情报和分析,这里会用到很多这样的系统。这样的系统在成千上万的公司中都会用到,价值非常之高,也需要用Hadoop。这里有一些新的技术,这些的一些数据并不太与传统的结构相配合,可能会影响到其他的应用上的空间或性能和容量,可以造成很大的问题,Hadoop可以很高效地把数据搜集起来对它进行处理和精炼。实际上Hadoop并不是替代了现有的数据的结构而是不足、补充现在所看到的就是你实施了Hadoop,你可以做之前公司做不了的事情,包括捕获一些新的数据,以成本效益很低的形式来处理数据,可以把它用在传统的系统架构之上。当然以前也能处理,但成本效益在传统的系数上很低,很多的数据都会把数据进行转型和转换用于数据库之中,他们在传统的平台上做的效率非常低。所以通过Hadoop就能够增加你的成本效率,包括你的数据库、数据平台这方面都可以得到更高的效率。

Erir举例说明,在不同的行业里可以因为这个应用会得到更好的成功。“我们也观察到在早期的时候技术刚开始采用的人们是非常关注那些能够找到技术优势的人们,他们愿意采用风险来尝试一些新的东西。随着技术逐渐的成熟,而且应用更加地广泛,一些使用者开始使用,他们需要看到和使用这个技术给他们带来更多的价值。所以这主要是作为愿景的应用,慢慢地逐渐得以使用,使自己的业务能带来更多优势的转型。所以说,技术怎么能实现这样的转型?一定在刚开始有很多成功的案例,使用起来非常地容易。另外我们要给予培训和支持,建立良好的生态系统,这样才能更好的应用在各个企业。”

目前世界500强企业以及其他公司基于互联网投资Hadoop。首先是现在的ATL可以从其他的新闻中搜集数据进行处理,把它的放在系统上,挖掘数据。它的关注点是,询问数据,用观察数据找到未来的形式,丰富数据的使用,经常在网上使用,这也是在雅虎上经常使用的。现在Hadoop在4.2多万个电脑上使用了。雅虎每个页基本上的内容都是通过我们来处理的,所以它确实对于雅虎上个人化的应用和其他一些公司的服务产生了重大的影响。

Hadoop是在整个的空间中毫无断线地运营下去,它可以存储各种各样的数据,因为大多数的数据特别是很多公司投资的新的数据并不是一些传统上遵循传统结构的数据,而且它必须具有经济效益,这也是我们不能低估和忽视的一点,比较强调的一点。大数据意味着成本很高,如果你扩展平台中的运营和效率会产生很多的成本。

接下来再看一下未来我们要做怎样的投资。我们对Hadoop平台的开发是非常振奋的。Ambari是管理和监测服务的供应商,在4000多个个集群上部署数面临着很多的挑战的。新的Apache项目是由Ambari负责的,他做了大量的监测和警戒的工作。现在大家也看到了Apache领域的进展,我们也期待着未来合作伙伴可以有更多的创新。

企业为什么愿意采用Hadoop?

为什么很多企业都愿意采用Hadoop呢?是因为它能够处理非常大型的数据,而且对未来的数据需求来说是非常重要的。但随着数据的增加我们还是面临着挑战,所以每个人、每家企业都因为这个项目来选择Hadoop,主要是因为从大数据的规模的角度来说愿意采用。所以看一下Hadoop的变化,Hadoop2.0改进了拓展性,还有任何的框架上都可以在Hadoop上进行运行,另外,还有一些项目、流、CP包括处理引擎等等。另外还有服务器。我们还支持其他的框架,比如说比较低的之后还有服务和流。这样可以用一个Hadoop群集可以做以前需要多个群集才能做的事情。另外还有一个HDFC2.0,实际上它是类似于一个联盟的性质,因为它可以通过多个NameNodes进行拓展,这给存储带来了价值,另外也允许我们新的NameNodes提供新的性能,因为在Hadoop里面会提供新的拓展,我们整个社区在做着大量的创新。