HPC解决方案助美国大学克服研究瓶颈

12月2日、3日,Hadoop in China 2011在北京会议中心成功举办。大会以“海量数据掘宝”为主题,聚集了一千余名来自世界各地的关注Hadoop专家、开发者和使用者。

本次大会一个最大的亮点就是邀请到了Hadoop的掌门人——Doug Cutting。IT168记者在大会现场采访到了Doug Cutting本人,在采访过程中,Doug Cutting谈到了企业如何才能更好地使用Hadoop,开发者如何才能更好地参与到Hadoop的贡献,同时,还讲到了他从Yahoo!到Cloudera所遇到的问题,最后Doug Cutting还畅想了未来5到10年内Hadoop的发展前景。

IT168:欢迎来到IT168,首先请跟我们的网友打个招呼好吗?

Doug Cutting:很高兴来到这里,谢谢!

IT168:第一个问题是,Hadoop在中国已经作为一个默认的大数据处理技术,被互联网企业和IT厂商所广泛使用,对于如何更好地使用这个开源的技术,您有些什么建议?

Doug Cutting:最好是加入到开源的进程中来,当你看见一些功能的缺失,我们可以在每一个项目中联合起来。开源让企业真正了解它们所使用的技术,这是它们之前所不能做到的,所以我认为企业应该充分利用开源。

IT168:中国的Hadoop开发者如何更好地参与Hadoop的贡献,目前,Hadoop的哪些方面最需要贡献?

Doug Cutting:不管人们用的是该系统的哪一个部分,最重要的事情就是在使用过程中,发现一些令你疑惑的事情,这时可以抓住机会写一些文档,或者是做一些改进,让人们不那么疑惑。如果你发现一些功能缺失,或者有缺陷,可以做一些工作来改进,比如写一些新的代码。

IT168:今天您演讲的主题是《Apache Hadoop and the Big Data Platform》,能否简单介绍一下演讲内容?

Doug Cutting:当然可以。我谈到了,硬件的发展让我们可以访问海量的数据,但是软件却相对落后,我们没有软件工具,来使用到企业所购买的硬件,企业不得不购买许多程序和硬件驱动来存储PB级的数据并处理它,从而更好地理解业务,这非常昂贵。Hadoop技术正在形成一个平台,它是一个开源的项目的集合,每一个项目都有一个社区。随着越来越多的人们开始使用它来分析数据,新的项目不断地加入,一整套的项目正在持续发展壮大。

IT168:我还带来了一个来自我们社区开发者的问题,为什么当时使用JAVA来写Hadoop,而不是使用C?

Doug Cutting:使用JAVA的原因主要是在性能和易开发之间进行了权衡,尽管JAVA性能不如C那么好,但是也没有慢太多,并且JAVA的类型安全、垃圾回收机制等也使得开发程序简单得多,调试起来也要更快一些。所以我认为,JAVA一个生产效率很高的环境,尽管有一些性能方面的浪费,但是问题不大。

同时,我们也在寻找更多C方面的工具,我在做一个项目叫做Avro,我尝试提供一个通用的数据格式,让使用不同语言编写的应用程序可以通过共享数据更好地互操作。因此,有C版本的Avro,Java版本的Avro,应用程序可以使用这些来共享数据。总之,C语言开发相对要慢,而对于许多应用来说,开发的速度更加重要。

IT168:从Yahoo!到Cloudera,你认为最大的不同和挑战是什么?

Doug Cutting:Yahoo!是Hadoop的用户,它使用许多大型的Hadoop集群来解决许多问题。而在Cloudera,我们有成百上千的客户,我们看到的是各种不同的应用、大小不同的集群,客户需要解决的问题也不同,这在相当程度上是一个问题,不再仅仅是在最大的集群上运行Hadoop来解决最大的问题,而是需要解决更多不同的问题,这是Cloudera所要解决的问题,也是一件很令人兴奋的事情。在Cloudera,我们也看到客户飞速增长,我们现在有很多客户的集群计算节点已经超过了1000台,还一直在扩大。

IT168:你如何看待Hadoop的未来?

Doug Cutting:我认为,Hadoop将成为未来IT架构的主要部分之一,我认为它是数据处理革命的开端,这是一种全新的方式,基本上所有的新技术都是新的。在未来的5到10年之内,在Hadoop领域将会持续看到很多新的事物:许多新的工具、许多新的应用、越来越多的行业开始使用hadoop,我想这基于这个现有的大数据平台,将会产生许多新的应用,人们将会开始意识到,他们可以保存更多的数据,他们可以以全新的方式使用它,这是他们以前都没想过的,所以我认为这是一件很好的事情。