处理大数据的关键 Hadoop 2.0值得期待

Apache的Hadoop技术逐渐成为企业(包括美国宇航局NASA、Twitter、Netflix等)管理大量数据的关键技术,这些企业也越来越依赖于这个开源分布式计算平台。随着越来越多的企业使用Hadoop来处理大数据,大家对即将到来的2.0版本期望很高。

随着很多企业试图从其计算系统中迅速增长的数据中挖掘价值,Hadoop作为处理大数据的机制已经吸引了很多人的关注。在认识到Hadoop的潜力后,用户在使用现有Hadoop平台技术的同时,还开发自己的技术来弥补Hadoop堆栈。

Hadoop目前在企业的使用情况以及未来展望

NASA希望使用Hadoop来处理其Square Kilometer Array天空成像(该项目预计在未来十年内将生成700TBps数据)等项目中的大量数据。NASA高级计算科学家Chris Mattmann表示,该数据系统将包括Hadoop,以及Apache OODT(面向对象数据技术)来处理大量数据。

Twitter是Hadoop的“大用户”。Twitter数据科学家Oscar Boykin表示:“所有相关产品(向用户提供个性化建议)都与Hadoop有某种关联。”该公司已经连续四年使用Hadoop技术,甚至还开发了 Scalding—帮助简化Hadoop MapReduce编写工作的Scale库,该库建立在Cascading Java库之上,主要目的在于减小Hadoop的复杂性。

Hadoop的子项目包括MapReduce,用于大规模数据集的并行运算的软件框架;HDFS(Hadoop分布式文件系统),提供对应用程序数据的高吞吐量访问;以及Common,提供工具集以支持其他Hadoop子项目。电影租赁服务商Netflix已经开始使用Apache Zookeeper(用于配置管理的Hadoop相关技术)。“我们将它用于各种工作:分布式锁、一些查询和领导人选举等,以优化服务活动,”Netflix公司高级平台工程师Jordan Zimmerman表示,“我们为ZooKeeper开源化了一个我编写的客户端,被称为Curator,该客户端可以作为开发人员连接 ZooKeeper的库。”

Tagged社交网络正使用Hadoop技术进行数据分析,每天处理大约1TB的新数据,Tagged的高级数据工程师Rich McKinley表示,Hadoop被用于处理超出其Greenplum数据库(仍然在使用中)能力范围内的工作任务,“我们期待更广泛地使用 Hadoop技术。”

虽然Hadoop受到各方赞扬,用户也发现一些需要解决的问题,例如可靠性和工作跟踪方面的不足。Tagged的 McKinley还发现了一个延迟性问题“获取数据的速度非常快,然而,每个人都抱怨在处理数据查询时的高延迟性。”Tagged使用Apache Live(另一个Hadoop派生技术)用于即席查询。“这可能需要几分钟才能得到结果,而Greenplum在几秒钟就能返回结果。”虽然,使用 Hadoop要比使用Greenplum更便宜。

Hadoop 2.0有什么值得我们期待

Hadoop 1.0于2011年年底发布,具有强大的Kerberos身份验证功能,并支持HBase数据库,但该版本由于MapReduce的限制,让个人用户无法卸载集群。新的Hadoop 2.0即将面世,HortonWorks公司(该公司一直是Apache Hadoop的贡献者)首席技术官Eric Baldeschwieler透露了即将发布的2.0中包含的功能,今年早些时候进入Alpha测试阶段的2.0版本“具有MapReduce层的端到端重写,以及对所有存储逻辑和HDFS层相当完整的重写。”

Hadoop2.0侧重于规模和创新,具有Yarn(下一代 MapReduce)和联合功能。Yarn将允许用户添加他们自己的计算模型,这样他们就不必依赖MapReduce。“我们非常期待看到很多使用 Hadoop的新方法,”Baldeschwieler表示,预期用途包括实时应用程序和机器学习算法,可扩展可插拔存储同样在计划之内。

2.0版本中始终启用的功能将使集群没有停机时间。2.0版本预计将在一年内面世。