随着越来越多的公司开始使用Hadoop处理大数据,因此我们预测Hadoop不久就会推出2.0版本。
如今,Apache的Hadoop技术在帮助企业管理海量数据中变得越来越关键。包括NASA、推特和Netflix等用户对这一开源分布式计算平台的依赖性越来越大。
Hadoop作为一种处理大数据的机制已经获得了越来越多的支持。因为企业计算机系统中的数据量正在快速增长,企业开始尝试从这些海量数据中获得派生价值。由于认识到了Hadoop的潜力,用户开始在使用现有Hadoop平台技术的同时,积极研发自己的技术以对Hadoop堆栈进行补充。
Hadoop的企业使用现状与未来
NASA希望Hadoop处理众多项目中的庞大数据,如SKA(平方千米阵列)星空图像。这些图像在未来十年内的生成速度将达到 700TBps。NASA高级计算机专家Chris Mattmann称,包括Hadoop在内的数据系统和Apache OODT 等技术将用于应对这些海量数据负载,
推特的数据专家Oscar Boykin称:“推特是Hadoop的一个大客户。所有(向用户提供定制化推荐的)相关产品都在一定程度上与Hadoop进行着互动。”公司使用Hadoop的时间已经有四年了,并且研发了Scalding。Scalding为一款Scala库,旨在让编写Hadoop MapReduce的工作变得更容易。该产品建立在Cascading Java库的顶层,旨在对Hadoop的复杂性进行概括。
Hadoop的子项目包括MapReduce、HDFS(Hadoop分布式文件系统)和Common。MapReduce为用于处理计算集群上的大型数据集的软件框架,HDFS提供了对应用数据的高速访问,Common则为支持其它Hadoop子项目提供了一些实用工具。电影租赁服务商 Netflix已经开始使用用于配置管理的Hadoop相关技术Apache ZooKeeper。Netflix 高级平台工程师Jordan Zimmerman称:“我们在分布式锁、部分队列排列和领导人选举等所有类型的工作中都使用了这种技术,以优化服务活动。我们针对ZooKeeper开发了一个开源客户端,我们称其为Curator。这个客户端作为一个开发者库与ZooKeeper相连。”
Tagged 高级数据工程师Rich McKinley 称,Tagged社交网络正在使用Hadoop技术用于数据分析,处理每天所生成的近0.5个太字节的新数据。Hadoop还正在被用于 Greenplum数据库容量之外的任务中。目前Tagged仍然在使用Greenplum数据库,McKinley称:“我们希望仅通过扩展让 Hadoop做更多的工作。”
尽管大家都在称赞Hadoop,但是部分用户认为仍然有一些问题需要解决,如在可靠性和工作追踪上的不足。Tagged的McKinley指出了在延时上存在的问题。“获得数据的时间应当非常快,然而每个人的最大抱怨是其进行查询时的延迟太高。”Tagged目前正在使用另一个Hadoop 派生项目Apache Hive进行查询。他称“Hadoop需要花上数分钟才能给出结果,而Greenplum给出结果只需要数秒钟。但是与Greenplum相比,Hadoop更为便宜。”
Hadoop 2.0具备哪些特点?
Hadoop 1.0在2011年被推出,其拥有通过Kerberos(麻省理工学院开发的安全认证系统)的高强度安全认证,支持HBase数据库。对于即将推出的新版本,HortonWorks首席技术官Eric Baldeschwieler提供了一个包括2.0版本在内的Hadoop路线图。(HortonWorks公司是Apache Hadoop的资助者之一)2.0版本在今年年初已经进入了测试阶段。Baldeschwieler称:“MapReduce层进行了部分重写,所有的存储逻辑和HDFS都进行了彻底重写。”
Hadoop 2.0重点放在了利用Yarn(下一代MapReduce)和众多功能进行扩展与创新方面。Yarn将允许用户添加自己的计算模型,这样一来,用户就不用必须使用MapReduce了。Baldeschwieler称:“我们希望社区能够发现更多使用Hadoop的新方法。所期待的用法包括实时应用和机器学习算法。可扩展性、插接式存储也已经被规划。”
永远在线功能将让Hadoop 2.0能够让集群不再出现宕机。扩展存储也已经被规划。Hadoop 2.0的公布发行版本预计将在今年被推出。