分布式系统盘点 Hadoop的昨天与今天

Hadoop是一种针对大数据分析的开源分布式计算平台,是由Apache软件基金会主席Doug Cutting在雅虎时创建。近日在美国圣克拉拉第五年度Hadoop峰会上发布了不少关于Hadoop的重大新闻。

首先,Cutting透露Hadoop将要正式脱离雅虎,由Hortonworks管理,Hortonworks是一个由风投公司创新的新公司,是根据Seuss博士的电影“霍顿奇遇记”中的大象角色的名字命名的。

第二, Hadoop技术从一个科学项目到主流的商业应用经历了五年的时间。Hortonworks这个名字对新公司来说恰到好处,因为对它与Hadoop一样,是以一个玩具大象的名字(总裁儿子的玩具)来命名的。

Apache Hadoop是一个基于Java的开源软件架构,运行分布的、数据密集型应用。它能够让应用安全扩展以处理数千个节点以及PB级数据。越来越多的企业发现他们需要分析存储的数据来帮助他们做更好的业务决策。目前市场中有许多Hadoop分布式系统,这将在下文中提到。另外,文中还会提到这五年来的开源软件的发展史。

1、雅虎创立Hortonworks 引导Hadoop社区

Hadoop的昨天与今天 

6月29日,风投公司投资创建了独立的私人公司Hortonworks,来引导Hadoop社区,并推广开源产品。曾经是其母公司的雅虎,现在是它的客户之一。

2、Hadoop不再是科学项目了

 Hadoop的昨天与今天

雅虎将Hadoop从创始人Doug Cutting的科学项目中变成一个世界级平台,仅用了五年的时间。贡献了超过70%的代码,使其成为IT产业里优秀的大数据平台。

3、Hadoop是IBM沃森的关键部分

Hadoop的昨天与今天 

Hadoop的分析和数据发现能力是IBM Watson计算机能够在《危险边缘》比赛中战胜另外两位人类前冠军的重要原因。

4、最大的部署:每天200PB的数据

Hadoop的昨天与今天 

在技术领域最大的部署环境(例如雅虎),每天Hadoop于分析超过200PB的数据,让雅虎变得更人性化,更贴近用户和客户。它与雅虎IT系统的方方面面进行协作,包括包括搜索、广告、用户体验和欺诈发现。

5、给力的系统 应对大数据

Hadoop的昨天与今天 

雅虎的Hadoop系统包括超过4万2千台的服务器,以及由4000台设备组成的集群,每个月能够处理超过500万份工作。每天都会有1400万份新文件进入Hadoop系统,这一切根本就是小菜一碟。

6、Hadoop或围绕平台出售服务

Hadoop的昨天与今天 

Hadoop软件是作为一个开源项目可免费获得的,未来将推出一系列高级服务针对那些需要更高级别服务的企业。

7、抗击垃圾邮件立大功  个人页面自由定制

 Hadoop的昨天与今天

Hadoop让2.89亿个雅虎邮箱免受垃圾邮件侵扰。另外,Hadoop还在1300万个按个人使用习惯定制的web界面中扮演了关键的角色。

8、不仅仅是应对网络流量

Hadoop的昨天与今天 

Hadoop已经演进到不仅仅局限于应对网络流量和科学研究(图为欧洲核子研究中心超级对撞机)。现在它还用于搜索引擎、广告优化、机器学习和内容 力改进和内容提供。它每天能够向研究集群中载入10TB的数据。

9、Hadoop新型公司快速成长

Hadoop的昨天与今天 

MapR、Zettaset、Cloudera、HStreaming、Hadapt、DataStax、Datameer这些与Hadoop相关的新公司已经获得投资,为人们所熟知,为各种市场带来最新技术。

10、Hadoop仍需改进

 Hadoop的昨天与今天

雅虎和Hortonworks的高层已承认Hadoop仍然需要时间去发展,以便更加容易的使用,尤其是用户交互界面需要更加的完善,不过两家公司的团队都相信他们将在数月内解决这个问题。