Hydra与Hadoop之争谁将胜利?

CSDN 发表于:14年03月14日 10:49 [综述] DOIT.com.cn

  • 分享:
[导读]Hydra(九头蛇),分布式任务处理系统,由社交标签服务提供商AddThis六年前开发,现在已得到Apache的开源许可,就像Hadoop一样,只是还没有Hadoop那样的知名度和声势。Hydra的创造者称,该“多头”平台非常擅长处理一些大的数据任务——对非常大的数据集进行实时处理,这样的任务恐怕会让那只大象(Hadoop)很头疼。

Hydra(九头蛇),分布式任务处理系统,由社交标签服务提供商AddThis六年前开发,现在已得到Apache的开源许可,就像Hadoop一样,只是还没有Hadoop那样的知名度和声势。Hydra的创造者称,该“多头”平台非常擅长处理一些大的数据任务——对非常大的数据集进行实时处理,这样的任务恐怕会让那只大象(Hadoop)很头疼。

Hadoop仍然是一个储存大量数据的优秀平台,但很多公司面临着另一个问题,我们将数据存储到Hadoop之后如何去分析数据,无论是Hive还是Pig都需要方便地访问Hadoop中的数据,才能从中获得的价值。正如我们看到的:Hadoop用于实时分析并不合适。

Hydra是一个大数据存储和处理平台,由Matt Abrams和他的AddThis同事们共同开发完成。AddThis也就是过去的Clearspring,是开发Web服务器窗口小部件的公司,使访问者可以通过Twitter、Facebook、Pintrest、Google +或者Instagram轻松共享他们的数据。

当AddThis开始逐渐扩大其业务时,它对越来越多的用户数据渐渐感到无能为力。该公司需要一个可扩展的分布式系统,对其用户共享的这些数据进行实时分析。那时Hadoop无法满足AddThis的需求,所以它开发了Hydra。

那么,Hydra到底是什么?简而言之,它是分布式的任务处理系统,可以同时支持流处理和批处理。它利用一种基于树的数据结构来存储和处理具有数千个节点集群的数据。它具有一个基于Linux的文件系统,这使得它可以与ext3、ext4甚至ZFS兼容;它还具有作业/集群管理组件,可以自动为集群分配新的作业和平衡已有的作业;系统还可以自动将数据备份,并自动处理节点故障。

Hydra包括很多的组件:跨异构集群处理任务的分布式作业执行系统、可网络访问的文件服务系统,还有本地备份及远程备份(考虑到难以预防的节点故障)。

基于树形结构使它可以在同一时间处理流数据并进行批处理作业。AddThis工程部门的一位成员Chris Burroughs在他1月23日的博客中首次宣布Hydra开源,还提供了对于Hydra精辟的描述:“它摄取流数据(比如日志文件),并生成聚合树、 摘要树或者数据转换树,这些树可用来探索(小型查询),作为机器学习的一部分(大型查询)、或者在网站上支持实时控制台(大量的查询)。”

Hydra最初是用以帮助AddThis解决自身问题,供内部使用,以及为网站运营商提供服务。典型的问题包括:“上个月有多少用户访问网站?”以及“网站从不同国家和浏览器获得访问量分别有多大?”

AddThis继续使用Hydra来处理其大规模的数据流量,分析其客户得到网站的发展趋势。AddThis可以了解人们在线分享了什么,哪些话题比较热门。社交标签服务被超过1300万的网站使用,一个月有13亿用户访问,平均每天30亿访问量产生10TB数据,现在Hydra在AddThis的上千个网络节点上运行着。

Abrams通过邮件告诉Datanami:“我们处理大型数据集已经很长时间了,Hydra一直以来对我们都非常有用,我们觉得它以独特的方式解决了分布式数据处理的问题。”

传统的Hadoop面向批处理,而Hydra可以同时支持批处理和实时流处理。Abrams说:“Hydra支持的批处理主要侧重流分析和增量数据处理,能够使用树形数据结构描述数据,对自然数据进行压缩及高效查询和访问。Hydra可以从HDFS中生产和接受数据,但它在本机文件系统上完成操作,这使其可以在Hydra上灵活地使用其他服务。”

现在Hydra已经开源,Abrams希望该软件会被更加广泛的使用,并得到更好的发展。“这将需要一些时间,但我们相信未来我们将建成一个完善的Hydra开源社区,这样AddThis和OS(开源)社区都可以从Hydra未来的发展中受益。在华盛顿特区已经有一些其他公司在使用Hydra了,我们很期待Hydra社区得到进一步的发展。”

2013秋天,Doug Cutting,Hadoop的创始人也是Cloudera的首席架构师感叹Hadoop缺乏替代品——那时Cutting说:“我多么期待能有更多像Hadoop一样的系统出现……”虽然如今Hadoop在大数据界占据了主导地位,但谁又能说它会是唯一的一个大数据分布式计算平台?相信未来Hydra的发展不会令他失望,对于未来Hydra的发展,我想引用Cutting的另一句话:“天空才是极限。”

[责任编辑:李洪亮]
李洪亮
3月5日,中国网络解决方案领导品牌——锐捷网络2014年产品战略暨新品发布会在京举行。发布会以“简网络?云体验”为主题。锐捷网络成立15年来,秉承敏锐把握应用趋势,快捷满足客户需求,为中国网络诠释了移动互联网时代的“为客户而创新”。
官方微信
weixin
精彩专题更多
存储风云榜”是由DOIT传媒主办的年度大型活动。回顾2014年,存储作为IT系统架构中最基础的元素,已经成为了推动信息产业发展的核心动力,存储产业的发展迈向成熟,数据经济的概念顺势而为的提出。
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
联想携ThinkServer+System+七大行业解决方案惊艳第十六届高交会
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技术有限公司 版权所有.