走出沙盒:Hadoop数据管理重要性提升
TT中国 发表于:13年05月13日 10:26 [转载] TT中国
在处理日益增长的非结构化和半结构化数据过程中,Hadoop文件系统及MapReduce框架已经成为出镜率最高的技术名词。但作为数据管理技术领域的新手,Hadoop要想获得更广泛的成功,成熟的数据管理软件工具是必不可少的。
在Web应用方面Hadoop已经证明了自己,但是迄今为止大多数的工作也仅仅归为POC的范畴。健壮的管理能力缺失是造成这一现象的主要原因,然而事情正在发生改变:在企业中,Hadoop有待于更进一步的融入运营工作流,以期带来更好的安全性和查询功能。
很显然,厂商对Hadoop数据管理工具的关注正在升温。最近来自于IBM和Teradata的公告中称,他们期待有方法可以利用开源Hadoop来满足主流企业的一般性运营需求。
事实上,有许多企业在沙盒(Sandbox)中运行Hadoop项目,让基于Java的Hadoop集群与网络分离并隔离在一个封闭空间内,只有少数人可以对其进行访问。为什么要这样做呢?原因就是他们无法保证系统中是否存在敏感数据,如果这些信息被泄露出去,那么公司可能会惹上大麻烦。
沙盒模式并不是新鲜事物,很多新技术都会经历这样一个“自我封闭”的阶段。父母在某种程度上会因为他们的孩子在沙盒中玩耍而感到安心,至少很多可能的意外会在沙盒中得以限制。这同样适用于需要部署新技术的数据管理者。
Hadoop做为一个暂存区
Teradata的市场副总裁Steve Woolidge向TechTarget记者介绍,Teradata Enterprise Accesse对于Hadoop软件推广的重点在于安全性的提升,工作负载管理以及SQL访问。这些功能需求为实现更好的Hadoop框架指明了道路。
Woolidge并不认同Hadoop是作为实验性技术而面向用户的观点,他认为Hadoop一种类似于数据预处理区的东西,可以将它看做是一个存储大量不同类型数据的暂存区。
Hadoop文件数据的优势之一就是公司不用对其进行转换就可以存储。但是下一步会更加复杂:Hadoop获得信息容易,但取出信息就困难许多。
Teradata的新工具包括Smart Loader for Hadoop,它可以为业务分析师提供Hadoop集群和负载工作,同时SQL-H软件可以用来查询Hadoop数据。对于终端用户,SQL-H使得大数据更便于管理。此外,在Hadoop上加一个SQL-H层意味着你可以对在Hadoop系统中可见的表实现的行级安全性。
不再轻率以待
据IBM软件集团的营销主管Bernie Spang说,许多公司已经度过了Hadoop的实验阶段,这意味着Hadoop管理能力正在更多的走向台前。Spang说:“现在他们正把Hadoop应用到企业问题中去,而人们不得不对一些细节进行处理。”
IBM近期推出了其PureData System的新版本,它可以用来优化Hadoop应用程序。这个一体化产品是为了简化管理工作流程,为Hadoop相关的工作提供必需的支持和安全性保障。
Spang表示,很多企业已经将Hadoop做为一种快速数据分片的工具。企业日益增加对这项技术的应用,但这并不意味着Hadoop系统已经真正成熟,相信更多的Hadoop项目还会处于沙盒阶段。
但是,虽然开源是Hadoop的一个主要卖点,但是行业内的一般经验是,企业软件管理工具更在意开源领域之外的东西。对于许多主流操作很可能会需要一些周边工具来实现,并且这些中的许多将会是商业工具。改进Hadoop数据管理会是今年需要密切关注的一个趋势。