EMC升级Greenplum 4.2 实现Hadoop处理

大数据的问题不仅是因为它很大,还因为它一直在膨胀。比起传统的数据仓库,它需要更现代的Hadoop MapReduce 数据处理。EMC最近更新了自己的Greenplum数据库,使其能够更容易地处理大数据。

如前一代,Greenplum数据库有两种形式:一个运行在Greenplum自己的硬件设备上(基于未指定的OEM伙伴的硬件),另一个是纯软件的发行版,客户能够在任何X86服务器上运行,支持Red Hat Enterprise Linux、Oracle Solaris或者Apple OS X.

Greenplum数据库是开源PostgreSQL数据库的并行且高度定制化版本,经过优化用于特定的查询,而不是事务处理。它是一个大规模的并行无分享的数据库,并有“多形态数据存储”,使数据库管理员可以做出一系列的数据库表和选择数据的行或列的定位查询,用于查询哪些数据、执行或压缩设置,应适用于此数据段。

像别的数据仓库引擎,Greenplum数据库是数据压缩的重量级用户,用于加速查询和减少磁盘存储容量需求。

Greenplum的Hadoop发行版同样也可以应用在相同的硬件设备上(进行适当调整),以及一个可以运行在任何基于Linux的x86服务器上的纯软件产品。

去年12月,Greenplum公布了它的长远计划,混合它的数据仓库和Hadoop堆栈以创建一个大型的数据处理器,称做Unified Analytics Platform统一分析平台。

EMC对Greenplum数据库4.2做了一些调整。第一,像他去年12月份说的,Greenplum已调整它的并行数据仓库加载技术gNET,所以它可以从数据仓库到Hadoop集群并行导入或者导出数据。

同样重要的是发布的4.2版本gNET 功能中的关系数据库,允许gNET到达Hadoop集群,询问数据的位置,使用一些Hadoop集群的资源,而不是增加数据仓库设备的运行负担。

Greenplum产品营销高级总监Mike Maxey解释道:“以前这是只读工具,现在在Hadoop中做更多的数据处理。”

Greenplum数据库4.2也包括新的管理控制台称为Command Center,替代很多数据库管理员至今还在使用的旧工具PerfMon。Maxey表示,Command Center不像PerfMon,它是基于Web的工具,有数据库管理员需要的更多功能,例如启动、停止和优化运行的数据库、恢复和调整数据库镜像,在系统上进行搜索、分区或者取消询问。

Command Center也可以跨越网络进入Greenplum HD或者MR Hadoop集群,通过控制台内部检查集群状态。Maxey表示:“随着时间的推移,Command Center将更广泛更深入地覆盖数据库和Hadoop平台。”

Command Center的最初版本可用于Data Computing Appliance 1.2系统中,最终作为纯软件发行版提供给客户。

该数据库的4.2版本调整了必备的性能,包括动态分区消除和查询内存优化。这个数据库还有新的管理包,在包括多个节点和不同功能的系统上,对数据库进行自动安装和升级扩展。

最后,EMC在Greenplum Database 4.2中添加了Data Domain Boost重复数据删除备份软件。在基准测试中,EMC能够在不到8小时的时间内备份173TB的数据仓库。这是通过将部分Data Domain重复数据删除操作分配到该设备中的多个数据仓库节点中实现的,因为重复数据删除速度提高了,所以进行大规模任务的并行化以及更快地备份。

除了发布新的数据库之外,Greenplum还强调,Greenplum MR Hadoop可运行在思科C系列机架式服务器之上。