IBM将在Hadoop上建立全新存储架构设计

IBM科学家宣称,该设计在将万亿字节的数据变成可用的信息方面,速度比当前技术可以提高两倍。因此,该设计非常适用于云计算和数据密集型的工作负载应用场合,比如数字媒体、数据挖掘、金融分析等。

这种新的架构名为通用并行文件系统无共享群集 (GPFS-SNC,General Parallel File System-Shared Nothing Cluster),旨在通过高级集群技术、动态文件系统管理和高级数据复制(Data Replication)技术来提高可用性和速度。

存储分析发明者和IBM的研究主管Prasenjit Sarkar表示,一个拥有40个节点的文件系统将有12GB/sec吞吐量,并与400个节点的系统可以达到120GB/sec吞吐量。他说:“这是非常符合成本效益的带宽。你得到1MB/sec美元。如果你想复制,存储区域网络,它会非常昂贵。”

“在我们的集群示例中,您可以在Hadoop架构上建立作为群集运行DB2或Oracle数据库”Sarkar说。 “这让我们能够有一个通用的文件系统,广泛的用户可使用。”

据了解,新的架构是让应用程序,支持高性能分析,数据仓库应用程序和云计算的目的。他描述为每个节点或标准的x86服务器有机会获得自己的元数据,缓存,数据存储和管理工具的GPFS的“不共享”的集群技术,同时也有通过千兆位接入在同一时间集群中所有其他节点以太网端口。

他说:“我们所做的,是我们每一个分布式文件系统方面相对于谷歌文件系统,它有一个域节点,元数据,分配,锁管理,令牌管理,即使来自集群服务器的机架,我们仍然可以继续工作。”

所谓无共享,可用性,性能和扩展新的水平,可实现与集群文件系统。中的每个GPFS-SNC的架构节点也自给自足。任务被划分这些独立的计算机之间。

GPFS也支持POSIX,使一个应用广泛的传统上运行的文件系统之上,允许读取和写入执行。Prasenjit Sarkar说:“你可以打开一个文件,你可以读取一个文件,那么你就可以追加到该文件并覆盖任何部分。与谷歌的Hadoop分布式文件系统,你可以不追加到一个文件,你不能覆盖的任何章节,所以你重非常有限你能做什么。”

GPFS的-民委还支持企业数据存储功能,例如快照,备份整个范围内,归档,信息生命周期管理,数据缓存,广域网数据复制和管理政策。该体系结构有一个单一的全球域名称空间,使虚拟机管理程序的节点之间移动。