IBM新版并行文件系统增加大数据功能

DOSTOR存储在线 5月22日国际报道:随着高性能计算、大数据和数据仓库互相融合,IT领域内巨大的碰撞正在发生。IBM增强它的General Parallel File System(GPFS:通用并行文件系统)以加强自己在这个领域的存在。除了客户元数据和更高的性能外,这个3.5版本的发布增加了大数据和异步复制功能。

GPFS是一个大型文件系统,运行在网络共享磁盘(NSD)服务器节点上。它的文件数据可以分布在各种类型的存储设备中,用户可以享受并行访问。通过Basingstoke的IBM高性能计算架构师Crispin Keable,我们得知了GPFS 3.5的消息。

新的发布有Active File Management(主动文件管理),一种异步版本的GPFS多集群同步复制功能,可以让中央GPFS站点镜像到其他远程站点,让远程站点的用户可以本地访问镜像数据而不用通过广域网。这种链接是双重的,因此任何一方的更新都会导致另一方的更新。

如果这个链接离线了,远程站点可以继续操作并使用有效高速缓存后的GPFS数据。任何更新也都会被高速缓存。作为一种防止老数据重写入最新数据的方法,来自离线远程站点的对中央站点的更新在恢复在线后可以被限制为只能用特定日期和时间之后的新数据。

一个需要记住的事情是GPFS没有内置重复数据删除功能。如果你希望数据通过这个镜像连接的时候减少数据量,你将需要一些东西,比如用一对Diligent重复数据删除设备配置在两个站点的两端,或使用WAN(广域网)优化/数据缩减技术。

RAID和大数据

在PB级GPFS的部署中,用户可能会有1000个以上的磁盘——这个数量的磁盘故障频率足以让部署过程中进行RAID(独立磁盘冗余阵列)重建进程。在重建进行的时候,它会把GPFS的性能限制到设备的性能。

Keable表示,在非集群化的RAID中,NSD服务器会把GPFS分配给客户端并拥有空闲CPU能力。它们可以利用这个能力来运行软件RAID。Keable表示,GPFS部署可以将数据块随机分布在JBOD(简单磁盘捆绑)磁盘上,这样可以提供比RAID 6更强的RAID架构。这里的好处是它将RADI重建工作分散到整个磁盘场上,可以提高GPFS性能。Keable表示这个功能是块层次的算法,可以处理更大的磁盘容量。该功能已经发布在Power 7上。

他表示IBM预计GPFS客户将使用非集群化RAID下的闪存存储来“承载它的特定元数据——即所谓的V磁盘”。

GPFS相当独立于底层的变动,即物理存储。

GPFS 3.5还可以运行在无共享Hadoop类型集群上,是POSIX(可移植操作系统接口)兼容的,不想Hadoop的HFS。Keable表示GPFS 3.5是可以处理大数据的,并可以从所谓的“卓见集群”提供“卓见”。不过,这次发布的GPFS没有任何HFS导入设施。

文件集和元数据

在GPFS 3.5之前,系统管理员可以将GPFS文件系统树的一部分,一个文件集,放在特定集合的磁盘中以提供特定的服务质量,比如为某个集合的高速光纤通道驱动器 提供更快的响应速度。文件集可以动态迁移,不会影响文件系统。系统管理员可以按天或按其他时间周期将数据在磁盘的各个层中迁移。

文件集有一个“i节点”与它相关联——一个i节点可以是一个标签或一个块的数据——这个i节点指向实际文件数据并包含元数据,比如组织日期、首次访 问时间。GPFS将所有的文件集元数据存放在一个系统上。在3.5上,文件集元数据不再是混合的,而是分隔的,这样系统可以应用基于文件集的备份、快照、 引用以及群组引用政策。以前的备份政策是应用在文件系统层次,现在,Keable表示,“我们可以在文件集层次上使用不同的备份政策,它让GPFS系统管 理员的工作更加简单和灵活”。

由于这个变化,GPFS获得了POSIX.0的兼容性,意味着i节点可以在元数据外包含小型文件。因此你不需要进行两次访问来获得这些小型文件——例如,一个访问针对i节点指针,然后另一个访问针对实际数据——因为i节点的元数据和小型文件数据是并存的。

更好的是,客户自己的元数据也可以添加到i节点。Keable表示你可以将文件的经纬度添加到i节点上,从而实现基于位置的功能。你以前也可以这么做,但是这个进程很慢,因为必须的元数据不在i节点上。

GPFS对象存储和超级计算

一位英国的GPFS客户表示这样做让GPFS也可以用于对象存储,因为客户插入的元数据可以是基于文件内容的散列值。这种散列文件可以通过散列值来定位和访问,实际上就是把一个对象存储架构放在了GPFS上。

我们还听说GPFS参与了Daresbury超算项目。Daresbury有三个系统:一个大型的SMP系统,一个传统的X86集群,以及蓝色基因超级计算机——拥有大约7PB的磁盘驱动器数据。GPFS被用于一个拥有15PB容量的大型TS350磁带库。

GPFS是一个成熟而强大的并行文件系统。随着向外扩展文件系统、大规模非结构化数据仓库、高性能计算数据存储、数据仓库、商业分析和对象存储互相碰撞和融合,GPFS也在扩展和调整为能够和日益扩大的大数据系统协同工作。

IBM正在努力推动GPFS的发展,目的是在这场碰撞中不止是保持GPFS的地位——实际上IBM是扩展了GPFS。