曙光高性能计算并行存储解决方案

     高性能计算应用需求分析 

物理化学软件对 IO 的需求不尽相同。部分程序在计算过程中对中间数据的读写不是太频繁,IO 量也不是太大。对于这类应用,中小规模的集群可以通过一个或多个 IO 节点提供NFS 文件系统共享服务,为集群系统所有节点提供原始数据、最终数据以及中间数据的读取与存放。IO 节点可以通过 SAN 环境挂接性价比比较好的磁盘阵列。而 GaussianPWscf 等软件有频繁的中间数据存取,对 IO 压力比较大,可以为计算节点增配一块 SAS SSD 高速硬盘,作为中间数据的存放地,以缓解应用程序对共享存储系统的压力。

在高性能计算中,数十个或者上百个计算节点需要有一个统一印象的共享存储,传统的解决的方式是通过一个 IO 节点连接集中存储,然后通过 NFS 将集中存储共享出来,但是当集群规模增大时,数十个或上百个计算节点通过网络并发访问 IO 节点,容易形成 IO 节点处的瓶颈,同时,当集群规模增大或应用 IO 需求大时,单个磁盘阵列的扩展能力有限,多个磁盘阵列对于用户来说是分散的存储,那么就需要使用并行文件系统把所有的存储阵列统一为一个大的存储,而并行文件系统能够满足用户这个需求。并行文件系统的作用主要有两个:

 提高 IO 并发访问性能,实现多通道,多分区的并发读写。

 提高单一存储容量,实现多分区的一致印象和统一管理。

良好的存储系统方案设计可以大幅度提高计算效率。分析整个高性能计算应用的存储模式,主要分为两种:

计算前后的原数据和结果数据的读写,这部分数据对应用程序的运行性能没有太大影响,仅仅影响原数据的load 时间和结果数据的存入时间。

计算过程的中间数据,这些数据在计算结束之后就会被丢弃,但是在计算过程中,访问速度会影响到应用程序的运行性能,设计不合理的中间数据存储方案会导致CPU处于等待状态,无法充分利用。

针对以上两种类型的存取模式,反应在共享内存体系构架和分布式内存体系构架两种构架上,又有不同的实现方式:

对于共享内存体系构架,可以通过直接连接高速的硬盘来解决中间数据的存取,通过连接SANIP SAN共享的、性价比较好的FC 磁盘柜,提供最终数据档案的存放。

对于分布式体系构架的集群系统,可以通过在每个节点上配置SAS硬盘来解决中间数据的存取,通过NFS网络共享文件系统来为集群系统所有节点提供原始数据与最终数据的读取与存放。

    曙光高性能计算存储解决方案及优势

ParaStor200并行存储系统采用了代表存储技术、网络通信技术以及数据管理技术发展方向的并行体系架构,是一款面向海量非结构化数据处理、拥有自主知识产权的高端存储系统。

ParaStor200并行存储系统汇集了曙光公司多年以来在并行计算和海量数据处理方面的丰富经验,从架构上彻底消除了传统存储系统的瓶颈,能够满足高带宽和高并发的海量文件存取的需求,为用户带来前所未有的存储性能体验。

Parastor系统主要由索引服务器集群和存储服务器集群组成。不同的文件均匀地分散在不同的存储服务器上,用户访问索引服务器得到文件位置信息后,直接访问存储服务器集群读写数据。这种控制路径和数据路径分离的方式,分散了索引服务器的负载,可获得极高的聚合带宽,也大大提高了系统的扩展性。

在索引数据读操作比例很高的环境中,配置加速集群用作分担读负载。


  

可扩展

索引数据服务器的扩展

当服务能力不足时,可成对的加入新的索引服务器,系统将优先使用新增加的服务器。

用户对文件信息的访问可直接定位到某一台索引服务器,因此增加索引服务器的同时也提高了系统索引数据的访问性能。

数据服务器扩展

Parastor中的文件均匀地分散到各数据服务器上存储。当空间不足时,增加新的数据服务器,即可将新创建的文件或文件的部分存储到新存储服务器上。系统自动平衡已存储数据到新节点中,防止产生热点。

Parastor的聚合带宽取决于可用的数据通道。增加了数据服务器后,即增加了客户端和Parastor系统的通道数,因此聚合带宽也能相应地提高。

高可用性

Parastor采用复制技术来提高数据的可用性。索引数据和文件数据均可配置成多个副本,其中文件数据可以针对具体文件设置副本数目。即使出现当一个副本损坏时,其它副本仍可访问,因此不影响系统的可用性。

系统恢复

应用数据恢复

Parastor系统具有根据系统信息和操作结果自动发现部件失效的功能。出现介质损坏后,受损数据的副本数减少。系统自动利用现有副本生成新的副本数据,从而使系统恢复至正常状态。恢复过程中,对受损数据的读写仍可进行。整台存储服务器损坏,受损数据也按上述方式自动恢复。

如果某个节点暂时失效,其它副本的操作仍正常进行,当该节点恢复后,增量更新受影响的数据,从而恢复到正常状态。

本系统采用并行恢复策略,以缩短恢复时间,如图所示:

失效模式:在oStor0中,由于磁盘失效或系统失效,导致对象obj1obj2同时失效。

恢复方式:在2副本系统中,若obj1obj2的另外一个副本存储于不同的oStor中,则obj1obj2可并行恢复,并发进行数据复制,在图7中,分别复制到到oStor3oStor4


索引数据恢复

索引数据日志。Parastor利用日志和副本技术提高索引数据的可用性,并保证索引数据之间的一致性。日志记录了当索引服务器出现介质损坏时,可以利用其它节点的副本数据进行恢复。如果索引服务器死机,重起后,使用本地日志可以恢复数据的一致性。同时利用其它节点生成的日志,保证副本之间的一致性。

可管理性

Parastor具有良好的可管理性。内置的自动管理机制尽量的简化了管理员的操作;多样的报警机制可以及时可靠的将故障通知管理员。

与曙光集群管理软件Gridview集成后,管理员可以通过简单的浏览WEB形式的网页,轻松地完成系统的监控与管理工作。Parastor管理界面同样具有良好的扩展性,这使得管理员的工作量并不会随着数据容量的成倍增加而增加很多。