1.2.2 存储结构的发展
计算机系统由计算部件、传输部件和存储部件三部分组成。计算部件从最初的单机、发展到基于局域网的集群,最后到基于广域网的计算网格。同样,随着信息的爆炸性增长,存储将经历类似的发展历程。回顾存储技术的发展历史,基于总线的存储系统以服务器为中心,结构虽然简单,但因存在原始容量限制、无扩展性、存取性能受服务器性能限制、无法集中管理等先天缺陷,其被以网络为中心的网络存储系统所取代是历史的必然。网络存储在一定程度上解决了系统在数据共享、可用性/可靠性、可扩展性、可管理性等方面的问题,然而随着数据资源的不断涌现,系统规模的不断扩大,新的技术又迫切地需要被运用到网络存储系统之中,传统的网络存储系统必然要向大规模海量存储集群过渡。可以预见,理想的存储系统应该可以通过外部网络并行存储数据到多个存储设备上,聚合多个设备的带宽以达到外部网络的最大带宽,同时满足存取过程中对可靠性、可用性、安全性等方面的要求。存储技术由简单向复杂的演变过程如下图所示。
在上一节中,对于传统存储系统的介绍事实上就是DAS结构,存储子系统通过外部总线和主机相连,不过它也是其他更为复杂的存储结构的基础。
现在网络存储逐渐成为大规模存储系统的基本体系结构。我们称网络存储设备为NAD(Network Attached Disk,NAD)。根据NAD提供的存取接口不同,其软硬件系统结构是不同的。目前最为典型的三种基本网络存储结构是SAN、NAS和iSCSI。图 1.2是NAS系统的基本物理模型,图 1.3为SAN系统的基本物理结构,图 1.4提供iSCSI系统的基本结构。
Gibson按接口(面向数据块和面向文件)形式把网络存储分为两大类[1],一是基于SAN结构,SAN系统提供简单、无类型、固定大小的数据块(典型操作为get block,set block),多个SAN的存储设备在逻辑上构成存储池。从接口的抽象角度来看,这和传统的直接连接的存储设备没有什么不同,但由于SAN网络使得多个客户可以同时直接访问共享数据,而SAN系统不能保证它们之间的互斥访问,因此当产生共享访问时,必须对多个客户进行同步,这一工作应该通过建立集中的管理方式解决。另一种是基于NAS结构,它提供丰富的、有类型的、可变尺寸(文件)的层次性的接口(典型操作为read,write和create)。
图 1.2是NAS系统的基本物理模型。NAS开始作为一种开放系统技术的出现是由Sun公司推出的NFS开始的。NAS通过瘦文件服务器的方式把存储设备和外部网络连接起来。对于本地存储设备中的数据整体管理的任务还是由NAS完成,但此时服务器的负载相对减少很多,并且由于瘦文件服务器模式完成的功能要求相对简单,可靠性比DAS有所提高[2]。另一方面NAS实现文件级的数据共享,数据易于管理和维护,同时可以通过扩展,实现NAS设备间的数据备份和容量线性扩展,通过管理软件可以进一步提高整体的存储性能。另外大型的NAS设备的后端可以是高性能的RAID或者SAN网络。其结构如图 1.2所示。NAS最主要的特点是可以通过文件操作语义访问,客户可以使用NFS或者CIFS访问NAS设备。
iSCSI作为一种融合NAS和SAN的技术最初由Cisco和IBM两家发起,提交给Internet 工程任务组(IETF)将其标准化。其结构如图 1.4所示。通过使用iSCSI技术使得本机可以通过数据块操作界面访问网络上的各种存储设备,iSCSI把本机的SCSI请求通过SCSI/IP模块发送到IP网络上,到达目的地时再通过SCSI/IP模块转化SCSI命令对存储设备进行直接的操作[3],对iSCSI连接的存储设备的操作就像对本机的存储设备操作一样。显然IP Storage的出现极大扩展了存储系统的范围,但另一方面,由于经过多次的协议转化和现有传输协议不适应存储特性,使得点对点的数据操作和传输变的复杂而且安全性受到极大的挑战[4]。
目前另外一些整合NAS和SAN的技术也在不断发展之中,如IBM的Tivoli SANergy [5],GPFS文件系统等。它允许联入SAN的异种服务器之间共享文件和数据。并且采用的是基于NFS和CIFS的标准的文件系统,使得多个计算机可以同时通过SAN访问共享文件。一方面具有SAN的高速性能,同时保持了NAS在文件共享、安全等方面的优点。总体上这种统一方式分为"垂直"和"水平"两种方式:采用Network Attached Storage Head-end Servers的方式,NAS和SAN是"vertically垂直"的关系;另一种是在SAN中增加元数据服务器,类似于IBM SANergy,通过采用将控制通道和数据通道分开的机制提高数据访问的性能,用户首先向元数据服务器提出请求,得到授权和相应信息后,客户直接和存储设备建立数据通道,数据直接通过SAN 返回客户。
图 1.5提供网络存储系统软件层次结构模型。从中不难发现,各种网络存储技术在系统逻辑层次上具有明显的差别,这也决定了各种网络存储技术的特点。
未来存储网络的发展表现在以下几个方面:
1. 以网络速度的存储。万兆网络作为商业产品出现,对于大多数挂接在以太网上的系统而言,网络对于存储成为最快的路径。管理网络上的磁盘和内存,使之成为统一的存储资源成为关键的技术挑战,系统整体的速度和快速增长的网络速度保持同步,而不必过分依赖于磁盘速度。
2. Internet和局域网成为存储系统的主干。商业系统靠在存储区域网中增加存储设备和服务器的互连提供共享存储,例如光纤通道。然而,最近局域网性能的高速增长缩小了SAN和LAN之间的带宽差距,减小对于分离SAN的需要。基于LAN的网络存储系统提供的扩展性、可靠性和管理的简单性、以及性能等方面能够接近基于FC的SAN,但同时提供满足高速存储的附网低价设备。
3. 非中心的文件服务结构。客户/服务器局域网文件服务在80年代末和90年代直到今天,大多数文件功能被中央文件服务器通过输出一个或者多个存储卷使用,基于Internet的网络文件协议NFS,使得最近一代的网络文件服务器经常被认为就是附网存储,以区别于SAN方法。为了在具有潜力的高速局域网上传输,NAS必须从客户服务器模式进化到并行非中心服务结构,分布存储功能在一组协作的服务器和存储设备中实现。
4. 智能的数据分配和移动。整个存储系统的性能和可靠性主要被分布数据到存储节点或者到磁盘,以及数据在慢速磁盘和快速内存之间移动的时间的策略决定。通过针对特定数据存取模式智能采用相应的策略和机制,如信息预取、网络cache、镜像分片、程序直接的数据块分布、数据迁移等是存储管理的重要研究方向。