技术解析:基于文件存储的使用情境

在营销用词中,"动态"这个词经常用来描述一个产品或一个架构。我们经常将动态这个概念等同于我们所想要达成的目标。不过,动态其实是用来定义一个富有生产效率的持续活动或变化。

最近,由于信息创建、存储和访问的方式,用户对存储的需求已经在变化。IT组织存储越来越多的非结构化且基于文件的数据。非结构化数据已经占总存储的50%以上,而且预计其增长率将超过结构化数据的增长率。在这股潮流中,存储管理员所面临的挑战是如何使存储资源符合数据以及创建数据的应用程序的需求。他们孜孜以求的目标是创建一个动态的存储环境。

基于文件的数据需要基于文件的存储,而基于文件的存储可能有几种形式:文件服务器、NAS(网络附加存储)、NAS设备,或者通过文件虚拟化所组成的组合。在决定采用何种形式和部署何种解决方案之前,管理员必须确认他们环境中的使用情境以及与使用情境相关的要求。

最常见的使用情境包括针对以下情境的存储:虚拟化架构、文件服务、数据保护、归档和内容目录、高性能计算(比如,分析与排序)。每种使用情境都有独一无二的性能、保留、访问、安全性和容量要求。

针对虚拟服务器的存储

甚至在经济下滑之前,许多组织已经在寻求各种方式来提高资源利用率、简化管理和提高响应性,以便能够减少浪费。在许多环境中,处理能力往往比应用程序的需求还要高。为了减少浪费,许多组织采用服务器虚拟化来优化现有资源。虚拟化不仅提高利用率,而且也使环境更加灵活和具有响应性。虚拟化还给系统和应用程序恢复带来了新的选择。在这个新的环境中,存储必须更加具有响应性和弹性。

虚拟化服务器环境下的主要存储挑战是配置合适的存储容量,针对容量增长率管理存储,性能和可用性,根据应用环境的要求保护数据。

在部署虚拟化解决方案的时候,每个虚拟机都有自己的文件。这个文件的内容可以是设备镜像,设备镜像加上数据,或只有数据。随着虚拟机数量的增加,管理这些虚拟机的存储变得更加复杂。LUN(逻辑单元号)管理,针对性能和迁移的设备管理,容量管理,甚至问题检查,都变得更加耗时和复杂。
许多组织已经发现在基于文件的存储上部署虚拟化解决方案可以避免许多和存储有关的复杂性。现在,每个文件,无论是设备镜像还是数据,都可以分别管理。使用向外扩展或向上扩展的基于文件的存储系统可以进一步提高及时配置的能力,带来更高的资源利用率和合适的性能,以及更高水平的数据/系统可用性(见《向外扩展与向上扩展NAS的对比》)。

并不是所有的虚拟化平台都可以在NFS(网络文件系统)或CIFS(通用互联网文件系统)上运行。在这些情况下,为了简化设备迁移和获得高可用性,用户可以在服务器集群上部署一个集群的文件系统。

文件服务

为了在管理中获得规模效应以及为了改善资源利用率,许多企业已经发起了针对文件和打印服务以及针对网络共享的合并项目。他们的目标是简化存储的管理,更加智能化地管理数据,提供增值服务(比如及时归档、数据保护和安全性)。这些合并项目的一些关键要求包括:能够使管理员在无需增加人数的情况下管理日益增长的数据量和存储的管理工具,及时而准确的容量配置以及容量回收,无缝且实时的升级和更新,根据需求来增加容量和提高性能的灵活性。根据组织自己的要求,可以通过一系列方式来达成这些目标。

• 部署文件虚拟化。文件虚拟化技术可以将现有的基于文件的存储设备合并到一个命名空间,允许后端存储独立于目录结构进行管理。文件虚拟化还可以使管理员增加容量而无需迁移用户;容量可以来自文件虚拟化系统所抽象出来的任何存储设备。

• 部署向上扩展的系统,这种系统可以解决理论上有限的容量并可以支持大量的文件。这种系统通常用一台服务器或双服务器(在高可用性设置中),同时后端采用基于块的存储。一些系统可能支持多种类型存储,允许进行分层存储。要部署这种系统,需要更换环境中现有的几乎所有设备。向上扩展系统同时还依赖于服务器的性能设置。只有在处理器的处理能力扩展后,向上扩展系统才能扩展。

• 部署向外扩展系统。可以采用向外扩展NAS的形式。这种NAS是节点的集群。这些节点共处于一个全局文件系统命名空间中。用户可以根据需要来扩展容量和性能。部署向外扩展系统的另一个方式就是在现有文件服务器上部署分布式文件系统。分布式文件系统可以作为抽象层,使用户可以根据需要来部署容量。

要选中正确的解决方案,关键是你要理解对你的组织来说最重要的是什么。各个解决方案在复杂性、性能、可扩展性和支持服务上有很大的不同。

数据保护

传统的数据保护系统和最佳实践要求数据从生产系统复制到二级系统,这样即使生产系统发生故障,用户还可以使用另一个数据副本。数据复制实践已经实行很长时间了,不过用于存储二级副本的存储媒介在变化。数据保护范式要求用户对变化中的数据进行每日备份,对整个数据集做定期备份以防备整个系统需要恢复的情况。随着时间推移,这种方法会产生同一数据的多个副本,消耗容量、带宽和性能。一些数据保护软件已经更加智能化,只复制在块层次上发生变化的数据,从而减少需要写入到二级媒介的数据量。其他解决冗余问题的方法则是采用具有容量优化功能的二级存储媒介。这些容量优化功能包括单实例存储、压缩和重复数据删除。

越来越多的用户为了数据保护而使用基于文件的存储。这主要是出于两大理由。首先,这种存储易于部署,使用的是标准协议,支持内置复制功能,而且可以和多种驱动器技术配合使用。其次,这种存储解决了许多组织在使用基于块的存储系统时面临的主要问题。这些主要挑战包括存储资源的利用,跨媒介服务器的资源共享,如何及时地向媒介服务器配置存储。

归档与内容目录

归档是基于文件的存储最自然的用途。当今数据量在不断迅速增长。用户需要保留越来越多的数据来满足合规和监管的要求,同时他们也需要保留数据来支持商业行动,并向客户和合作伙伴提供数据支持。鉴于许多数据是非结构化的,而基于文件的系统可以做到高成本经济性,能够提供无缝的扩展, 而且便于使用,因此基于文件的系统是很好的解决方案。在这些使用情境中,可扩展性的衡量经常不是以TB为单位,在一些情况下,需要以PB为单位。

高性能计算

高性能计算是向外扩展和向上扩展基于文件系统的传统使用情境。大多数HPC(高性能计算)用户都有性能上的要求。这意味着系统必须能够根据应用程序的需求进行扩展。不过,并不是所有数据都会在同一时间被处理,因此许多HPC用户可以采用带有动态分层功能的存储系统。通过动态存储分层,系统理解数据的使用模式,并根据性能特征将数据迁移到不同的存储层。数据移动可以是从高性能磁盘媒介移动到低性能磁盘媒介,也可以是反过来,并且对应用程序和用户来说是透明的。

配置智能分层、容量优化、自动精简配置、基于知识的数据管理以及标准组件的向外扩展/向上扩展基于文件的存储系统提供了一个解决上述使用情境需求的方法。根据解决方案和架构的特点,在特定使用情境下要选用更适合的解决方案。

我们在文章的开头给"动态"下了个定义。如果需求是持续变化的,那么环境应该要支持它们。无论资源是部署在企业里面还是从服务提供商那里订购来的,关键是要在需要的时候可以使用这些资源。

NOEMI GREYZDORF是IDC的研究经理。