SAN完全手册(连载):管理和增强您的SAN

第一步:创建运行程序

在管理、维护和增强您的区域存储网络(SAN)的过程中,创建稳定的运行程序是一个重要的步骤。这些程序能帮助您满足业务要求并履行服务水准协议(SLA),同时还有助于您有效地管理和增强您的SAN,以获得最高的投资回报(ROI)。此外,它们还能帮助您迅速诊断和解决故障。总的来说,管理和增强SAN类似于管理和更改您的数据中心的基础设施。您只需扩展您的现有数据中心程序,使之包含SAN特定任务,例如:

  • 日常管理和监控程序
  • 服务和支持程序
  • 更改控制程序
  •     日常管理和监控程序
    您的日常管理程序应该扼要说明在SAN中使用的管理和监控程序,以及这些工具如何配置。您的业务要求和对客户的承诺应该是选择这些程序的依据。(欲了解更多与工具有关的信息,请参考下一步监控和管理您的SAN 。)如果您正在部署新工具或扩大现有工具的应用范围,那么您的程序可能要纳入一些新的业务政策,以定义某些事件发生时需要采取的行动。例如,如果达到了某个告警级别的阈值,则新政策可能要求寻呼正在通话的管理员。

    服务和支持程序
    我们可以创建一些程序,使支持人员能够迅速、准确和高效地查找和解决问题,从而提高目前的服务和支持的效率。故障诊断指南和有关维修合同的详细说明应易于查找和执行。第3步故障诊断和排除将更为详细地说明这些任务。

    更改控制程序
    SAN的优点之一是它们易于更改和升级,能够满足您不断变化的业务要求。更改控制程序能够帮助您跟踪已经进行的更改、更改时间和更改人。如果更改导致故障,我们就可以更加轻松地追查起因。指导原则如下:

        

  • 增加分区和增强安全性
  • 添加和更换存储设备和主机
  • 升级和更改网络
  • 添加和更换交换机
  • 并网
  • 第二步:监控和管理您的SAN

    正如您要经常监控和管理数据中心中的其它基础设施一样,您也必须管理和监控您的存储区域网络(SAN)。

    监控您的SAN
    进行监控使您能在故障发生之前对可能导致故障的问题有所警觉,并帮助您收集数据,以确定您的SAN是否符合内外部客户服务水平协议(SLA)要求。监控还能帮助您确定使您的SAN获得最高投资回报(ROI)所必需的微调。您应该监控:

    错误和提示信息
    这些提示信息会说明网络状态以及状态的变化。您的产品参考手册中包括各种信息的详细列表,其中包括说明、可能的原因以及建议采取的措施。

        交换机

  • 联机/脱机端口
  • 电源状态

  • Fabric

  • Fabric登录
  • Fabric重新配置

  • 存储设备和主机

  • 容量和逻辑单元号(LUN)变更
  • HBA联机/脱机

    阈值
    您可以设置并监控整个SAN的阈值,包括:

        交换机

  • 端口性能和故障
  • 环境变量(温度、电源等)
  • GBIC运行值

  • Fabric

  • 端到端性能
  • SCSI读/写
  • LUN性能

  • 存储设备和主机

  • 存储容量
  • 文件系统性能
  • 容量

  • SAN管理

    要确保您的SAN顺利运行,必须进行规范和预前性管理,这一点非常重要。普通管理任务有3种主要类型:

    交换机

  • 硬件和软件配置
  • 特许安装和策略定义
  • 1 Gbps及 2 Gbps端口的性能配置

  • Fabric

  • 易管理组定义
  • 分区定义
  • ISL 配置

  • 存储设备和主机

  • 容量配置
  • LUN配置
  • 文件系统配置
  • HBA配置
  • 性能

  • 管理和监控工具

    您最终会根据您的业务要求和对客户的义务来选择所需要的工具。此外,您还应该确定您愿意使用的界面以及希望达到的集成度。理想的SAN基础设施应使您能进行以下选择,从而使它具有很强的灵活性,同时还应易于管理和监控,并能集成到其它管理产品中:

  • 基于Web可用于交换机管理和监控的产品
  • 基于Web或GUI的产品,用于执行特定的SAN网络管理和监控任务
  • 集成到一个完整的SAN工具箱中,此外还能管理和监控主机和存储设备。
  • 集成到企业级IT基础设备管理构架中。

    应选择那些能提供应用程序接口(API),并已经建立了广泛的业内合作伙伴关系的SAN组件供应商。这样您才能选择最佳工具,从而更高效地满足您的需求。

        如果有了合适的工具和程序,您就能快速监控和管理您的SAN,并使之成为您的日常工作的一部分,如同监控和管理数据库中的其它基础设施那样。

    第三步:故障诊断和排除

    监控工具使您对存储区域网络(SAN)中存在的故障有所警觉,并为您提供一些信息,帮助您诊断故障。如果发生故障,可以采用一种从SAN中心开始的迭代方法,以确定故障所在。

        从中心开始进行故障诊断
    从您的SAN中心-交换机开始进行故障诊断。由于交换机位于主机和存储设备之间,并且您从那里可以看到存储网络两端的情况,因此从交换机开始进行故障诊断可以将搜索路径分为2个部分。在排除了网络发生故障的可能性后,您就能判断问题发生在存储端还是主机端,并从该位置开始进行更加仔细的诊断。通过这种方法,您能够迅速查明故障并防止故障扩大。

        例如,如果主机无法看到存储设备,您就能运行一个交换机命令,查看存储设备是否正确连接至交换机。如果没有,您应该首先检查存储设备。应使用诊断工具来查找为什么交换机能看见存储设备的原因。一旦您从存储设备上看到了交换机,而主机上却看不到存储设备,那么就可确定主机和交换机之间存在故障。如果没有发生这种情况,则可以使用主机诊断程序来确定交换机看不到存储设备的原因。

    故障诊断重点区域
    进行故障诊断时,您可能会遇到4类常见问题:

    Fabric
    ?设备丢失
    ?虚接(连接不稳定)
    ?分区配置错误
    ?交换机配置错误

    存储设备
    ?交换机和存储设备之间的物理故障
    ?存储软件配置错误

    主机
    ?主机总线适配器安装错误
    ?设备驱动程序安装错误
    ?设备驱动程序配置错误

    存储管理应用程序
    ?软件对应的存储设备安装和配置错误
    例如,如果使用了一个容量管理应用程序,应检查:
    ->容量安装错误
    ->容量配置错误

    帮助您进行故障诊断的工具
    您可以使用多种工具对SAN进行故障诊断:

    Fabric
    ?交换机LED
    ?进行诊断的交换机命令(命令行)
    ?基于Web或GUI的监控和管理软件工具。
    ?带有先进诊断功能的实时分布式Fabric操作系统。

    存储设备
    ?设备LED
    ?存储诊断工具

    主机
    ?主机 适配LED
    ?主机操作系统诊断工具
    ?设备驱动程序诊断工具

    存储管理应用程序
    ?专用工具和资源

    联系您SAN支持厂商
    如果使用所述技术和工具无法解决问题, 可以向支持厂商寻求帮助。在致电咨询前,请书写一份概要,尽量提供更多的支持细节。您的供应商产品手册可能带有一份工作表,其中总结了您在致电咨询前必须收集的信息,您也可以使用此模板创建您自己的支持工作单(DOC)

        如果您对SAN有了基本理解,除了特别复杂的问题之外,您自己几乎能够解决所有问题。SAN的冗余和重新路由的功能使系统能够继续运行,从而给您充裕的时间进行故障诊断并解决问题,或者向SAN支持厂商寻求帮助。

    第四步:增强您的SAN的安全性

    存储区域网络(SAN)里管理的数据非常敏感,而且必须进行控制以便确保其保密性、完整性和可用性。这与其他IT基础设施没有什么不同。实际上,您可简单地讨论您的现有公司安全政策,以便将SAN的具体安全问题包括在内。

        潜在的安全威胁
    有意破坏或意外事故都可危及SAN的完整性。SAN面临的潜在威胁包括:

    SAN配置不当访问
    ?更改分区信息,使未经授权者能进入存储设备并读写数据
    ?更改安全和访问控制策略,使未经授权的服务器或交换机能进入SAN
    ?网络管理密码泄露,使他人无意中以管理员的身份进入SAN

    资源不当使用
    ?拒绝服务(DOS)攻击
    ?使用带有一个主机总线适配器(HBA)的双宿主机来读取、存储或分配SAN文件

    预防性安全措施
    应采取预防性措施来增强SAN的安全性,以防止您的SAN被误用或滥用,这一点非常重要。完整的安全策略应包括:
    ?分区
    ?安全的Fabric操作系统

    ?分区
    大部分交换机供应商(但并非全部)都强烈推荐使用分区功能。它能自动或动态地将与fabric连接的设备分成逻辑组(区)。这些区可能包括fabric里经过选择的存储设备、服务器和工作站。只有指定区中的?稍?设备才能存取信息。尽管某个区的成员只能访问本区中的其它成员,但一个设备可以同时成为几个区的成员。这样使得它们能安全地共享您的存储资源,这也是存储网络的主要优点之一。除了增强安全性以外,分区还能帮助您简化不同种类fabric的管理、尽量增加存储资源并分离存储业务。

    ?安全的fabric操作系统
    安全的fabric操作系统是分区的补充功能,只有部分交换机供应商提供此种系统。安全的fabric操作系统可以在SAN的基础设施上运行,并提供基于策略的安全功能。这些策略使您能根据需要来个性化地定制安全功能。安全的fabric操作系统有助于防止未经授权者在fabric中进行管理更改和fabric设置更改,有助于控制服务器和fabric之间的连接,防止用户随意向fabric中添加交换机,并保护交换机和管理控制台之间的通信。

    第五步:升级和拓展您的SAN

    存储区域网络(SAN)的最大优点之一是它易于调节和升级,从而能够适应您的业务需求变化。然而,您必须按照详细的控制程序,记录更改、更改时间和更改人,这一点极为重要。当更改导致故障时,您就能很容易地确定具体更改操作。一旦您已经确认所作更改已经被成功部署,请牢记一定要更新您的文件,并制作一份新的SAN逻辑和物理图,作为新的基准。

    更换和添加存储设备
    进行升级的最常见方法之一是添加新的设备并更换旧设备,以增加存储容量。应慎重考虑如何更换新设备才能获得最佳性能和最高冗余度。要获得最佳性能,可以考虑将主机及存储设备连接至同一台交换机。要获得高冗余度,最好确保设备是采用双连方式。您还要为将来的升级着想,确保交换机间链路(ISL)和存储设备有足够的端口,为将来的升级提供条件。

        添加新设备对目前的运行造成的影响非常小,因为在SAN中到达一个目的地有多个通道。添加新设备后,应立即将新的SAN逻辑和物理图表与基准图进行比较,以确保清楚地标出设备的正确数量,此外还应制作一张新的基准图,以备将来参考。

    升级和更改Fabric
    某些情况下,您可能需要更改和升级您的Fabric,以添加新功能或适应您的存储基础设施的变化。要添加新功能或特性,您可能需要授权密码或下载并安装新的交换机固件。如果您的SAN带有内置的冗余和重选路由功能,这些过程通常可在没有人工干预的情况下完成。

    拓展Fabric
    您可以添加交换机、更换交换机或将多个Fabric整合到一个中,以拓展您的Fabric。由于交换机能够自动级联到现有的Fabric中,因此在现有Fabric中添加和更换交换机相对比较简单。应重新配置所更换的交换机,使它与原先的交换机相匹配。应尽量提高Fabric的性能和可用性,并考虑采用各种Fabric配置,包括分区、交换机参数和许可。Fabric可扩展性手册和文件可说明必要的程序,将对您有所帮助。

        将多个Fabric整合到一个中时(整合SAN孤岛),需要进行额外的规划,因为这样会影响多个环境。此外,Fabric可扩展性手册和文件可以为您提供帮助,并协助您简化这个程序。

    第六步:为存储区域管理做好准备

    管理人们在将来对企业数据的指数增长式需求意味着将当前的SAN管理基础设施扩展至一个更高层次的存储管理-存储区域管理(SAM)。

        SAM是什么?
    存储区域管理(SAM)指的是执行端到端管理解决方案的整个过程-也有人称之为最佳管理组合。这些解决方案将整个存储网络视为一个实体。SAM为整个存储域提供集中式数据及资源管理,向服务器集群及其应用提供共享服务。

        SAM沿革
    欲展望未来,我们首先必须了解SAN管理的历史及管理功能的迅猛发展。当前的各种应用主要集中于设备管理,而将来的应用则通过由自动化的集成解决方案所提供的各种先进功能来实现数据管理。

    从SAN管理到SAM经历了三个截然不同的阶段:

        第一阶段:设备发现
    SAN管理最初涉及两个流程:获取各设备的基本信息并利用简单网络管理协议(SNMP)将其展示于普通视图中,以此实现设备间通信。在该发展阶段中,即便看似非常简单的任务,也需要复杂的流程。例如,完成分配存储空间任务需要串行连接每个组件的管理工具并需要一系列步骤来管理每台设备。

        第二阶段:合理的集成应用
    在SAN管理发展的第二阶段,一套复杂的新式基础设施问世了。它封装了SAN管理背后的复杂流程,并支持应用程序以透明方式执行任务。因而,此后无需将发现、建立以及维持各个组件之间相互关系的流程嵌入应用程序之中。相反,这些过程在一个子系统(光纤通道)中自动进行,而该子系统则将这些复杂的信息发送给各种应用。

        第三阶段:智能化服务与SAM的出现
    为了支持成长并保证可扩展性,目前的存储环境必须能够利用与整体管理生态系统逻辑连接的丰富服务。这一途径超越了集中化与自动化。应用程序依靠智能光纤通道以及基于设备智能的策略来提供智能化服务。这种功能的一个例子就是根据预定策略定期备份的能力。

        

    图一. 全新的SAN管理套件,带来完整的SAM解决方案。



    SAN及SAM可容性
    智能化的管理套件,是把SAN解决方案的效果推至高峰的关键。现在,SAN的管理应用可直接提供以下各功能:

        

  • 设备发现:根据核心及报告的基本资料,自动辨识设备的属性。

  • 状态监管:提供有关核心的种类、状态、事件、情况的实时资料;同时亦协助侦察问题根源,于毛病出现之前,未雨绸缪地提醒管理人员可能出现的问题。

  • 性能监管:提供实时统计数字,管理端口、交换机、核心、其它光纤信道计量如SCSI命令(读、写、读/写)、协议性能,以及CRC误差率。

  • 设备分区:依据设备的逻辑组织(区),提供自动或活跃之设备分区性能,并以硬件强制存取控制表来保护设备。

  • 通道性能: 监控网络业务在起点至终点的路径上的性能特性。

  • 交换控制: 执行管理任务,诸如交换配置、联机/脱机交换以及激活/去激活接口功能。
  •     利用常见的应用编程接口(API),各种新式企业增值解决方案很快就能被添加至现有的SAN管理应用之中。这些解决方案可实现:

  • 可视化:利用拓扑再现技术以图形方式显示SAN光纤通道。

  • 自动生成:根据所定义的策略、规则以及过程,自动分配存储资源。

  • 策略自动化:确保将整个光纤通道中的策略不折不扣地传送至各个SAN组件。

  • 服务质量(QoS):借助网络业务优化及带宽保留功能监控并执行可预测的服务级别。

  • 安全:提供正确、可靠、基于安全策略的SAN环境,防止非法访问或者系统中断。

  • 容量管理:规划及优化存储资源以满足特定的用户要求以及业务需要。
  •     这是一个从单点管理解决方案到真正的端到端数据管理-从SAN基础设施一直到应用程序-的转变。这种无所不包的端到端管理方式正是SAM的精华所在。

        实现从SAN至SAM的演变
    要使SAN支持SAM功能,需要部署下列组件:

        

  • 配有分布式光纤通道操作系统的智能化存储区域网络。

  • 硬件使能的高级光纤通道服务,包括设备发现、自动配置、端到端性能监控、实时网络健康监控、硬件执行分区、传统环路支持以及基于策略的安全性等。

  • 简化SAN管理的开放式管理工具。

  • 支持各种功能及第三方应用开发的成熟API。这些第三方应用支持的功能包括自动生成、健康与性能监控、策略管理以及虚拟化。

  • 全面集成、经过测试的产品解决方案,可保证实现端到端SAN管理与存储资源管理(SRM)之间的互操作性。
  •     装备IT部门
    根据加特纳调查公司的调查报告,存储区域管理将受到在业界更广泛的关注,而且将对企业构建其IT部门的方式产生重大影响。许多公司正在着手设立SAM设计师这样一个职位。SAM设计师负责规划整个企业的存储战略。此外,IT公司还在它们的基础设施事业部内部建立专门的存储战略管理团队,负责提供数据联网、存储资源管理以及灾难恢复规划服务。

        欲了解加特纳调查公司有关SAM未来报告的详情,请收看“从SAN至SAM:智能光纤通道所扮演的角色(Gartner/Brocade)”网播。


    这是我们转载的《SAN完全手册》的最后一期。
    读者想浏览往期内容,请翻阅存储在线资讯中心
    您还可以访问博科通讯公司网站获取SAN相关信息。

        若要参与SAN主题的讨论,请访问[STOL]存储社区-网络存储技术论坛。