存储实践:光纤交换机最新最佳实践

以下最佳实践可以帮助存储人员更好的管理光纤交换机。

一旦确定产品供应商,就不要轻易改变,因为多个品牌的产品混用很容易产生问题。

光纤交换机之间能否正常通信是保证整个网络稳定的关键因素。在此推荐以下三家公司的产品:博科通信有限公司,思科信息系统公司,Qlogic公司。

Gartner公司的分析员Robert Passmore说: 光纤交换机之间通信是有标准的,但仅仅满足这个标准还是远远不够的。所有的供应商基本上都可以做到这一点。

下面的经验适用于所有的光纤交换环境:

计划

做好未来三年内存储区域网络的规划。根据过去两年内应用程序、物理服务器、存储设备的数量来判断将来的需求。是否会采用一些新技术例如虚拟服务器,不同的组件是否会对整个网络带来影响,这些问题都需要考虑。Dragon Slayer咨询公司的总裁Marc Staimer说:“将你未来三年的需求翻倍部署到你的应用中去,虽然暂时的花费比较多,但长期看来还是非常值得的。不经过计划就开始部署存储区域网络,以后的问题会越来越多。 所以计划的越多,以后的工作就越轻松。”

根据应用程序的吞吐量和I/O来设计性价比更高的存储区域网络。前HP公司存储工程师Dan Iacono说:“很多用户不清楚他们的应用程序的带宽和I/O,这个问题可以使用一些操作系统例如Unix,Windows自带的工具来解决,很多存储设备供应商也会向客户提供这种工具。然后根据吞吐量来确定使用哪种端口,以及如何设计存储区域网络。许多用户都是采用中心+边缘的方式,在边缘使用16口或者32口的光纤交换机,然后通过内部ISL链接到中心一个大的交换机上。了解边缘交换机的吞吐量可以确定ISL的数量。”

将ISL数量降至最低,可以空闲出更多的端口,并且可以将更多资金用于存储区域网络内部的部署上。

有经验的公司会发现,只需将吞吐量大的应用程序从边缘移动到中心就可以解决问题,因为这样应用程序可以更加容易的从存储设备上取的数据。

不要害怕超额限制。光纤交换机大部分时间不会满载运行,因此额外增加一些负载通常不会影响整体的性能。Howard Goldstein协会的主席Howard Goldstein说:“大部分的存储管理员在这个问题上都过于保守,其实平时使用的带宽只占总体带宽的1/10”.

提前考虑电源消耗和制冷设备。供应商通常会将产品尽可能的细化,但有时还是不够。电源消耗就是一个例子。博科数据中心基础架构部的产品市场主管Mario Blandini说:“现在有很多的IT环境都缺少供电设备,大部分的医院或者大学楼都建造于75年前,当时他们接入电源时,肯定不会想到在19平方英尺的地方会消耗10,000W(瓦)的电量。”

设计两个独立的存储区域网络来实现冗余。SAN需要7×24小时的正常运行。存储区域网络中的服务器越多,出现故障的机率就越大。为了避免出现故障,通常在服务器和存储之间有两条路径。

如果一条路径上任意一个部件出现问题,例如HBA、光纤交换机、线缆、端口或者其他的部件,另外的一条路径就会顶替出现问题的路径,将服务器和存储链接起来。另外一个好处是,在SAN运行时也可以对其进行升级。

Staimer说:“无论你对系统做什么操作都会影响你的应用程序,为了避免这一点,我们通常是对非正在运行的环境进行升级。多个光纤网络可以使SAN更加的安全。”

管理——技术方面

部署路径自动切换软件,可以保证一条路径出现问题时,另外一条可以自动切换,不影响正常使用。Passmore说:“一些操作系统提供了这样的软件,但功能有限,因此一些厂家也会发布各自的路径管理软件,虽然价格有些高,但提供的功能非常全面,还是物有所值的。”

配置,调试和监控硬件和性能工具。 Iacono记得有一家大的咨询公司每天会得到6,000多条警告,但并不处理他们。有一家设备供应商取消了当SAN的带宽是0MBps时发出警告的设置。这样会引来非常大的麻烦。

通常很小的硬件问题累计起来就会出现大的问题。SAN中大约95%的问题都会发出警告,但这样警告并没有引起重视。如果每天都收到很多的警告信息,你应该重新调试你的监控工具来取消这些警告,或者是这样问题真的非常严重,需要马上解决。

将SAN的信息备份到硬盘上而非SAN中。SAN通常不会宕机,一旦宕机,将会是一场灾难。如果SAN的信息存储在一个SAN链接的硬盘中,那恢复其中的数据的难度就可想而知。

Iacono说:“我敢肯定财富500强的公司都是这么做的。”

很多的公司甚至不会更新文档,通常只是使用一个Excel文档,里面写些目标,以后很少会更新它,因为他们觉得这并不重要。如果需要做故障分析时,他们都不清楚每个端口连接的是什么设备。其实每个管理员都有自己的文档,但其中50%到70%的信息不是最新的。

管理——个人方面

雇佣专业的存储团队并严格管理流程。大部分的SAN宕机都是由于人为因素导致的。严格的管理流程会减少这种事情的发生。因此雇佣一个专业的存储团队是必须的。服务器管理员会将自己的需求告知存储团队,由他们来进行设计与安排,然后写下整个流程的处理过程,包括在存储设备和交换机上做了哪些操作等。这样,团队中其他的成员就可以看到这个需求处理的进度。

Gartner公司的Passmore说:“按照这个流程来管理SAN的公司,SAN宕机的机会会大幅降低。”

为每个管理员和第三方的咨询人员设置不同的用户名和密码。Iacono说:“对新交换机的参数进行了微调而没有告诉同事,这种事情也是时有发生的。”

当发生这种事情后,想找到当事人是非常麻烦的。所以要为不同的人设置不同的用户名和密码,下次再发生这种事时,就能非常容易的知道是谁修改过配置。

安全

在LUN掩盖和绑定完成之后创建zone。当服务器跟存储设备连接时,可以使用一些工具来创建一个带地址的存储卷,或者是一个LUN,LUN掩盖可以将不属于它的LUN隐藏,LUN绑定可以将LUN和一个具有唯一WWID(worldwide ID)的HBA进行绑定。

在做完LUN掩盖和LUN绑定之后,存储管理员应该马上去光纤交换机上设置zone,来保证特定适配器只能和特定的端口通信。

Passmore说:“交换机通过zone增强了LUN掩盖和LUN绑定的功能,这样就可以保证存储设备上的LUN可以被特定的具有WWID的适配器访问到。”

使用SSH(Use Secure Shell)访问SAN。如果存储管理员通过Telnet访问光纤交换机, 密码是没有加密的,这样增加了风险。使用SSH会对所有的操作都进行加密,很多的人在操作系统上会使用SSH,但在存储设备上还没有注意这一点。

虚拟服务器

确保整个环境可以满足全部应用程序的带宽。在原来的服务器上安装多个虚拟机运行多个应用程序,整个带宽的需求就会提升。用户在设计SAN时就要考虑到这一点。一个X86的服务器至多可以达到1G/s的带宽,而现在的双核的机器则可以达到10G/s。如果你同时运行20个应用程序,带宽会达到10G/s,原来的机器是肯定无法承受这么大的负载的。

确保所有运行着虚拟机的物理服务器在同一个zone里面。使用虚拟机技术,管理员可以轻松的将一个应用程序从一个物理机器上换到另外一个物理机器上,而且不用停机,但是这些物理机器需要在同一个zone里面才可访问到存储设备。“如果访问不到存储设备的话,应用程序就会宕掉。”Staimer说道。

采用支持NPIV的交换机和HBA卡。如果在一个物理机器上运行着五个虚拟机,NPIV可以对HBA卡生成五个不同的识别号,这样五个虚拟机就可以使用五个不同的LUN。如果使用不支持NPIV的设备,五个虚拟机只能使用一个LUN。NPIV适用于所有的新交换机和HBA卡。用户可以联系供应商来对原来的硬件进行升级以支持NPIV,NPIV在刀片服务器上的运行原理跟在虚拟机上的运行原理基本相同。