五大提高NetApp 存储弹性的鲜为人知的技巧

 

Steve Lawler

NetApp技术营销工程师Steve 一直致力于高可用性存储配置工作。他拥有 15 年以上的行业经验,以前曾在电信公司就职,取得了支持企业级客户的丰富经验。

Haripriya NetApp技术营销工程师

Haripriya 专攻存储弹性领域,包括磁盘驱动器和磁盘架。她曾在 Hewlett-Packard 公司就职,当时主攻 RAID 和存储问题。Haripriya 拥有计算机科学硕士学位,目前正在攻读 MBA。

经过数年的努力,NetApp 存储赢得了简单、易于管理、弹性以应对影响数据可用性的问题的美好声誉。要达到最高的弹性级别,应遵循各种最佳实践。

NetApp 最近发布了一份技术报告,报告中提供了关于存储弹性最佳实践的完整详细信息。在本文中我们介绍了一些提示,您可以利用这些提示来增强您的 NetApp 存储弹性:

  • 使用多路径高可用性(多路径 HA)
  • 提供合适的备用磁盘驱动器数量
  • 使用 SyncMirror® 提供更大的弹性
  • 利用 HA 配置,以实现不间断升级
  • 使用 NetApp 的自动化工具验证存储配置

提示 1:使用多路径高可用性

多路径高可用性为单控制器和双主动模式配置提供存储控制器与磁盘之间的冗余路径。拥有第二条通向存储的路径,就可以在各种潜在故障发生之时予以保护,例如:

  • HBA 或端口故障
  • 控制器到磁盘架的电缆故障
  • 磁盘架模块故障
  • 双磁盘架间电缆故障
  • HA 配置中的辅助路径故障

图 1) 主动/主动控制器配置中的多路径 HA

即使在群集的 NetApp 存储系统(主动/主动或 HA 配置)中,多路径 HA 也可以降低故障转移的发生机率,提高可用性。

通过提供通向存储的双倍带宽,在光纤通道至磁盘架的路径过载的情况下,多路径 HA 还可提供潜在的性能优势。在需要重建的时候以及在使用 1Gbit/sec 光纤通道连接的旧系统中,这一性能优势尤其重要。

在许多情况下,存储系统上的空闲 FC 端口已经可用,因此新增一部分电缆费用即可添加多路径 HA。这是一笔很小的支出,但可带来潜在的巨额弹性回报。

提示 2:提供合适的备用磁盘驱动器数量

在 NetApp 存储中,如果磁盘发生故障,则会自动触发将受影响的数据奇偶校验重建到热备用磁盘中,前提是假设备用磁盘可用。如果没有备用磁盘可用,则不可能执行自我修复操作。系统将以降级模式运行(通过使用奇偶校验信息重建数据的方式来满足对故障磁盘上的数据请求),直至提供备用磁盘或更换了故障磁盘。在此期间,万一再次发生故障,您的数据丢失的风险大大增加。(如果采用 NetApp RAID-DPTM,以降级模式运行的 RAID 组可承受再次发生的磁盘故障,并且数据不会丢失。)

所需的备用盘数量随连接到存储系统的磁盘驱动器数量而变化。对于使用单个磁盘架的较低端 FAS200 或 FAS2000,一个备用磁盘足以满足要求(如果要使用维护中心,则配置两个)。在 FAS6080 上,在 1,176 个磁盘的最大盘数下,需要更多备用磁盘来确保最大的存储弹性,尤其是对于重建时间更长的更大容量的 SATA 磁盘,更是如此。

NetApp 建议为每个磁盘类型(每 100 个磁盘驱动器)使用两个备用磁盘,磁盘类型由唯一的接口类型(FC、SATA 或 SAS)、容量和转速来确定。例如,您有一个系统,系统中包含 28 个 300GB 15K FC 磁盘以及 28 个 144GB 15K FC 磁盘,则应提供四个备用磁盘:两个 300GB 容量,两个 144GB 容量。

以后每添加 84 个磁盘,还应当再分配一个热备盘到备用池。下表提供了一些附加示例来说明此方案。(下表假设所有磁盘的类型相同。)

磁盘架数

磁盘数

建议的备用盘数

6

84

2

8

112

3

12

168

3

24

336

4

36

504

6

72

1,008

12

2

28

2

表 1) 根据相同类型的给定磁盘数选择合适的备用盘数。

请注意,如果正在使用 NetApp 维护中心,则至少需要为系统中的每种磁盘类型提供两个备用磁盘。维护中心会对磁盘驱动器执行主动的运行状况监控,当达到某些事件阈值时,它会尝试对可疑磁盘驱动器进行预防性维护。需要两个备用磁盘,可疑磁盘驱动器才能进入维护中心进行诊断。

提示 3:使用 SyncMirror 提供可能的最大弹性

如果需要的弹性级别甚至高于 HA 和 RAID-DP 提供的弹性级别,请考虑使用本地或 MetroCluster 配置的 SyncMirror。

本地 SyncMirror 提供同一个存储控制器上两个不同传统卷或聚合之间的同步镜像,以确保数据的重复副本存在。自 Data ONTAP® 6.2 起此功能可用。SyncMirror 提供的镜像在 RAID 层保护(V 系列中的 RAID 4、RAID-DP 或 RAID 0)之上。

SyncMirror 在两个镜像的存储池(称为丛)之间条带化数据,这样可以改善磁盘负荷的读取性能。它可以在镜像间的多个磁盘同时发生故障时提供更强保护。使用 RAID-DP 的 SyncMirror 的容错能力很强,它可在镜像的 RAID 组中有多达五个磁盘同时发生故障时仍确保数据的可用性。由于 SyncMirror 采用本机 NetApp SnapshotTM 技术来维护同步的检查点,在与一个丛的连接丢失之后重新同步所花费的时间将更少。只有在最新的 Snapshot 检查点之后更改过的数据才需要同步。

如果与 MetroCluster 配合使用,SyncMirror 还提供地理灾害的容灾能力。SyncMirror 需要作为 MetroCluster 的一部分,才能确保在源数据中心不可用时,远程数据中心中仍存在一份相同的数据副本。如果在主动/主动模式配置中使用,SyncMirror 可提供最高的弹性级别,以确保数据持续可用。

提示 4:有效使用 HA 配置,以实现不间断升级

配置存储系统具有主动/主动存储控制器的 HA 架构,是消除单点故障和提高弹性的好方法。除消除潜在的计划外停机时间之外,这些配置还可以减少在不间断升级期间的计划停机时间。

不间断升级 (NDU) 使您可以通过执行滚动升级,在尽可能不中断客户端数据访问的情况下透明地升级主动/主动存储系统中的任何组件(软件、磁盘和磁盘架固件、硬件组件等)。为执行不间断升级,开始之时应从各项因素(包括许可证、网络访问和配置的协议)确定两个存储控制器是相同的。您可以从最新的技术报告中了解关于 NDU 的更多信息。

确保升级顺畅进行的最佳做法是预先妥善检查系统,以确保系统符合 NDU 要求。如果符合这些要求,则还应确保 HA 系统采用优化配置,以提供可能的最大弹性和数据可用性。NetApp 提供了一组自动化工具使此想法成为可能,如下节所述。

提示 5:使用自动化工具验证存储配置

不管是采用群集的 HA 存储系统还是单控制器配置,特别是在升级之前,请务必确保安装的硬件、固件和软件是正确的。您可能有数十个磁盘架和数百或数千个磁盘,此任务可不是小菜一碟。幸运的是,NetApp 全球服务 (NGS) 开发了一组工具以将这些流程自动化,否则这可真是一件乏味而易出错的工作。定期运行这些工具可以提高存储系统的弹性并简化操作。

群集配置检查程序 (Cluster Configuration Checker)

此工具将检测并找出故障转移问题的最常见配置原因:

  • 许可证不一致
  • 选项设置不一致
  • 网络接口配置不正确
  • 本地节点和合作伙伴节点上的 Data ONTAP 版本不同
  • 这两个节点之间的 cfmode 配置设置不同

群集配置检查程序也可作为 NetApp Operations Manager 的一部分提供。

升级顾问 (Upgrade Advisor)

升级顾问设计为一次性解决方案,以使存储系统符合 Data ONTAP 升级要求。此工具使用实时的 AutoSupport 数据,首先将确定系统合格相关的每条警告和要求的过程(通常是一个痛苦的手工过程)自动化,然后生成逐步升级计划,以在升级和停止升级时使用。

升级顾问的公共版本通过 Premium AutoSupport 界面向客户提供,后者在购买 SupportEdge Premium 时已包括在内。其他客户可通过 NGS 或 NetApp 专业服务,间接使用升级顾问让他们的环境符合要求。

图 2) 升级顾问

总结

除非太迟,否则请勿认为存储系统理所当然是有弹性的。采取本文所述的一些前瞻性步骤,可以进一步提高存储系统的弹性。多路径 HA 消除了至后端存储的单点故障,有助于改进性能的一致性。配置合适的备用盘数可确保当磁盘发生故障时立即开始磁盘重建,限制无保护风险。SyncMirror 为关键数据操作提供可能的最大弹性。NDU 减少或消除了升级和增强期间的计划停机时间,使用自动化工具的定期系统验证可确保配置正确无误,同时简化升级规划。