本文作者George Crump是Storage Switzerland的创始人,同时也是George Crump Consulting的创始人。
在一些知名的微博上,#fail是一个标签,当你的生活或者工作出现问题时你可以记录下这串字符。那么,你该如何在存储基础设施上避免记录下#fail呢?最重要的事情是要未雨绸缪。
你所从事的IT业是一个关注何时出现问题远胜于关心哪些地方出现了问题的行业。你首先需要为基础设施内存在的问题做好准备。不管你是尝试自己解决问题,还是邀请专家来解决,首先都要对你的现有设施进行盘点,然后才能开始诊断。
对于你的数据中心来说,不是仅仅花几个小时列出一份清单就可以了。作为一个良好的开端,让人解决问题首先需要提供细节。这些细节包括每一个HBA卡,交换机端口,交换链路(ISL),存储端口如何配置等等,当然还包括存储产品本身是如何配置的。
如果这些信息能够被分析工具频繁捕捉下来的话是最好的(换句话说,不要使用电子表格)。电子表格并非专业的IT诊断工具。我们曾经看到过一个故障排除项目,从其开始服务器虚拟化项目以后,其电子表格清单已经有超过6个月没有更新。要知道事情发生了变化。坦率地说,如果你的信息清单已经有几周没更新了,特别是在一个虚拟环境下,那么你应该更新一下,不要怕麻烦。重新编制好的清单可能需要执行,所以你最好在环境出现问题的时候做一下预算编制。实时采集的价值在于其可以提供出现故障时环境变化的线索。这些变化通常可以提供出错线索。通常,这些工具可以捕获记录于系统上的物理错误,并可以提供一些分析。但最重要的是,实时捕捉可以帮助您在发生前防止#fail。
对于大多数基础设施硬件的问题而言,存储硬件和其软件组件的问题不在于他们没有提供足够的诊断信息,而是他们提供的太多,因此,重要的信息就会在这其中被错失。这些分析工具可以将确实需要注意的信息,或同问题相关的消息突出。当然,如果要解决一个存储难题,在制作一个精确的报表以外还有很多工作要做。但是,解决问题的第一步在于,知道你要做什么。