存储系统失效的背后黑手分析

月有阴晴圆缺,天有不测风云。存储系统如果设计不当或者维护不够的话,就有可能会失效。由于在存储系统中存储着企业日常工作所需的大部分数据。为此当存储系统出现故障的时候,企业的日常业务就有可能陷于瘫痪。本文笔者将谈谈存储系统失效的常见原因。

一、存储空间不足导致存储系统失效

存储系统失效的第一个幕后黑手不是一些比较高深的原因,而是一个最简单的因素造成的。这个简单的因素就是"存储系统的磁盘空间不足"。在实际工作中,很多因素促成了这种情况。

一是企业存储需求发展的比较快,跟不上存储扩容的速度。如企业刚开始部署存储空间的时候,可能只是用来做数据库或者邮件系统的备份之用。此时存储系统所需要的存储空间并不是很大。可是发展到后来,视频监控系统、多媒体教育系统等等相关的资料都存储在了存储系统之上。由于这些后来的应用占据了比较大的存储空间,从而导致原先的数据库或者邮件系统由于无法争取到足够多的磁盘空间,从而导致这些应用性能下降,甚至出现运行故障。

二是由于病毒等原因,导致了存储空间被迅速占用。现在针对存储系统的木马与病毒等等也越来越多。这些病毒有时候往往采用一个很简单的攻击原理。通过复制大量的文件使得存储系统的存储空间在一瞬间被用完。从而导致正常的应用无法争取到足够的存储空间。

其实这个故障是最好避免的。如将存储空间部署在微软操作系统上的话,则这个操作系统自动带有磁盘报警系统。当剩余存储空间不足到一定的比率是,如还剩下 20%,则会马上向系统管理员报警。在其他的操作系统上,通过第三方工具也可以实现类似的预警机制。有些工具还可以监测系统存储空间的异常变化。如当存储空间的使用率突然上升了20%或者降低了30%等等,类似的猛升猛降都会像管理员报警。这种预警机制可以在很大程度上避免因为存储空间不足而导致存储系统失效。

二、硬盘物理故障导致存储系统失效

有时候硬盘等存储设备出现物理故障也会导致存储系统失效。如有些企业为了节省成本,可能会在同一个存储服务器上使用规格不同的硬盘。在这种情况下,各个硬盘的使用寿命是不同的。此时很可能会因为一块硬盘的损坏,而导致整个存储系统无法正常工作。

虽然一些存储系统,如RAID磁盘阵列技术,可以挽回硬盘物理故障所导致的数据损失。如现在有六块硬盘组成一个RAID5磁盘阵列。此时如果有一块硬盘出现了物理故障,此时出现故障的硬盘中的数据仍然可以被修复。但是这也只限于一块硬盘出现物理故障。也就是说,当两块硬盘出现物理故障,如同时出现坏区或者因为电压不稳定的原因导致硬盘出现损坏,此时损坏的数据就无法进行恢复。在实际工作中,不少的管理员会忽视硬盘物理故障所导致的系统失效。他们总以为,硬盘不会出现物理故障。但是当正的出现故障了的时候已经来不及了。

硬盘的物理故障比较难以排除。因为造成这一故障的原因太多了。不过通过如下的努力,仍然可以在最大程度上降低硬盘等存储设备物理故障的几率。如为存储服务器能够配置独立的稳压器,以保证提供稳定的电压,防止硬盘等敏感设备由于电压不稳而烧坏阿。如在配置存储服务器的时候,如果需要用到磁盘阵列等技术,则硬盘最好能够采用相同规格的。特别是对于生产用的存储服务器,要用新的硬盘。现在硬盘等存储介质的价格比较便宜,企业还是可以接受的。最后一点就是周边环境的管理,如最好将存储服务器放在独立的机房中,以确保比较少的灰尘、一定的湿度等等。这些措施虽然不能够百分之百的保证硬盘不出现故障(有时候可能硬盘本身的原因从而导致硬盘运行出现问题),但是仍然可以在很大程度上提升硬盘的使用寿命,从而减少存储系统由于硬盘故障而出现失效状况的几率。

三、服务器升级不当导致存储系统失效

存储系统跟其他软件一样,由于企业业务需求的变化,也需要对其进行升级。但是在实际工作中,经常有企业会遇到因为升级不当而导致存储系统在短时间之内处于瘫痪的境地。如以前有一个客户,需要为存储服务器加一条内存。但是由于新加的内存与系统原由的内存与主板不兼容,从而导致存储服务器运行出现故障。新加的内存不但没有提高服务器的性能,反而使得系统运行的更加慢了。

类似的情况还有很多。如有些用户在升级完操作系统之后,却发现原有的裸机设备无法识别(没有格式化的硬盘分区。由于没有文件系统,所以数据存储与访问的效率比较高)。裸机存储设备没有文件系统,当操作系统升级之后有些应用系统就无法找到或者识别。如在软件升级的过程中,由于出现断电等原因,导致软件升级失败。此时如果没有自动回滚的机制,则原先旧版本的软件也将无法使用。

总是无论是软件还是硬件,对其进行升级都存在一定的风险。为此如果没有特别充分的理由,最好还是不要轻易对存储系统进行升级为好。如果确实要升级的话,则在升级之前需要进行充分的测试。如对操作系统进行升级,则需要测试现有的应用能够在更高版本的操作系统上使用。如是硬盘升级的话,则要确保新增加的硬件跟现有的硬件与软件是兼容的。最好是采用跟现有硬件相同牌子或者相同规格的硬件。从而确保最大的兼容性。

存储系统失效其中人为因素为主导。也就是说,只要管理跟的上,那么系统出现停机的时间会大大缩短。自然灾害、硬件质量等等难以克服的原因,其实发生的并不是很多。所以为了减少系统当机的机率,还是要从管理上抓起、从认识上加以重视,特别是不不能够有麻痹大意的思想。