管理虚拟环境并不轻松。即使部署规模很小,管理员仍旧需要注意很多发生在幕后的故事。不进行合理的规划并密切关注变化情况,即使是很小的问题也可能导致失控。我们向顾问专家委员会了解了他们所见到的最为常见的错误以及如何避免。
Jason Helmick:缺少对配置管理的规划
如果不对配置管理进行规划,那么距离犯错就不远了。无论是公有云还是私有云,你必须规划虚拟环境的服务器配置并掌控变化。询问Linux专家,他们将会花很长时间向你表述Puppet或者Chef的优势。询问有经验的Windows管理员,他们同样会向你讲述DSC的优势。
你需要能够采用准确的配置快速、轻松地部署服务器,而不是冗长复杂的脚本以及漫长的平台测试。你还需要控制服务器随时间变化而发生的改变。有管理员做出调整并导致服务器脱离最优配置吗?
虚拟环境出现问题时,你要问的第一个问题就是“发生了哪些改变?”硬件罢工的情况是很少见的,大多数服务中断是由于某些人对配置进行了有意或无意的调整。避免这些中断并采用合理的配置对环境进行更好的控制。可以选择相应的工具:Puppet、Chef或者DSC。无论选择哪一个,在出问题之前先要做好配置管理。
Brian Kirsch:小心问题陷阱
在当今的虚拟环境中,软件安装、配置及维护带来很少的问题。虚拟化方面逐步采用配置向导以及预配置设备,专家以外的人都能够创建并维护虚拟环境了。这恰恰是问题所在。技术不存在问题,存在问题的是合规性。外表简单可能意味着底层很复杂,问题恰如冰山一角。
尽管虚拟环境看起来很简单,但安装、配置及管理却很复杂。在理想情况下,我们不会发现任何问题因为一切都正常。但在上次检查时我发现了问题,这意味必须有人修复。技术人员必须与顾问以及厂商一同查找出现的问题,这时对底层知识了解的越多越好。这并不是说你必须能够自己解决该问题,但能够正确地定位问题是恢复系统的一个关键步骤。
通过采用虚拟化或者将核心生产应用迁移到云服务,企业能够避免大多数头痛的问题。这消除了犯错及维护的可能性,大量的可用云服务为组织提供了满足需求的现代数据中心。尽管这些云服务发生中断的现象非常罕见,但在将核心生产应用迁移到云中之前我还会再三考虑。
组织开始采取虚拟化路线,无论是私有云还是公有云,一定要确保员工经过了很好的培训,他们不需要是每个方面的专家,但也不应该对此感到畏惧。虚拟化能够为组织提供令人惊叹的优势,但是需要进行很好的控制否则可能会变成可怕的怪兽。
Rob McShinsky:忽视虚拟基础设施
你可能犯的最大的错误就是忽视虚拟基础设施。服务器使用时间逐渐增加,你可能会继续使用旧固件、很少打补丁,对存储或网络疏于管理因为单台服务器只运行着一个应用。在采用服务器虚拟化后忽视这些基本的工作可能会影响性能,更糟糕的是可能会导致上百台服务器宕机。所有的hypervisor、服务器以及存储一直在革新,同时会发现bug。运行在基础设施之上的虚拟机工作负载数量同样呈级数增长,由于虚拟环境涉及众多硬件,难怪会出现问题导致宕机或者影响性能了。
关键是对基础设施有一个全面的了解,同时要关注性能临界值。如果环境未发生任何变化但你突然发现运行不稳定的情况,那么要了解可能是哪个资源层负载过高导致出现了性能问题。为开展此项工作,你需要选择具备诊断功能并能够进行趋势分析的监控工具。这些工具能够提高工作效率,消除日常管理之痛。
Dave Sobel:环境的清单缺少管理及维护
我所发现的管理虚拟环境最大的错误就是没有一个系统来管理并维护环境的清单及相关信息。中小企业不会部署系统来记录系统配置信息、使用情况或者主机的物理位置。发生灾难时,这些信息对快速恢复至关重要,不幸的是这一工作往往被忽略掉了。