CrowdStrike事件的惨痛教训促使CIO重新思考云战略

最近的CrowdStrike软件故障导致全球Windows系统宕机,暴露了严重依赖单一供应商的风险,此事件提醒CIO们需要重新审视云战略,以避免单点故障,专家建议通过多云或混合云架构分散工作负载,增强风险管理实践,并加强供应商关系和更新管理。

CIO们正在寻找避免单点故障的方法,并重新评估他们的云战略,以防止任何“蓝屏死机”事件的发生。

最近的CrowdStrike软件故障导致全球Windows系统宕机,给IT社区带来了震惊。对于CIO们来说,这一事件提醒了过度依赖单一供应商(特别是在云端)的固有风险,这次事件暴露了严重依赖云基础设施的脆弱性。

尽管问题正在解决中,但它突显了关键安全组件失败时可能带来的灾难性后果,这促使CIO们质疑他们云环境的弹性,并探索替代策略。

重新评估云战略

“当发生如此严重的问题并导致如此大的干扰时,重新审视现有的信念、决策和权衡是重要且必要的,”印度最大的有线电视提供商之一DishTV的CIO Abhishek Gupta表示。“评审的结果可能仍然是相同的决定,但必须进行评审。”Gupta表示,在CrowdStrike事件后,DishTV已经开始分阶段重新评估其云战略。

金融服务公司Shree Financials的CIO Shashank Jain建议进行战略转变。“企业和CISO们必须审查他们的云战略,不应自动更新补丁,所有补丁应首先在测试服务器上进行测试,”Jain进一步强调,尽管CrowdStrike声誉良好,但这次事件揭示了由于未测试的补丁导致的信任失效和连锁反应。

总部位于荷兰的TMF Group的网络防御、IAM和应用安全主管Saurabh Gugnani补充说,多元化的云战略可以减轻此类风险。“是的,他们(企业)应该重新审视云战略,必须结合所有可用的解决方案。”

一些企业已经开始采取大胆的措施。

“针对最近影响我们关键业务运营的中断,我们主动更新了业务连续性计划,以应对意外停机并将对生产力和服务交付的影响降至最低,”Mytek Innovations的创始人兼CMD Shivkumar Borade表示,该公司是BSOD影响的受害者之一。“我们的修订计划包括增强的沟通管理,设有多层确保所有员工了解潜在问题及其解决方案。”

由于公司的整个网络(包括Outlook、Teams和SharePoint)都托管在Microsoft 365上,因此其内部沟通受到显著干扰。

“然而,我们内部开发的应用程序没有受到影响,因为GoDaddy使用了自己的托管基础设施,”Borade说,“我们确实遇到了一些与Azure平台相关的API集成问题,这些问题全天无法正常工作,这次中断导致我们的客户和用户的服务中断。”

对CIO的警示

CIO们的主要关注点是供应商锁定。正如CrowdStrike事件所示,依赖单一云供应商会导致单点故障。如果该供应商的关键服务中断,会对企业产生深远影响。为降低这种风险,CIO们可能会探索多云或混合云架构,将工作负载分布在多个平台上。

Forrester的首席分析师Allie Mellen强调了在面对网络威胁时,可靠工具和服务的重要性。

“在网络攻击面前,网络安全团队使用工具和服务的可靠性至关重要,”Mellen表示,“这样的事件质疑了这种可靠性,这无疑会引起高管们对如何确保企业系统可靠性的疑问和关注,尤其是在网络安全软件如此日常化的情况下。”

事件暴露了云依赖系统的脆弱性,一个单点故障可能对整个企业产生连锁反应。Beagle Security的高级安全专业人士和顾问Sunil Varkey指出,“云和安全供应商之间的信任现在受到质疑,这种信任的破裂可能会推动对无代理解决方案的更高重视,这些解决方案可以在不受传统代理漏洞影响的情况下提供增强的安全性。”

考虑到影响的规模,这被认为是最严重的网络安全事件之一。CrowdStrike事件影响了运行Microsoft Windows的计算机,涉及航空公司、银行、零售商、经纪公司、媒体公司和铁路公司等多个行业。旅行部门受到显著影响,德国、法国、荷兰、英国、美国、澳大利亚、中国、日本、印度、新加坡和台湾的航空公司和机场在办理登机手续和售票系统方面遇到了重大问题,导致航班延误和机场混乱。

微软表示大约有850万台Windows计算机受到影响。

影响如此之大,以至于SpaceX和Tesla的CEO Elon Musk不得不从所有系统中删除CrowdStrike。

增强的风险管理实践

此次事件突显了改进风险管理实践的必要性。加强尽职调查、严格测试更新和分阶段推出现在变得至关重要。

“这次事件是一个警钟,强调了整个行业在网络安全实践中需要不断适应和改进,”RAH Infotech的CTO Gaurav Ranade说。

Rakuten Symphony的高级架构师D.R. Goyal倡导在全面发布之前为选定用户测试更新的机制:“在向整个社区和用户群体发布之前,应该有一个机制与某些企业的一组用户一起测试,以减少影响。”

随着数字化领域的不断发展,确保基于云的系统具有韧性至关重要。An Idea Global Innovations的创始人Ashis Guha强调了更广泛的影响:“该事件对全球经济有更广泛的影响,更长的停机时间和恢复时间将影响生产力和经济。”

行业专家建议采取多项策略以备未来之需,包括分阶段推出、全面测试和强大的备份系统。

Blockchain公司Qila的联合创始人Siddharth Ugrankar建议,分阶段部署和彻底测试更新可以减轻影响:“如果CrowdStrike以分阶段方式部署更新,影响会小得多。”

Nuvepro的CTO Moyukh Goswami表示,企业应通过加强测试协议、实施严格的风险评估以及通过稳健的治理框架强化变更管理流程来加强更新管理。

“加强监控能力、改进针对更新失败的事件响应计划以及培养主动的供应商关系是关键。”Goswami补充道。

CrowdStrike事件强调了CIO们需要重新审视并强化其云战略。通过实施稳健的风险管理实践、增强安全措施和多样化云解决方案,企业可以更好地保护自己免受未来的中断。

随着行业应对这一事件的影响,重点必须转向构建韧性强、适应性强且经过良好测试的云战略,以应对日益复杂的数字化环境。