易捷行云超大规模云计算中心巡检“零干预”|轻运维之场景化运维

编者按:易捷行云新一代私有云EasyStack ECS将1000+家大中型企业客户、数万节点规模云平台的运维经验产品化,实现了轻运维。它基于安全、稳定、高效的新一代数据中心分布式云操作系统,通过一体化、场景化的设计理念将平台与服务相分离,实现了全平台的可进化能力和轻运维能力。在轻运维方面,它可实现超大规模云计算中心的智能统一运维,不仅实现了日志、监控、告警的可视化、自动化,还可以自主探测系统拓扑与服务状态的变化,进而实现基于智能感知的故障预诊断分析和快速自愈。

本篇为易捷行云轻运维系列之智能巡检篇。  

定期巡检能及时发现系统的异常情况,避免事故的发生,但传统私有云巡检依靠人员每天按部就班的逐个去检查服务器、存储、网络等设备的状况,或者从几千条日志中找到有价值的内容,耗时耗力,同时存在周期漫长、可靠性差等弊端。相较于传统的人工巡检,智能巡检对云平基础设施进行自动巡检,发现异常自动告警,一键收集巡检日志,实现巡检全过程的智能化。

超大规模分布式云计算中心统一巡检

云计算中心经历了规模化发展的阶段后,目前正往分布式的方向发展,以整合各类物理资源和虚拟资源,形成统一的逻辑资源池,有效提升云计算中心资源利用率和管理效率。在分布式架构下,云计算中心应用系统功能模块分散部署,业务系统功能细分导致了版本多样性,各模块之间的调用关系复杂。传统的私有云只能对分布在不同区域的单个资源池进行单独运维,为每个资源池构建一套运维系统,难以实现整个云平台的一体化运维。  

易捷行云新一代私有云智能巡检示意图

易捷行云新一代私有云EasyStack ECS基于安全、稳定、高效的新一代数据中心分布式云操作系统,可实现超大规模云计算中心的智能统一运维。首先,易捷行云将1000+家大中型企业客户、数万节点规模云平台的运维经验产品化,形成运维知识库;之后通过事件网格服务自动执行巡检等运维动作。事件网格服务是易捷行云新一代私有云的内在能力,具有事件编排的能力,通过事件网格服务,可通过API,在云服务与物理设备之间通过最有效的路径,及时感知事件,动态执行运维动作,不受部署规模与部署形态的影响,帮助企业提升态势感知能力和企业敏捷性。

巡检全流程“零干预”,规避人为操作风险

传统私有云的监控管理、巡检、日志等系统是分开建设的,往往需要运维人员的人工巡检,手动输入巡检日志。而易捷行云新一代私有云EasyStack ECS基于业务场景灵活定义运维服务过程,由人工检查升级为7×24无人自动化巡检,巡检全程无人值守,规避人为操作风险,实时跟踪记录云平台运行情况,实现对异常状态的提前判断和预期故障的预警,有效提高巡检效率,保障业务安全稳定运行。

巡检流程零干预:360°深度感知云平台运行状态

日常巡检工作每天对云平台进行健康巡检和对资源的性能指标的异常巡检。易捷行云新一代私有云ECS中内嵌自动巡检脚本,提前定义巡检任务和时间,在不影响客户业务前提下,对物理资源、计算资源、存储资源、网络资源、云服务、操作系统等进行全面的运行状态及容量状态的自动化检测分析,帮助客户360°深度感知云平台运行状态,使得管理人员可以做到远程巡视,及时发现、汇报、处理问题,防患于未然,同时也为实时、异地处理告警创造可能。

日志管理零干预:统一日志,巡检报告实时/定时通知

运维管理的日志数据可以很好地反映云平台的运行状况,系统出现问题的时候,可以通过反查日志进行排障。易捷行云新一代私有云ECS实现了日志、监控、告警的可视化、自动化。提供从日志一键采集、日志存储到日志检索分析等多项服务,帮助运维人员全面、系统的分析系统故障和健康状况,方便问题快速定位和分析;同时,通过提前配置告警邮箱,巡检日志定时发送,协助用户及时获取异常通知,查询异常原因。 

提前配置告警邮箱,巡检日志定时发送

异常告警零干预:异常自动告警,故障可自愈

为了帮助企业更加量化的评估当下告警管理能力,易捷行云新一代私有云ECS基于智能巡检感知,对服务、存储、主机和日志提供严重、警告和信息不同程度的自动告警,并提供自动修复和手动告警处理方案;在发生故障或失控之前提供足够的警告,实现主动运维,降低故障率;当设备出现故障、损坏以及设备负载异常时触发自动告警,从故障发现、诊断到自愈整个流程自动化实施,基本实现运维保障的很少参与或无人参与,保证平台安全可靠。 

提供不同程度自动告警及处理方案

案例:某大型三甲医院智能巡检实现高效运维

易捷行云新一代私有云ECS智能巡检无技术门槛,可帮助企业主动的找出可能影响系统可用性和性能降低的原因,发现可能会影响软硬件严重故障,以及业务系统性能瓶颈等等,很大程度地提供用户业务使用环境的可用性和稳定性。

以某大型三甲医院为例,该医院依托易捷行云新一代私有云ECS构建起医院内部私有云平台,通过加速故障诊断与运维决策,对硬件、系统、服务、性能全面360°监控,可视化多维细粒度监控指标,自动化运维和深度分析,告警/自动巡检报告邮件通知等丰富的功能,有效地降低了运维压力,让医院更加专注于业务系统功能扩展和服务优化。

随着企业IT管理规模日益扩大,易捷行云新一代私有云ECS智能巡检服务将大大提高运维和巡检人员的工作效率,增加运维巡检工作的便捷性与准确性,以轻运维的方式提高云平台服务管理水平,帮助企业云平台高可靠、高可用,加速企业数字化转型。