发力新基建,易捷行云将数万节点云运维经验产品化助力企业数字化转型

编者按:

今年数据中心被纳入新基建范畴,这个政策也体现了国家对数据中心建设的重视,各地也在加速新基建的落地。全国已有数据中心机架数量超200万个,据中国信息通信研究院的专家判断,数据中心市场的总体规模仍在快速增长,未来三年年均复合增长率不低于30%。数据中心建设如何向着大型化、规模化、节能化、智能化的方向发展,实现全国资源合理布局,成为当下的一个议题。

易捷行云新一代私有云EasyStack ECS将1000+家大中型企业客户、数万节点规模云平台的运维经验产品化,实现了轻运维。它基于安全、稳定、高效的新一代数据中心分布式云操作系统,通过一体化、场景化的设计理念将平台与服务相分离,实现了全平台的可进化能力和轻运维能力。在轻运维方面,它可实现超大规模云计算中心的智能统一运维,不仅实现了日志、监控、告警的可视化、自动化,还可以自主探测系统拓扑与服务状态的变化,进而实现基于智能感知的故障预诊断分析和快速自愈。

本篇为易捷行云轻运维系列之智能监控篇。

随着企业数字业务规模不断扩大,上线的业务系统日益增多,IT系统的稳定运行也日益重要。面对日益复杂多变的IT系统,企业需要一套涵盖基础架构、系统应用性能和用户体验管理的统一监控平台,提供统一监控、日志、告警服务,构建立体化IT监控和运维管理体系,无后台操作实现故障自愈,提高IT系统运维工作的整体效率及服务水平,保障业务系统的持续稳定运行。

统一监控、日志、告警服务,无人值守智能运维

传统私有云的监控管理、巡检、日志等系统是分开建设的,监控工具需要通过手工方式进行数据集成与分析,并且只能临时应付IT运营团队遇到的问题。而易捷行云新一代私有云EasyStack ECS可实现超大规模云计算中心一体化统一运维,将1000+家大中型企业客户、数万节点规模云平台的运维经验产品化,常见问题内置于产品内,并且不断更新告警知识库,实现监控可进化。

易捷行云新一代私有云ECS提供智能运维监控服务,除了为每个项目提供项目视角的云资源监控之外,还为运维人员提供全局视角的智能运维监控,可以对平台运行时的各类指标进行实时监控,第一时间了解各类资源的使用情况以及各项服务的运营状态,从故障的预警、发现、诊断到处理,整个流程自动化实施,大大减轻了运维保障人员的工作量。

易捷行云ECS智能运维监控

易捷行云新一代私有云ECS具备完善的监控告警机制,提供完善的监控、日志、告警API,便于与企业已有系统集成,同时可以针对各类指标设置警报,及时通知管理员系统运行故障以及潜在的风险。此外,还提供日志管理服务,方便运维人员对平台历史运行状态进行审计、排查等操作。

资源全栈覆盖,智能故障处理

易捷行云新一代私有云ECS监控服务主要对云平台的物理资源、云服务资源、分布式存储集群以及控制平面服务状态等进行统一监控管理,并提供丰富的监控大屏可视化展示,覆盖多项监控指标,全面满足用户对于系统稳定性和可靠性的需求。

云平台一体化态势实时呈现:提供统一的界面,针对数据中心资源进行多维度全面监控;态势感知底层资源数据,提供直观友好的监控可视化展示,直观的体现应用、基础架构和告警等运维整体健康状况,展示监控对象的关键数据,方便运维人员对所有业务应用和IT运营情况整体把控。

云资源多维度全面监控

助力运维决策与容量规划:云监控为用户提供即开即用式的监控体验,用户登录云监控控制台即可查看云服务的监控报表,细粒度监控指标,性能、容量、运行状态,助力运维决策与容量规划;报警服务和自动巡检报告可通过邮箱进行推送告知,确保基础设施出现异常时的快速预警。

基础设施异常实时告警

故障预诊断分析和快速自愈:实时、准确掌握各业务应用系统的运行状态,自主探测系统拓扑与服务状态的变化,进而实现基于智能感知的故障预诊断分析和快速自愈。

高效故障定位,快速自愈

面向异构多云构建立体化IT监控和运维管理体系

随着客户对多云的接受程度越来越高,客户IT资源中越来越多的应用x86和non-x86不同平台,需要支持异构多云的云平台,提供统一的服务监控。

易捷行云基于新一代私有云ECS打造异构多云的云服务平台,为用户业务应用提供x86和non-x86的异构计算能力,并对底层异构资源技术差异性进行有效屏蔽,充分满足了企业用户“多样化计算、多云形态”诉求。同时,易捷行云基于新一代私有云ECS面向异构多云提供统一服务监控,打破数据孤岛,构建立体化IT监控和运维管理体系。

案例:某大型国有银行基于易捷行云新一代私有云ECS实现智能监控

某大型国有银行总资产超过10万亿,该银行把金融科技提升到全行战略高度,积极推进互联网金融平台建设,采用易捷行云新一代私有云ECS,构建了基于OpenStack的金融生产云。由于该银行云平台跨越两地三中心,部署数千节点,同时按照项目方式建设的云平台比较多,存在多套控制平面以及监控系统,累加在一起对设备及资源的占用问题就浮现出来,资源统一管理、统一调配、统一运维的需求日益迫切。

易捷行云新一代私有云ECS通过整合集中化统一监控运维,在运维上采用了集中可视化管理:对包括两地三中心云系统提供的云服务及建设的资源池实现统一监控、管理,最大化保障平台的可用性。同时,借助AIOps思想,把总结的运维经验产品化,实现故障智能化事件调度。当出现某一种故障时,云平台自动触发故障处理机制,全平台故障自愈设计,全面保障平台稳定运行,提升平台管理和运维服务质量。

通过易捷行云新一代私有云ECS智能运维监控服务,可实时收集获取私有云资源的监控指标或用户自定义的监控指标,探测服务可用性,以及针对指标设置警报,全面掌控各核心系统的服务状态及业务支撑能力,为业务和系统性能分析、IT运维管理决策奠定了数据基础,以简单高效的轻运维体验保证云应用顺畅运行。