华云大咖说 | 大型分布式监控系统建设经验

大型企业在建立信息系统时,往往很注重硬件体系建设以及应用体系建设,在投入大量的硬件资源、人力资源,并建立了多套应用系统和运维系统后,却达不到预期的效果,甚至随着信息化架构规模的日益扩大,工作量剧烈攀升,问题频发,导致信息化部门疲于应付解决各种问题而无法进行更有效的管理和服务升级。

因此,在信息化体系建设中,监控运维体系必须作为重点模块进行规划建设,为后续的业务运行状态监测、故障分析处理、数据展示、数据分析、业务优化等实现基础的监控保障和充足的数据支撑。

本期华云大咖说,邀请到华云数据高级售前顾问周宇,畅谈大型企业在信息化建设和运维中常遇的问题,并进行经验分享。

核心观点:

1.企业成长过程中,随着业务规模的增加,运维体系也必须升级到标准的多级架构,比如,L0级的服务台或者远程监控中心提供7*24热线及远程支持服务、远程监控及跟踪服务;L1级初级工程师团队处理标准服务和故障;L2级专业的工程师团队处理复杂需求和故障,再依托L3级专家团队和外部厂商团队来解决更深层次的服务需求和故障问题。

2.大型集团型企业需要全方位的基础设施和业务监控体系,并且监控体系必须考虑到集团企业的分散特性,必须支持分布式部署,同时对报表、大屏、告警关联、流程整合等一系列增强功能也必须考虑在内。

3.监控平台要具备基本的监控能力:硬件监控、网络设备监控、存储监控、链路监控、云监控、动环、主机监控、中间件监控、数据库监控、容器监控。

4.当企业业务系统发生故障时,监控系统应该能够分析发生了什么事情,什么时间发生的,对应哪个职能部门,影响范围多大,核心故障在哪里,而不是按时间顺序挨个处理告警,花费大量时间解决外围问题。

5.在数据展示方面,要考虑提供多种视角,比如需要满足公司领导层、运维管理层、运维一线人员等多种职能组的不同需求,因此需要建立多套不同视角维度的数据展示模块。

6.总的来说,大型分布式监控系统建设应紧密结合业务,注重监控对象和告警的业务逻辑关联性,并逐步向智能运维迈进,为企业解决实际监控难题,规划整体运维平台,避免重复建设,助力企业加快实现数字化转型。