博睿数据一体化智能可观测平台ONE如何提升可观测性?

最近,“刘畊宏女孩”和“王心凌男孩”都很火。提起“刘畊宏女孩”就能想起对着手机锻炼身体的自律女孩,提起“王心凌男孩”都能想起二十年那些憧憬未来的少年。

这两个名词很有画面感,其实,IT领域有画面感的名词也很多。

比如,“裸金属”(Bare Metal)指的是操作系统可以直接看到完整的物理服务器。又比如,“脑裂”(Split-Brain)指的是分布式集群因故障导致的一个集群有两个“决策者”的怪异现象,比如今天要聊的可观测性。

缺失的“可观测性”

本着缺什么就强调什么的精神,我们重新认识一下现在非常火的“可观测性”(Observability)。

博睿数据产品部高级总监孙丽在一次采访中表示,“可观测性”这个词最近听得比较多,它是伴随云原生的兴起而流行的一个概念。

博睿数据产品部高级总监孙丽

云原生的定义很复杂,但用过云的人都懂,它指的是可以只管应用而不用管理底层基础设施的架构,不用费心思管别的,只关心应用的业务逻辑即可,具有这类特征的技术架构都是云原生。

经常与云原生一起出没的是容器技术,容器可以帮助人们构建云原生技术架构。容器技术的理想是屏蔽底层的复杂性,它可以加速开发者的开发部署和迭代速度,但却为运维带来了“可观测性”方面的难题。

“可观测性”会导致看不到问题所在,看不到问题也就无从解决问题,最终表现为排除故障很难。

云原生的兴起推动了微服务和分布式技术的发展,这些技术正常工作时一切都好,但当故障发生时,需要在错综复杂的调用关系中捋出问题所在。同时,由于容器化技术的环境动态性很强,运维排障时的环境经常已经发生了变化。

传统监控的可观测性问题

在孙丽看来,传统监控技术很难帮用户构建一套高效的排障体系,当前工具式的监控体系已经无法满足企业的运维需求,看不到或者看不清问题就无法解决问题。

结合Gartner相关报告的观点,孙丽分享了目前IT监控存在的五方面问题。

1、孤岛式监控。由于缺少规划,企业中经常存在各种监控平台,有的是重复的,有的是相互独立的,总之都无法组成一个有机的监控系统。由于可观测性比较差,当系统发生问题时,就很难找出原因。

2、IT建设与业务目标脱节。IT建设和运维关注的是如何提供资源,而业务人员关注的是业务发展和用户体验,两者的目标是不一致的,当IT人员看不到用户体验的影响,IT部门就会与业务部门脱节。

3、智能运维不成熟。Gartner的报告中能看到,虽然智能运维说了很多,但实际落的效果非常差。孙丽认为,高质量的可观测数据加上较强的AI能力引擎才能让智能运维走向成熟。

4、新技术监控可见性不足。Gartner的报告提到,当前的监控手段在面对云原生、微服务、物联网等新技术时存在一些可观测性的问题,因为原来的底层资源层面的信息已经不可见了。

5、敏捷性不足。运维追求的是系统的稳定运行,应用研发人员追求的是更快上线新业务。当缺少自动化能力时,敏捷性会明显不足,两者难免会产生许多矛盾。

许多运维监控的专业厂商也都在关注这些问题,但大部分厂商的服务都存在一些局限性。孙丽将其总结为1.0时代的厂商和2.0时代的厂商。

在孙丽看来,市场上大概80%的厂商都属于1.0时代,这类厂商一般只有监控体系的一个或几个产品,没有组成有机的运维监控体系,经常以单产品或者没有关联的产品去提供服务,这类产品提供的可观测性是片面的。

2.0时代的厂商有相对完善的产品监控体系,覆盖了从用户、到网络、到应用、到基础设施的不同层级,但由于缺少产品的有机整合,导致无法站在在运维的全局视角去组织数据,会缺少有机融合的能力。

1.0和2.0时代的核心问题就是可观测性问题,也就是能否快速发现问题的问题。

博睿数据以ONE平台三大特性提升可观测性

博睿数据原本是2.0时代的典型代表,随着一体化智能可观测ONE平台的发布,博睿数据已经迈向了3.0时代,强调运维监控数智融合能力。

所谓数智融合,先要具备全局的数据采集能力,二是要以运维视角重塑产品,三是要对这些被采集的数据进行有机的关联和融合,四是基于这些数据做深入挖掘。

一体化智能可观测ONE平台用三大特性诠释了什么叫数智融合,诠释了如何提升可观测性。

第一点就是统一,通过一个平台去满足所有运维监控需求,不需要再去重复建设或购买不同厂商产品来自行组装,只需要一套ONE平台即可实现任意能力的开箱即用。

想要实现这种统一,需要监控能力覆盖APP、WEB、PC、小程序等多种终端,可采集来自用户端到网络、到云端、中间件、基础设施、设备、场景等等多个方面的数据,满足企业在数字体验、业务、网络性能、应用性能、安全等等所有方面的监控需求。

第二点就是关联性,相互不关联的数据对于提升可观测性没什么帮助。博睿数据ONE平台在对Log、Trace、Metric数据做关联的基础上,还加入各种实体、事件以及元数据的关联,实现了更好的可观测性。

具体做法上,ONE平台对企业的数字化系统做了1:1的复刻,构建了数字系统各种实体的数字孪生,真实系统发生的一举一动都会得到映射,从而大幅提升可观测性。同时,ONE平台还会基于这些数据来进行图计算,从而更好地做根因定位。

第三点就是智能见解。ONE平台可以像一个专业顾问一样告诉用户发生了什么问题,导致问题的原因是什么,从而缓解追查问题慢,解决问题慢的情况,帮助运维人员节省时间,让专业人员把精力放在其它业务领域。

ONE平台内置了博睿数据自研的Swift AI中台,该平台目前在事件关联、异常检测预测、智能告警、智能根因分析等等方面落地,博睿数据重视基于场景的、基于专业的知识库的AI,认为只有这样才能实现真正的智能运维。

从统一、关联性和智能见解,博睿数据完成了从看得更多到看的更透彻的整个过程,最终提升可观测性。

提升金融行业云原生架构可观测性

博睿数据资深技术总监常旭介绍了提升金融行业云原生架构可观测性的实践案例。
某银行在尝试容器化的过程中,对原来的单体应用进行了容器化改造,这对于运维工作带来了不小变化。

博睿数据资深技术总监常旭

单体应用时代,所有应用都运行在固定的几台物理服务器上,如果有问题就直接去这几台服务器上找,而现在的容器化应用将业务应用打散到了多台云节点里,运维方式也发生了很大变化。

比如,要解决手机银行App响应慢的问题,首先要考虑手机端性能数据,但比如查询、转帐等大部分业务都需要后台服务来完成。由于这些业务都变成了微服务的状态,运维人员无法获知微服务的调用关系及具体信息,想要优化往往无从下手。

博睿数据的Smart Agent技术能在业务被拉起的过程中自动实现探针的抓取,使用该技术之后,所有探针在业务生成的过程中都会自动加载、自动识别、并基于预定策略自动实现所有信息的采集。当采集到数据之后,即可基于数据进行分析、处理和缝合,最终可视化整个业务的调用链。

在这个案例中,当博睿数据把可视化业务链的数据展示出来时,部分研发人员认为展示的数据有问题,但随后,在多位研发人员的反复确认的过程中发现许多开发人员对业务调用链过程的本身并不是非常清楚。

最后,在博睿数据的帮助下,开发人员惊奇地看到了应用的调用关系以及其背后的潜在风险,可观测性有了大幅提升。不仅在整个应用性能表现上有大幅提升,还将排查效率提升了51.3%,这对于后续业务调优、业务处理以及运维管理都提供了非常大的帮助。

结束语

随着云化转型,随着企业IT架构构成越来越复杂,IT架构的“可观测性”问题会越来越明显,博睿一体化智能可观测ONE平台在提升可观测性方面的努力非常有意义。