DeepFlow与云网络监控的发展

文以云杉网络DeepFlow®近几年在客户落地的方案实践为主线,聚焦混合云、容器环境下的需求演进,介绍在新环境下云监控的方案价值以及发展思考。

在云原生环境下企业客户主要面临的挑战主要体现在网络分层以及弹性业务充分体现了监控保障的难度,由此可以将挑战归纳为三点:对象数量大、波动性强以及关系复杂。举两个例子,应用在SOA、MSA架构下,更多地以Ingress、Service、POD在呈现,网络IP动态变化。如果仍然单独以传统的IP视角进行可视化以及运维保障,明显是不够的,存在短板。迫切需要将网络视角与平台、事件、应用关联起来。另一个典型的例子是“端到端分析”,在物理网络段,可以通过有限的分光镜像点来描述、展示路径,但中断于池内或云内网络段。云内网络处于“黑盒”状态,云内又包含有服务间交互访问、东西向网关、负载均衡、地址转化等各个环节,缺乏有效的保障手段,这对一个生产环境来说是不能接受的。
那么,云杉DeepFlow®赋予自身的使命是什么呢?就是要“为客户补齐云架构中保障侧的那块拼图”。去打开“黑盒”;去将采集与分析解耦;去绘制一张全网的网络知识图谱;去提升分布式业务系统的可观测性,实现一个与云等量齐观的完全可扩展的监控架构。
简单回顾一下DeepFlow®的实践发展。

DeepFlow®流量采集分发:解决东西向流量采集难题以及流量引出

2016年起我们就开始了客户落地。当时,客户的诉求很直接,就是要看到虚拟网络中的流量,其中存在的挑战包括避免对生产环境的侵扰、保障性能的同时限制采集系统对资源的使用、能实现策略跟随以及支持隧道分发。客户的环境与现在还是有些区别,资源池类型主要是ESXi、XEN以及KVM,理念上也是关注全包。DeepFlow®方案的重点就是采集与分发,为客户解决虚拟机间的东西向流量采集难题以及流量引出。需要做到避免侵扰数据面,在有限的资源使用下保障性能,在虚拟机发生迁移后,确保采集分发策略的统一及跟随。通过隧道封装,保时保序地将数据包分发至各类分析工具处。在这个阶段,DeepFlow®实现了面向各类资源池的网络流量“采集处理抽象层”,统一提供采集、多维过滤、去重、压缩、截短等预处理功能。抽象层中的各类型采集器本身也是一套分布式系统,为后期面向大规模多类型的云环境监控中高性能数据处理提供基础保障。

DeepFlow云网分析:解决分布在各地的资源池网络监控缺失

在中期阶段,客户业务逐步上云,云建设的规模更大,同时开始关注容器网络以及业务保障。这时客户更多地关注多区域多资源池以及underlay和overlay的统一管理、对于多云异构环境有统一网络全景图的需求、对虚拟网络的故障诊断需求也浮出水面。客户理念上也不再认为云环境的网络保障可单纯地通过存储、分析全包来解决。此时面临的多点多地管理,Overlay网络中的Trouble shooting等问题也很突出。DeepFlow®方案着重面向客户大规模混合云网络的整体监控,包括多数据中心、多分支机构、私有云和公有云的整体网络全景图,解决专线链路负载、公有云网络性能、私有云故障排查等系列问题。在此阶段,DeepFlow®控制器集群不仅具备了管理10万采集点规模的能力,而且广泛地与云平台、CMDB对接,使网络IP、流量与VPC、虚拟机、POD、服务、平台事件等关联,绘制一整张网络知识图谱。

DeepFlow分布式业务的可观测性:解决云原生应用保障及容器平台的网络监控

在目前阶段,云杉看到客户处容器环境发展迅猛,云建设思路更清晰,也更有规划。同时也在体系化地考虑监控保障侧的建设,将应用、网络及基础设施的Metric、Log、Tracing统一地加以规划整合。此时客户需求更多地面向业务侧、更注重随云扩展的架构实现、以及在此基础上提供高性能数据服务的能力。比较典型的一个方案就是支撑微服务平台的监控中心建设,通过DeepFlow®各功能展现服务依赖关系、访问指标、网络性能等,基于网络流日志获取业务Trace ID、容器Labels等键值,关联Log平台和Tracing框架,完善分布式应用系统的可观测性。

容器、虚拟机、宿主机的结合,也是常见的全栈场景,产品通过“全景图”不同维度的查询展示来描述各层面的关系。图中的“点”可以是数据中心、可用区,可以是虚拟机、容器POD,可以是VPC、网段、IP,也可以是Service、资源组等。“点”与“点”之间的连线可以设置为流量、调用关系的吞吐、延时、TCP连接状态等指标。当看到两个容器POD的连接延时超过阈值时,客户面临的是一个复杂的全栈环境,涉及到POD、Bridge、vSwitch,再到东西向的Gateway,中间已进行过多次地址转换。DeepFlow®清晰地将每一步的指标呈现出来,快速高效地定位问题点。这就是云杉为客户提供的全栈跟踪能力。

DeepFlow全栈混合云监控

经过这些年的积累演进,云杉DeepFlow®产品实现了随云扩展的网络监控架构。面向物理网络、虚拟化以及容器等多类型的监控对象,通过“采集处理抽象层”,首先确保客户平滑地从物理环境向虚拟环境的监控扩展;第二,得益于采集器的优势,针对资源池类型、品牌、规模以及后续发展都可以实现横向扩展,统一具备流量采集及处理能力;第三,采集与分析解耦,通过分发功能实现“一次采集、多处分析”扩展分析工具的能力,涵盖客户多种专业分析场景;第四,DeepFlow®高性能分布式时序数据节点横向扩展保障Metric、流日志以及PCAP等数据的存储与处理;最后,通过API、队列等方式为安全、业务等其他数据平台提供网络数据服务。

对于以上方案的实践,涉及到各个行业的领先客户群,DeepFlow®的演进离不开客户的信任、帮助以及支持。在实践过程中,云杉网络也深入地与云、容器平台进行合作与探讨,真切感受到技术人对于云原生的热爱与追求,并在此基础上团队之间的惺惺相惜。云杉将不断进步、保持先进,让更多的客户在云架构保障侧安心。