DeepFlow助力地产企业统一管理5朵云 简化混合云网络监控

1. 某地产开发商的转型之路

随着企业对云的认识越来越成熟,行业云、私有云逐渐成为企业的选择。“世界500强”某地产开发商对科技、互联网的拥抱由来已久,早年便有向互联网企业学习的历史,CEO在一次演讲中表示,企业向技术转型是必然的趋势,并于2016年启动了“沃土计划”,开启了集团内部的一场信息化革命)。为保证沃土计划的落地实施,地产开发商组建了自己的网络科技全资子公司(以下简称“地产科技企业”)。

地产科技企业是向集团总部以及所有下属子公司、相关联公司提供IT规划、开发和运营服务的IT服务提供商。在这样的背景下,其IT建设迅速发展起来的。在转型过程中,多元业务战略对业务间整合、客户资源打通、信息系统建设等也提出了更高的要求,集团总部希望自己扮演的角色是一个全新的生态构建者、连接者,采用“重服务,偏运营”的方式将产业上、下游的要素进行聚集,进而对产业链进行重构,形成新的生态系统。

2. 地产科技企业的多云战略

据RightScale 2019年云状态报告显示,84%的企业采用了多云战略。混合云的优势在企业上云过程中愈发突显,各大厂商也在混合云市场继续发力使得多云管理、云网协同和安全方面的能力不断提升,混合云在各个行业的应用越来越深入。在这样的背景下,地产科技企业选择了多云架构作为集团业务上云的基础支撑。在不同阶段分别上线了阿里公有云、微软Azure公有云、华为公有云、VMware私有云、华为私有云共计5个云资源池平台以满足业务发展的需要。

2.1. 多云异构带来的挑战

与众多企业一样,虚拟网络如何监控分析成为地产科技企业的新课题。这5朵云由于缺乏有效的虚拟网络分析工具和手段,无法对其进行统一的管理,因此迫切希望构建统一的混合云管理平台提高运营效率,以确保5朵云持续、高效、安全地运行。

业界已形成共识,针对传统网络的监控分析方法无法适应云时代的需求,目前地产科技企业的云平台在虚拟网络监控分析方面还存在一些空白。采用多云架构之后,云的管理团队遇到了基础设施资源池多样化、异构资源池统一监控难、资源和服务的调配能力与效率低等困难。

2.2. 5朵云的统一流量管理

业界对于多云环境的统一网络监控尚在探索之中。云杉网络 DeepFlow® 独有的采集器技术能够同时运行在不同的资源池环境中,单台控制器可以对接多个不同的云平台和管理数千个采集器,从而实现多云异构环境下统一的网络监控和分析,由此成为市场上能够匹配地产科技企业的5朵不同云的最佳选择。通过采用 DeepFlow® 方案,地产科技企业得以建设并实现如下目标:

东西向流量采集能力

针对5朵不同的云平台,实现对部分直接在宿主机内部完成传输的东西向流量的采集,破除虚拟网络带来的黑盒效应。

全网可视化能力

实现包括虚拟网络以及混合网络中端到端的网络可视化,生产网络和业务网络实时数据以及历史网络数据的可视化等。

基于租户网络的计量能力

通过对接云平台及基于SDN的虚拟网络,区分租户网络并实现对租户网络流量精确的采集、统计能力。

虚拟网络异常感知能力

通过对虚拟网络流量的分析,实现对业务网络变更、网络故障恶化、网络异常的自动感知及告警能力。

3. DeepFlow® 解决方案

地产科技企业在经过反复调研和详细沟通后,选择了部署 DeepFlow® 虚拟网络流量采集与分析系统软件,以现有的5个云平台网络数据为核心,通过对其虚拟网络流量进行采集和分析,实时监控云平台网络运行情况,保障网络安全高效地运行。


      3.1. 方案概述

在该项目建设中, DeepFlow® 平台对接范围包括阿里公有云、VMware、华为公有云、华为私有云、微软公有云共5个平台。通过部署DeepFlow® 采集器、控制器和数据节点三大组件,帮助地产科技企业在混合云环境中实现了虚拟网络流量的统一采集和实时分析,实现对业务关键链路的全面性能监控,并提供虚拟网络端到端的路径诊断。

采集器运行于5朵云的计算节点,通过从控制器获取ACL规则,提供对云环境中的网包数据完备的采集和预处理能力(如过滤、分发、Flow生成、Flow截取、脱敏等功能)可精细地实现对云网络流量的采集和分析。

控制器组件以集群模式旁路部署在本地资源池的标准x86服务器中,提供5朵云的对接和全部采集器的管理以及采集策略的管理。数据节点部署方式和控制器相同,提供丰富的实时分析和回溯取证等功能,并根据项目规划要求,支持横向扩展。

3.2. 部署实施

在项目实施过程中,控制器和数据节点旁路部署在地产科技企业本地资源池的x86集群,控制器通过对接云平台实现了虚拟机迁移感知,从而实现了采集策略的自动化跟随;同时 DeepFlow® 拥有对自身系统的全面监控能力,以确保平台稳定运行且不会对地产科技企业云环境造成影响。根据5朵不同云的技术差异,采集器组件在不同的云环境中,采取了如下部署方式:

在基于开源OpenStack云平台环境(如华为私有云)中,采集器以用户态进程的形式安装在宿主机上,利用宿主机操作系统自身内核的功能模块,对其虚拟网卡进行流量采集。

在VMware云平台、微软Hyper-V虚拟化环境和其他公有云中,通过在独立虚拟机中安装采集器的方式,借助宿主机或公有云操作系统自带的虚拟交换机功能实现流量的采集。

3.2.1. 云网全景图

地产科技企业云平台对资源上下级的关联展示有所缺失。例如网管平台只有宿主机与虚拟机的信息关系,而云平台又只有VPC、子网、虚拟机信息;当宿主机故障时,无法判断影响了哪些客户的哪些资源。借助 DeepFlow® 资源拓扑既能查看资源的所有云平台信息、流量统计信息,又能根据不同视角来查看资源的关联关系;例如VPC视角能将VPC关联的虚拟网关、VPC所包含的子网、虚拟机、虚拟路由器、虚拟安全组、外网/内网IP等全部呈现。

现有的流量统计和管理工具中,基本具备对单资源点的监控,但多资源之间的流量走向关系却不能直观地可视化,因此则不能进行带宽资源优化,也不能监控流量到底流向何方。借助 DeepFlow® 流量拓扑能力,云平台的运营者不仅能从大范围到小范围层层深入揭示流量拓扑关系,也能窥见资源与资源之间、资源与Internet之间、资源与未知流量之间的关系。

3.2.2. 云网诊断

云时代东西向流量占比越来越大,虚拟网络越来越得到重视,但虚拟网络问题的定位还处在蛮荒期,多数场景下都是一边人工查看配置信息,一边找到对应设备,一边导流量分析的状态。云平台运营者无法准确知晓业务部门提出来的带宽需求是否合理;也不知道虚拟机的投放是否符合业务需求;不清楚东西向的流量与南北向流量的变化;难以区分哪些业务的流量产生了异常;不能预判活跃TCP端口是否有变化。

地产科技企业的5朵云不同程度地遇到了上述问题,要解决上述问题需要先解决东西向流量带来的巨大压力。DeepFlow® 依靠精准的流量预处理能力,从多资源维度、多租户视角、多流量场景、任意时间粒度来统计与分析云网流量、包量,针对业务画像梳理出来的业务做可视化监控。此外,DeepFlow® 提供了丰富的可自定义告警设置,通过对不同的云资源池、设定详细的网络性能监控指标和告警阈值,从而实现了快速发现和定位业务网络异常;结合支持五元组采集过滤的PCAP下载功能,满足了故障回溯取证的需求,覆盖了故障事前预警和事后分析的全场景。

4. 价值总结

在不侵扰生产网络、不影响业务连续性的前提下,DeepFlow® 通过与地产科技企业多云平台的对接,在层次复杂的虚拟网络环境中从服务和应用角度,梳理并监控业务网络,通过对网络指标的异常信息进行实时分析,为业务在虚拟网络中的运行状态提供及时的监控告警。地产科技企业通过部署 DeepFlow® 实现了异构云资源池虚拟网络流量的按需采集、统一管理,解决了多云环境下虚拟流量的一体化管理和分析,为企业的业务整合、资源打通和基础设施建设打下了坚实的基础。