Mocha NTA:揭开网络流量的面纱

企事业单位越来越多地依赖于IT系统作为其日常业务的支撑平台,如ERP、CRM、协同办公、电子商务等业务系统,而这些相关的业务系统无一例外的都需要以网络为核心的每个对象(路由器、交换机、服务器、存储,甚至是通信端口)作为平台支柱。而在这些针对业务系统的运维工作中,我们常常会发现与“服务器宕机”等显性特征相反的事情,“业务系统缓慢”让很多人都无从下手。

面对诸多疑问,国内著名的IT运维产品与服务提供商——摩卡软件,针对IT运维中 “不怕断,就怕慢” 的咒语,参照企业实际的运维案例,对流量监控与业务系统一体化架构进行了全面分析,使得深埋于网络底层的数据管理浮出水面。

未能通过的《带宽扩容申请报告》

某大型企业信息资源部的姜主任,是一位30出头的IT“资深人士”,从系统工程师做起的他,在应聘来到这家企业之后遇到的第一个难题就是公司ERP系统访问缓慢。

作为公司在推销新技术和IT架构方案发展上的革新者,在他的推动下,网络升级和服务器操作系统升级项目顺利展开。但当公司策略的执行效率突破了历史最高点的时候,业务部门却发现销售系统的运行有些异常,每个客户访问在线订单查询的时候,经常会出超时错误,而且总部的其他服务器在响应客户请求方面也显得略微缓慢。

大家不难想象,服务出现瓶颈,系统反应越来越慢对于系统维护部门的压力有多大。姜主任想改变“越用越慢”的情况,于是立即组织系统维护组的同事花费了大量的时间,一步一步去确定系统的各个环节是否有麻烦产生。如,检查交换机、路由器和防火墙的配置更改,利用 Ping等系统命令长期与服务器通信、检查数据库服务器、检查数据库是否正常(如日志已满)、检查Web服务器及 App Pool 是否异常、检查自定义的 Socket 程序是否正常等等……而在对影响业务组件全部检查都没有出现问题之后,系统维护组提出了升级带宽的解决方案。

但申请带宽扩容费用上报给公司之后,却被无情的打了回来。公司例会上,财务部门的主管解释了《带宽扩容申请报告》未能通过的原因:“姜主任的前任,曾经在离任前做过一次升级带宽的工作,但公司中几个非常重要的业务系统访问依然缓慢,由于缺乏数据支撑和有效的证明,预算不能通过”。

流量分析一体化管理的思路

摩卡软件的产品总监侯军认为:“本案例中,我们假定这家公司的IT部门判断是正确的,也就是说服务器等其他设备不存在故障,因为其他业务系统也同样存在缓慢的现象。那么,基本上可以判断是网络流量异常或者拥堵的情况导致的。虽然IT运维技术人员判断问题的方向没有错误,但缺乏实质性证据是这次网络带宽升级申请未能通过的主要因素。另外,在不能充分理解网络,不能掌控流量细节的前提下,很有可能造成错误的投资。”

在带宽容量认定中,一般分为瓶颈带宽和可用带宽。瓶颈带宽是指当一条路径(通路)中没有其它背景流量时,网络能够提供的最大的吞吐量。可用带宽是指在网络路径(通路)存在背景流量的情况下,能够提供给某个业务的最大吞吐量。因此,现在我们提到的流量管理主要是针对可用带宽的。在较为复杂的网络系统面前,不同的业务流量占用不同的带宽,重要的应用是否得到了最佳的带宽?它占的比例是多少?队列设置和网络优化是否生效?都成为流量管理的内容。

根据我们的调查发现,在IT人员手中,Sniffer、MRTG、Ethereal、PRTG等几款免费流量监控软件比较受欢迎。这四款工具可以说都颇具实力,在监视流量、控制流量、排查故障方面都有各自的绝招,但这四款工具的缺憾就是“整体性”或者说是“一体性”。例如:MRTG等网络流量分析会以图形HTML 文档方式显示给用户,以非常直观的形式显示流量负载,但缺乏从整体流量总览到局部视图的分析功能。而Sniffer之类的软件虽然可以实时捕获异常流量,但又缺乏了预警和长期历史分析的功能。摩卡软件产品总监侯军认为:“进行流量监控和流量分析是整个网络合理化的重要环节,它能在最短的时间内发现安全威胁,在第一时间进行分析,通过流量分析来确定业务系统缓慢的原因,然后发出预警,快速采取措施,这是运维部门必须做的一件事情。而针对业务系统量身订做的流量管理软件很少,因为必须要具有历史沉积数据的对比,以及具有关键核心业务跟踪功能,并且不能将这些功能拆分开,必须采用一体化的管理,否则会严重影运维的效率。”

“4W”理论与具体实践

网络中的数据流量一直被披上了神秘的面纱,而 IT工程师们也在苦苦寻找一款专门针对业务优化量身订做的流量管理系统,这已经成为IT运维的“时尚”。为了揭开这层面纱,摩卡软件在推出Mocha BSM 7.5.0之前,就针对流量管理提出了“4W”理论。即:“Who→到底是哪个用户或者应用在使用网络带宽? What→什么样的业务和应用占据了企业的大部分带宽?到底是什么样的网络协议在网络中运行? When→在什么样的时段,企业的业务是处于最高峰的?整个网络是否能承载现有的业务? Where→如果网络出现问题,到底是哪里出现了问题?什么样的业务受到的危害最大?”因此,在Mocha BSM 7.5.0中,全新升级的网络流量分析系统(NTA)从研发阶段就抱着解决这4个问题的目标出发的,并实现了4大试图和7大功能的革新。

Mocha NTA之所以称为流量一体化管理,因为它从许多方面都使得运维工作变得全面而又简单。例如,Mocha NTA包含了四大化繁为简的视图:从繁琐原始流量数据到精简流量分析视图、从整体流量总览到局部分析视图、分析指定对象的流量趋势和访问情况视图,以及从抽象的表格数据到具体图形化分析视图。从IT运维操作上,Mocha NTA包含了流量管理的7大功能:流量分布格局管理、流量趋势历史分析、持续会话监控、包流量异常跟踪、IP地址与协议端口关联、关键业务跟踪,以及TOP分析(应用、协议、流入、流出、速率、流量)。而对比传统的流量管理软件而言,Mocha NTA的改变更是巨大的,比如我们之前提到的流量数据分析,如果是长时间的记录数据,只能使用离线硬盘的方式,而Mocha NTA默认就可以保证7天实时数据的存储。并且针对大型网络优化还可以提供30天或者更长时间的历史数据自动分析功能。同时,目前主流的流分析协议全部在升级后的Mocha NTA中得以支持,如:mFlow V1(端口镜像)、NetFlow V5、NetFlow V9、NetStreamV5、sFlowV4、sFlowV5、IPFIX、cFlowd V5、cFlowd V9等等。

业务保障是流量管理的目标

如果说单独将Mocha NTA功能拿出来看,我们对运维的看法又会出现偏离:“单独看流量管理是研究价值,而不是应用价值。”所以,针对业务服务管理的运维阶段,要把业务系统当成是一个整体,它从来不会因为人为的分割而形成独立的个体。Mocha NTA与同时升级的Mocha Network Focus已经完全融合在一起,相互联动,这才是一体化运维的关键所在。

摩卡软件多年来,在IT运维领域积极推动BSM(Business Service Management,即业务服务管理)概念的普及,并在国内推出了第一款针对业务服务模型的网络管理系统——Mocha BSM。BSM有两层含义,一个是管理IT资源,如服务器、交换机; 另一层含义则是管理IT服务,即把IT的用户和IT资源关联起来,通过集中化、流程化、一体化的管理环境,实现服务的自动配置、高效管理,并尽可能摒弃人为因素的影响。第一点是所有IT运维管理都要解决的问题,第二点才是BSM的真正价值所在,而Mocha NTA的重要作用就是营造出了一体化的管理环境。