移动浙江公司携手惠普软件主动监管IT运营

随着全球业务及3G时代的到来,电信运营商之间的竞争愈加激烈,运营商的角色也从简单的话音业务经营者扩展到包括数据、内容等的综合服务提供商。业务的不断创新对业务支撑提出了更高的要求,运营工作作为业务支撑的重要环节来到了改变的十字路口。

浙江省作为全国的经济大省,移动用户数量已突破4000万,网络规模和客户总数连续八年位居全国第二位,形成了全球通、神州行、金卡神州行等品牌系列。为了在竞争中保持领先地位,同时不断扩展业务,中国移动浙江公司(以下简称浙江移动)的IT系统运维承受着巨大的压力。“千里之堤,溃于蚊穴”,任何一个小问题都可能降低客户体验,进而造成客户流失。曾经的情况是,IT故障造成业务问题往往在客户投诉之后才发现是IT的问题,IT处于非常被动的位置。IT部门在救火时,往往需要很长时间才能确定故障和问题来自哪里。从2002年开始,中国移动业务支撑系统(BOSS)全面实施以省为单位的集中化建设,各省BOSS系统规模和能力不断扩大,BOSS系统已成为一个通信运营商的核心竞争力之一。传统的BOSS监控仅能简单的收集主机、数据库的参数状态,没有一种好的BOSS系统运营评价机制;没有能力提前“预知”故障的发生,未能从业务应用的整体有机的进行监控和管理,导致整个IT运维团队成了消防队,疲于被动应付各种突发事件,客户体验难以从根本上得以改善。

因此,浙江移动迫切需要一个主动解决以上问题的方法,主动发现问题,判断故障源,并第一时间解决问题。如同名医扁鹊看病一样,防病胜于治病,在疾病尚处于潜伏期或初发的时候就予以根治。

惠普软件解决方案:主动出击,全面监控

通过对上述问题的分析以及与浙江移动的深入沟通,惠普的专家认为,要解决浙江移动面临的业务挑战,必须对业务系统等进行主动监控管理,优化关键业务服务的可用性和性能,在问题发生之前及时应对问题并解决问题。同时通过对业务应用的监控,了解最终用户的应用体验,及时采取有效的措施,从而提升用户的满意度。

惠普的业务可用性中心提供了全面业务服务管理:包括端到端应用响应时间测量、SLA (服务水平协议)监控和报告、基础架构事件管理、IT 服务依赖性视图等。尤其值得一提的是惠普终端用户监控器(HP End User Monitor),这是业界首屈一指的监控工具,它可以主动监控最终用户的应用体验。例如可以逐屏重放问题发生时用户的每次行为,包括用户看到的任何错误信息。这有助于应用专家利用Web 界面,快速锁定问题,帮助解决问题。

惠普从业务感知角度出发,以业务拓扑模型为核心,依据业务建模、数据聚集、告警管控和界面展示四个层次来实现IT运营管理,从而让浙江移动的业务、应用、各类平台资源等IT运营管理要素全部覆盖于BAC系统。这样,浙江移动通过惠普的终端用户监控器监控网上营业厅、BOSS等系统,结果是不仅得到了综合业务视图,同时还可以得到关键性能指标(KPI)的趋势分析、历史数据展现、图表等,分析出具有代表性的客户行为报告,实现了对业务的全面监控,当然,最重要的是大大提升了客户体验。

客户体验:问题消弭于无形

惠普软件业务可用性中心给浙江移动带来的价值是多方面的,具体而言集中在以下几个方面:

解决业务监控盲点,对业务“软故障”——渐进式的业务故障提升趋势预警能力,做到及时发现、尽早解决,降低对业务的影响。比如,某日从0:30分开始,前台充值卡、现金和505充值的业务探针出现多次超时,时长达35秒(正常应小于1秒),平台生成趋势预警。值班人员据此检查这几个业务共用的充值数据库的性能,发现某个定时任务出现了挂起,并不断消耗数据库性能。经过紧急处理于凌晨3点50分排除故障隐患,避免了充值业务中断。这一例子充分证明了,趋势预警为提前发现业务故障隐患提供了可能,能有效减少甚至避免部分的业务中断。

快速定位故障环节,显著缩短故障处理时长。平台运行以来,故障平均处理时长缩短18%。比如,营业员投诉积分商城访问慢且易失败,通过业务探针的耗时细分,发现在非工作时间业务快且稳定,而工作时间的网络建立连接时间很长,随后深入分析网络连接时长并结合外网业务探针,定位故障根源是内网代理服务器在工作时间内带宽不足。

业务全景展示分析,自动生成分析报告,切实提升运维管理效率。浙江移动IT运营管理平台还包括了一个基于BAC产品之上的门户,并且这个门户被投射到了监控室的超大屏幕上。通过这个门户,IT管理人员能从直观的仪表盘上看到业务可用性、健康度以及几个最关键指标的实时信息;监控人员能够通过仪表盘以及业务全景视图功能清晰看出不同的业务是如何被IT资源支撑起来的,而且通过一个统一的视图能一次看到以往需要在很多个系统中才能看全的信息,其中甚至包含一些IT运营管理平台创新提供的指标信息,如业务处理时长等。

通过惠普BAC解决方案的实施,浙江移动的IT部门开始主动监管系统的运营状态,不再被动忙于救火、潜在问题往往在萌芽状态就被消除,客户满意度大幅提升,从而为浙江移动的业务发展和品牌美誉度的提升,提供了强有力的支持。

项目试运行以来,月均成功预警业务问题29次,预警有效率和覆盖率均达到96%以上,预警时间点比传统模式告警和客服报障平均提前42分钟,方便维护人员提前介入,避免了故障的发生,每月减少BOSS核心系统故障11分钟。通过业务故障快速定位,使业务故障处理时长平均缩短了42%。充分实现了提前预警避免故障为主,故障发生后快速定位修复为辅的项目目标。

对此,浙江移动负责BAM建设的项目经理唐涛表示:“在惠普的帮助下,我们建立了IT运营管理平台。通过运行报告和数据,我们发现平台提供了有效的业务预警和告警,能够帮助运维人员快速发现并定位故障,并能够面向各类人员提供不同的分析展示界面,这都使员工效率和客户满意度得到了提升。”

凭借此项目,浙江移动转变了业务支撑部门运维员工的思路,从基础平台架构的监控向业务运营管理转变,提示了员工对于业务的了解程度,拓展了业务支撑部门员工的发展规划道路,并且该平台通过自动化监控、准确故障定位诊断功能,能够有效减轻员工工作量,避免了监控运维人员陷入疲于奔命,忙于救火,增加了员工的满意度。

浙江公司在BOSS业务监控上的研究与实践为中国电信运营商的业务支撑系统维护做了积极有益的探索,因此在2009年也获得了中国移动通信集团授予的科技创新优秀奖。