2020年8月15日,由清华大学、中国计算机协会、运营商主办的第三届国际智能运维(AIOps)挑战赛决赛暨AIOps研讨会在杭州再度火热开启。541名选手组成的141支队伍经过长达5个月的激烈角逐,6支队伍成功闯进决赛。在决赛答辩中,紫光股份旗下新华三集团参赛团队H3C AI Institute队赢得多位评委及业务专家认可,最终荣获冠军。
本届挑战赛以当前运维领域的热点“微服务应用系统故障发现和根因定位”为赛题,所用数据全部来自运营商真实业务环境,由运营商在准生产环境中进行数据采集、清洗、流量缩放、故障注入和实时数据推送,最终提供业务指标、微服务调用链、基础设施性能指标、部署架构共4大类合计240小类数据,为参赛选手创造了完全真实的运维环境。
新华三集团选手张闯讲解技术方案
面对复杂的课题环境,新华三集团代表参赛队伍H3C AI Institute从实际应用出发,采取模型泛化预测与创新算法,对应多组系统指标,在原始数据集处理过程中大幅提升效能,另一方面,通过构造异常评分表,实现故障根因的快速识别,大大降低了对算力资源的占用。基于此,新华三集团代表队在故障排查准确度、性能效率等多个关键指标上都实现了领先,最终以显著优势赢得冠军。
赛后,作为大赛冠军代表队队长,新华三集团AI研究院敖襄桥院长受邀就“AIOps最后一公里”议题进行分享:当前智能运维的普遍问题——算法推测故障的准确率不高,加之不同企业之间IT架构业务的差异性,这就使得用户在AIOps落地中不得不面临准确性和性能做权衡的处境。因此,我们需要不断创新并优化机器学习算法,梳理自动化预案和执行手段,借助场景化驱动前沿AIOps 算法落地,进而提高故障分析、定位和排查的效率。
新华三集团AI研究院敖襄桥院长参与论坛发言
随着AI技术的进一步发展与落地实践,人工智能将进一步与IT运维紧密结合,助力企业迎战复杂的业务系统。对此,新华三集团将继续践行“AI in ALL”智能战略,用AI技术提升IT运维的风险控制能力和服务效率,推进运维自动化、智能化演进,护航百行百业的数字化转型。