推动建立行业物模型标准,腾讯云数据中心寻找成本最优解

随着数据中心规模的快速扩张,如何提升运维效率成为行业共同关注。

8月11日,在CDCC第三届数据中心绿色能源大会上,腾讯云公布了自身数据中心智能化运维的系列落地技术,并分享相关实践。

作为国内头部的云计算厂商,腾讯云运营着一百多万台服务器。面对千万级的测点及千亿级的日均消息量,基于数据中心自动化运营的管理平台“腾讯智维”,大规模落地基于AI、数字孪生等技术,腾讯云数据中心显著提升了运营效率。

数据算法加持 走向“预测性维护”

目前,腾讯云已在数据中心规模化应用AI和软件机器人等技术,基于数字孪生的智能化建模、基于数仓的数据治理等手段,实现数据和算法驱动的预测性维护、智能化告警。

“腾讯智维平台基于图模一体化推进事前(风险识别和预警)、事中(告警收敛和影响分析)、事后(事件回顾和设计优化)管理,利用两张图(电力单线图和暖通组态图)融合物模型、实时数据、系统拓扑实现数据治理、容量管理、图形可视化和仿真模拟,从系统角度实现自动化和智能化运维。”腾讯云数据中心相关负责人表示。

风险识别和预警层面,AI 智能化技术已得到广泛应用。例如,腾讯云数据中心通过电池检测模型,能实现对电池故障、寿命和容量的预测,提前14天发现隐患电池,在确保可靠性的同时延长电池使用周期;基于震动/声音/温度/电流的频谱分析和机器学习,腾讯云数据中心能对电机和水泵进行预警分析和故障诊断,例如底座不平衡、松动、匝间绝缘等,可提前预警和更换,避免宕机事故。

告警收敛和影响分析层面,在监控事件、告警运营和辅助决策等智能平台的支持下,腾讯云数据中心的告警准确率已达98%,重大运营风险主动监控率和事件处理效率达99%以上,此外,“运营吹哨人”机制可实现一分钟内同步告警的影响范围。

同时,通过提升告警收敛技术,腾讯云将能把99%的非高危风险工单进行准确收敛和自动派单,极大降低运维人员的心智负担,将重心转移到故障分析、整改措施跟进等工作中。

“未来,运营人员软技能的提升是数据中心运营质量的重要保证”,相关负责人表示。目前,腾讯云数据中心运营团队正从“数据中心运维工程师”向“基础设施可靠性工程师(FRE)”转型,不仅具备产品设计、数据分析和低代码等技能,还能依托系统平台和低码平台进行管理,助力数据中心的运维工作更加安全、智能和高效。

此外,面对千万级的基础设施测点规模,腾讯云通过AI实现了PUE自动调优。能够在没有人力投入的情况下,每天自动完成对大规模集群的精准调节。以南方某1000个机架的模组为例,每年节约电费超过100万。在具备冷源优化条件的数据中心,腾讯云还在构建风冷系统的AI模型。

基于海量的经验积累,通过将AI技术从标杆项目推向全模组覆盖,腾讯云数据中心将能基于更广阔的场景和数据,建立可长期演进的数据中心可靠性模型。

建立物模型体系 推动行业标准建设

基于长期的运营经验积累,腾讯云数据中心正在将自身经验输出给行业,并推动建立标准。

本次大会上,腾讯云数据中心发布了“达尔文物模型开放联盟站点”。所谓“物模型”,指的是将数据中心型号繁多的设备进行抽象归纳,形成行业标准。建立物模型体系,不仅能通过即插即用显著减少接入工作量、实现规模效应,还能打通告警、变更等关键业务场景,拉通端、边、云的整体链条。

“只有整个行业去推动标准,才能实现真正的即插即用,减少现场监控系统调试,做到成本的最优解。”腾讯云相关负责人表示,希望与物模型厂商合作,共同建立标准,最大限度优化部署成本和质量。

据了解,腾讯云数据中心建立的物模型标准,包含 IOT 物联模型和DC业务模型,沉淀腾讯十多年海量运营之道、安全策略和最佳实践,将设备驱动、机理模型、数据治理、告警策略、控制规则、业务管理、大数据分析、AI 策略融合在一起,是实现系统高度自动化的必要条件。

值得注意的是,通过与设备厂商加强统一协议和标准化模板建设,并自研新北向和智能传感网络,腾讯云数据中心的多项性能得到提升。例如,监控数据性能已从分钟级提升至10秒,未来有望进一步提升至1秒。

此外,腾讯云数据中心已经在间接蒸发AHU上进行了深度定制化尝试,未来,还将在更多的数据中心基础设施产品上持续投入,通过更精细化的产品定制,推动数据中心基础设施向模块化、标准化、简单、高效方向发展。

在快速和海量集中自动运营的的需求下,数据中心全链路正走向开放和快速创新。未来,腾讯云将与合作伙伴共同推动自动化运营的更多探索,实现数据中心的精耕细作、智能运营。