随着数据中心服务器规模的快速增长,随之而来的服务器运维管理复杂度和难度也越来越大。在7月27日召开的由OCP社区主办、浪潮信息承办的第三届OCP China Day会议上,浪潮信息联合腾讯云发布《数据中心服务器智能故障诊断TIFDS系统技术白皮书》,详细解读了当前大规模数据中心运维面临的挑战,阐述了腾讯云与浪潮联合研发的TIFDS系统架构,为保障数据中心稳定运行提供重要参考。
随着云计算市场的不断扩大,数据中心服务器的规模也随之快速增长。在增长的同时,大规模数据中心在运维层面面临着巨大的阻碍因素。一边是海量设备、高度复杂运维环境的现实,另一边是提供高质量的IT服务,提升效率并降低成本的诉求,运维团队面临巨大挑战。而对于数据中心面临的挑战,势必要在事前就制定各类风险的应对策略。
TIFDS(Tencent & Inspur Fault Diagnosis System)是腾讯云与浪潮信息联合研发的故障诊断系统,是服务器健康监管技术及故障预警诊断技术的总称。该系统以腾讯云数百万服务器运营数据和浪潮信息深厚的固件研发专家经验库为基础,建立一套以带外BMC为中心的故障诊断系统,利用AI技术对海量服务器运行数据实时分析,实现运维工作由人工离线分析向自动智能在线识别的方向发展。
据浪潮信息发布的白皮书介绍,TIFDS系统具有风险实时预警,可结合AI智能算法,可对非宕机类故障进行实时预警,降低服务器高负荷运行下突然失效的风险;同时具备障精准诊断功能,基于浪潮信息构建的专家经验库,该系统可以将故障自动明确化率提升至95%以上,精准反馈故障触发源,提升运维效率;此外,TIFDS系统还具备日志定制化透明安全的特点,浪潮信息创新性地按照腾讯云需求联合定制日志输出上报方式,使诊断过程清晰透明,并对疑难问题进行了识别并建立了线上联合诊断系统,不断提升系统运维效率。
在数据中心领域,开放计算正成为当前乃至未来数据中心的创新主力。作为开放计算的倡导者和践行者,浪潮信息将继续坚持开放开源的技术路线,携手业内优质伙伴,为数据中心发展和高效价值挖掘贡献更多效能。