华为云智能数据湖FusionInsight,成功助力10000+大数据集群滚动升级

随着政企数字化发展,大数据在政府、金融、运营商、大型企业等中承载越来越多的关键数据分析、处理的业务,在日常升级和维护过程中,对于业务连续性保障的要求也越来越高。每次升级操作的窗口准备时间要求尽量短,同时需要实现大集群滚动升级时业务不停机,如何处理这些痛点,成为了业界关注的重点。

近日,华为流程IT的大数据集群(大数据集群是对大数据从数据获取、数据存储和数据分析的集群)使用华为云EI智能数据湖FusionInsight升级管理可视化服务工具,成功处理了升级过程中每天10万+任务要求业务不中断、大版本滚动升级、意外场景、开源版本等问题。本次成功升级的华为流程IT大数据集群规模达10000+节点,数据容量1000+PB,升级到新版本后,单集群规模最大可以支持到20000节点,可满足华为流程IT业务高速发展的需要。

华为流程IT的大数据集群是基于华为云EI智能数据湖FusionInsight,面向数个部门,提供批流计算、多维分析、数据仓库、ETL、数据治理、可视化平台等基础能力,高效支撑各个产品和解决方案的数据分析过程。2019年,随着华为流程IT业务的飞速发展,大数据集群规模也急速增长,1年时间,数据总量增加了3倍,数据表增长了1.2倍,CPU使用率持续高达70%。现网集群已经稳定运行超24个月。今年在业务高速增长的背景下,为了满足大数据计算、存储的需要,急需扩大规模和数据容量。

华为云EI智能数据湖FusionInsight基于华为云为业界提供公有云、混合云的大数据解决方案,采用高性能的BMS和ECS,轻松满足企业数据处理业务需要。FusionInsight MRS大数据产品采用云化架构,架构灵活,最高可满足3万大集群使用和管理,满足企业高速的业务增长分析需要,数据分析价值最大,使数据“慧” 说话,使企业更智能。

基于此,下面一起看下华为流程IT的1万+超大数据集群的成功滚动升级过程中,华为云EI智能数据湖FusionInsight起了什么样的作用。

在本次升级面临挑战:

1.业务不中断:大数据集群每天为1000+租户提供服务,需要10万+任务在升级过程中不中断。

2.大版本滚动升级:从Hadoop2.X升级到3.X,开源社区仅提供了HDFS的跨版本升级能力,Yarn前后两个版本无法滚动升级;Hive从1.x到3.x版本,前后元数据格式不兼容、API有变化、语法不兼容等问题,导致无法支持滚动升级。

3.进度不中断:集群规模达万余节点,集群升级历时数天,升级过程中需要应对各种突发事件,例如硬件的磁盘故障、网络拥塞等各种异常场景,要求不中断升级。  

4.开源版本需改进:在升级过程中,存在HDFS删除的文件并不会真正删除,仅做了标记,会导致升级期间有效容量快速占满;HDFS文件块结构发生变化,导致升级后块丢失;Hive的时间戳字段,发生变化,导致升级后业务数据无法正常使用等问题。

为了保障大集群升级过程的平滑,应对这些挑战,FusionInsight团队提供了升级管理可视化服务工具,可以端到端分步骤的完成滚动升级,实现升级过程中的可视化控制和管理,并应对上述挑战,主要做了如下处理:

1. 为降低在升级过程中对关键任务SLA的影响,提供了按升级批次进行暂停的能力,关键作业或者作业高峰时段,可以暂停升级动作,保障关键任务平稳执行。

2.在版本开发阶段,由开源社区PMC、社区Commiter、研发工程师共同组建了滚动升级小组,解决了社区协议不同、元数据格式不同、API变化等导致的兼容性问题,实现了在滚动升级过程中,客户可以继续使用未升级的软件设备上进行业务处理(华为已将发现的通用问题回馈给了开源社区)。

3.为快速处理升级过程中出现的硬件故障,提供了故障节点隔离能力,在故障发生时,可以跳过改节点的升级动作,使得故障处理和升级可以有序进行。

4.针对HDFS的社区处理,华为在商用版本上做了标记删除文件的清理,旧版本上提供了定期清理的工具。

本次成功将华为流程IT的10000+大数据集群滚动升级,单命名空间的上限提升到数亿,实现Kunpeng、X86服务器的混合部署,为大集群运维管理提供了近1000+精细化管理指标及在线日志检索能力,提升维护效率,单集群规模最大可以支持到20000节点,可满足华为流程IT业务高速发展的需要。

image.png

       通过上述案例,可以看到,使用华为云EI 智能数据湖FusionInsight MRS大数据云服务,使得企业在10000+大集群的运维管理升级变得更加平滑和简单。

截止2020年5月,华为云EI 智能数据湖FusionInsight已经应用于全球60个国家及地区,服务于3000多个客户,拥有800多家商业合作伙伴 ,广泛应用于金融、运营商、政府、能源、医疗、制造、交通等多个行业。

2019年9月18日,华为云EI 智能数据湖FusionInsight大数据连续三年获得工信部中国大数据企业50强榜单第一名。

2017-2019年华为云EI 智能数据湖FusionInsight大数据连续三年在Gartner分析型数据管理解决方案魔力四象限中处于入围中国厂商的领先位置。