构建南网云,南网广东公司先行
南方电网广东公司隶属中国南方电网有限责任公司,直接管理广东全省19个地市供电局,以及电力调度控制、电网规划、信息、通信、基建、物资、科研、教育培训、综合能源等多家中心机构和直属单位。
“十三五”信息化规划中,南方电网集团提出了通过构建“厚云薄端”的“南网云”来推动公司IT架构升级,以快速响应多元化业务发展的需要。随着南方电网精益化战略的深入推进和竞争性业务的渐次展开,亟需通过“南网云”的建设来提升信息化水平,缩短应用上线周期,快速响应业务需求和市场变化,支撑业务创新,同时应对公司集约化带来的挑战。为积极遵循南方电网集团提出的“南网云”顶层设计统一技术指导思想,南方电网广东公司计划稳步、分阶段、有序地推进广东省内的云建设,并首先选择了清远基地作为试点之一进行建设。
通过项目试点,搭建南方电网广东公司清远基地电力综合服务智慧行政云,以建设新型的互联网模式业务系统平台为目标,同时集大数据、物联网、云计算、视频智能分析、GIS、人工智能、无线通信等新技术于一体,实现应用子系统的互联互通,以及数据集成和数据建模等大数据功能。智慧行政云平台对业务管控实现智能联动、图形可视、实时调控、高效运营等,最终满足办公、后勤全面业务的智慧管理,同时可以根据未来业务规模按需扩展,后续也可以将清远基地智慧应用建设成果进一步推广至全省各地市局。
信息化之路,四大问题需解决
“十三五”期间,在云计算、大数据等相关技术的推动下,各行各业都在谋求变化,试图构建新的产业格局,占据产业发展的制高点,对于南方电网广东公司来说也是如此。但其清远基地信息化建设面临着来自地域跨度大、异构化管理、利旧观念等问题,企业信息化建设面临巨大挑战:
业务场景多样化:
清远基地智慧应用涵盖食堂、安保、会议、应急仓库四大功能模块的智能化系统基础设施建设,包括人脸识别、车牌识别、门禁、广播、网络、Wi-Fi、监控、报警、能源管理等多个应用系统,主要应用于数据中心融合运维、平安城市智能运维、WLAN全生命周期管理等场景。
数据丰富多样:
业务覆盖视频类、数据类、管理类三大类,其中视频类业务为低优先级(be)、数据类为中优先级(af)、管理类业务为高优先级(ef)。因视频业务多线程调用视频时可能导致流量爆满,因而需要对视频流量进行限速。
存量复杂:
清远基地现有环境存在近百台异构的服务器、网络和存储设备,数据中心环境复杂,软件平台多样,业务种类繁多;现有服务器种类和存储涵盖了多个厂商的产品,其种类也非常多;而且服务器的型号和性能也参差不齐;甚至可能出现即将过保或淘汰的产品到当今主流的产品都有的情况。存量设备的存在和不断增加及变化,容易造成管理人员缺乏对基础架构资源集中管理的情况。
运维难度大:
以上这些现状直接导致了对管理人员的技能需求相对较高,要求他们熟悉各类型的技术。而实际情况是,管理人员疲于应付日常维护工作,很难及时兼顾其他工作,具体表现在对异构设备和系统的性能指标不能有效和集中的进行监控,对服务器的补丁维护、软件部署、备份、容灾等方面都不能进行集中的管理,最终造成运维工作做得不够理想,并且运维成本也很高。
目前信息化建设所存在的短板,诸如业务需求和问题响应速度慢、CSGII系统架构复杂、问题定位难、开发周期长、系统应用质量有待提高、持续改进能力欠缺、自主可控度不足等问题也需要通过试点项目的建设来尝试进行缓解和解决。
上云,落地南方电网广东公司能源云
本项目根据将云平台建设为新型业务系统平台的目标,同时具备高度的可扩展性和可升级能力,满足业务系统的稳定运行和业务升级。结合IT的信息化建设现状、用户需求以及其整体的标准要求,需要对计算、存储、网络资源进行较彻底的云化,通过建设云平台以满足各方面的要求。针对南方电网广东公司的具体情况及需求,九州云为其打造了一套基于OpenStack的智慧行政云解决方案,如图1所示。
图1 基于OpenStack的智慧行政云总体构架
云资源管理平台(IaaS)实现对计算资源、存储资源以及网络资源的整合,形成统一的逻辑资源池,对外提供计算、存储及网络服务,其中计算服务提供裸机、KVM虚拟机、VMware虚拟机3类服务;存储服务基于集中式存储、分布式存储技术提供块存储、对象存储以及文件存储3类服务;网络服务提供网络、子网、路由器、负载均衡、防火墙等服务。
平台即服务层(Paas)将各类平台软件和应用程序归类为基础组件、技术组件和业务组件。其中基础组件提供标准通用服务,包括关系型数据库、大数据、数据缓存、应用中间件、消息中间件、容器、工作流引擎等,实现弹性计算、弹性扩容、消息通信、数据存储等功能,所有组件已接口服务形式对外提供服务,云平台需提供服务集成服务实现服务的统一管理,并提供持续集成和连续交付服务,为应用提供开发、运行、部署等方面支撑。(如图2所示)
图2 平台即服务层(Paas)平台架构
云管理平台(CMP)主要提供云资源管理、云运维管理、云运营管理和接口管理几大功能模块。云管平台还对交付的资源使用情况进行持续的计量和计费统计,提供全局、部门、项目等维度的用量统计分析服务,通过内置的计费管理、配额管理、计量统计及报表功能,为IT运维、IT管理和IT用户提供多种类型的统计分析报表,提升IT服务管理的效率和水平。
云管平台不仅为IT运维管理提供了高效率、自动化的管理手段,还为业务用户提供了界面友好的自助服务入口。业务用户在服务目录中选择所需服务,即可自助完成云资源的申请,经流程审批,系统即自动完成所申请的资源的交付,实现了IT服务使用和交付的云化。
作为企业级运维体系的重要基础平台,云管平台还提供了完备的开发接口,支持通过REST API和更多类型的基础资源和第三方运维管理平台集成,如:应急指挥系统、视频、食堂、安保、会议、应急仓库系统等。通过持续的集成建设,最终形成云环境下流程驱动的一体化运维体系,如图3所示。
图3 云管平台一体化运维体系
通过该项目建设,南方电网广东公司清远基地电力综合服务智慧行政云成为了OpenStack控制平面高可用与高性能的云管理平台,并实现了多项技术创新:
(一)平台高可用
整个OpenStack云平台的高可用主要依赖控制平面的高可用,设计难点在于如何平衡关键服务可靠性与平台可扩展性之间的矛盾,同时从计算、网络、存储等模块优化OpenStack平台消息机制,经过优化后,平台组件间的冗余消息大幅减少,消息转发效率大幅提升。管理平台具有高可用机制保证,实现集群部署,采用分布式的架构,组件具有多活的特点。
(二)深入优化计算、存储以及网络性能
从KVM、OVS、Ceph等最底层技术开始源代码级优化,最终提供接近物理硬件能力的计算、存储和网络性能,为本项目各个核心业务系统提供了高性能、可靠的服务平台。
(三)智能平台监控及告警
一旦物理机、OpenStack服务、或Ceph集群出现异常, Zabbix均能监控到并自动报警. 将报警信息以短信、微信的形式发送到相关运维人员的手机上。通过与九州云的Zabbix监控集成,实现现场大屏幕、指示灯,及自动短信发送。
(四)多租户管理及隔离
本项目对OpenStack安全是主要从权限管理和网络安全管理来控制对云平台安全的保证。实现对OpenStack各个组件之间的API调用进行身份识别;通过用户,租户或项目(角色控制服务消费者对各个服务资源的访问权限。此外,运用OpenStack实现三层分级账户权限管理, 为不同权限级别的用户呈现不同的导航界面,支持每个业务项目组来部署与修改自己的虚机。
云平台提升自主创新,保持市场竞争力
随着国家电力体制改革,售端市场化竞争态势的形成,要求电网企业信息化能力的快速升级,以此来应对“一主两翼、国际拓展”产业布局所带来的业务发展和外部环境的快速变化。同时电力信息系统由分散部署到统一部署的转变,面临着海量数据的存储能力和计算能力的瓶颈,以及系统的访问压力大等问题。基于此,结合电力系统”分级管理、分层控制、分布处理”的特点,提出一种基于OpenStack且兼容异构资源的清远基地私有云平台设计方案,进而充分发挥数据的高阶业务价值,服务于电力业务,提升南方电网广东公司的自主创新能力,保持市场竞争力。
本次南方电网广东公司清远基地电力综合服务智慧行政云,实现了计算、存储、网络资源彻底的云化,并将全部业务系统迁移到云计算平台中,在试运行过程中,不仅稳定可靠,更大幅提升了运行效率,后续还将在此基础上开展运维自动化相关工具的研究,并实现充分与大数据平台、物联网平台等技术结合。该OpenStack云平台将为本项目进一步实现业务创新提供稳定灵活、自主可控的基础架构支撑。
南方电网广东公司清远基地电力综合服务智慧行政云在2019年将依托省公司、东莞局的成功经验,面向全省各地市局、区局推进改工作,初步预计在未来2~3年内完成全省技改建设工作。平台建设不是对原有系统的颠覆,而是在原技术体系外用云计算技术、云服务理念构建的技术创新平台,与原技术体系协同发展、互为补充,建立传统应用加云应用架构的双模式IT服务体系,打造核心技术竞争力,支持业务创新发展,保障业务正常运营。