编者按:兴业数金金融云在银监会的监管和指导下已开展了十年的金融服务业务。通过四朵云为客户及生态链提供全方位的解决方案,包括银行云、非银云、普惠云和数金云。其中,数金云是面向兴业银行集团内、外部客户,提供金融级 IaaS平台、金融级PaaS平台、银行级IaaS平台,以及覆盖金融全行业的端到端解决方案。目前,兴业数金已累计服务超350家合作银行,有400项从基础设施到解决方案的服务品种,成为国内领先的银行信息系统云服务平台。那么,兴业数金是如何解决金融云平台的运维与合规难题,走向金融科技应用前列的呢?
实际上,兴业银行在金融科技的浪潮中主动拥抱新技术,领先完成了网络和云平台选型,迈出了数字化转型的第一步。兴业数金很快发现传统的运维监控方式已经无法匹配云时代的技术架构。怎么办?只能迎头赶上,继续创新,应对转型后的新挑战。
第一步 | 可视化打开虚拟网络的“黑盒”
云计算、软件定义网络(SDN)等架构的引入为金融服务水平的进步奠定了基础,却也带来了管理和运维上的挑战——从前,服务器集群组成一个业务系统,再配置交换机便完成了部署。这样的架构使得出现问题时非常好定位。而如今,随着多租户环境中虚拟网络流量的日益增长,租户业务系统中应用和服务的调用关系越来越复杂,租户内部以及租户与租户之间东西向的网络链接和安全状况却是“黑盒子”。在实际操作中,业务部门报障后,云平台的运维管理人员则需要对问题进行排查和定位,由于传统物理网络的监控工具缺少对虚拟网络流量数据监测的能力,Overlay网络内部一直处于“黑盒”状态,无法掌握东西向流量与租户业务、虚拟机、虚拟网元之间的对应关系,整个业务链路究竟哪段出现了问题,让运维人员难理头绪。
兴业数金的第一步,进行全网流量精准采集,使虚拟网络全景可视化。首先数金云在同城双数据中心部署一体化的虚拟网络流量采集与分析平台,通过对接现有OpenStack云平台并自动化部署轻量级用户态的采集器,完成大规模云网络的全景图绘制,该全景图是解决网络问题的总入口,通过对全景图上异常流量的监控和告警,云平台的运维人员可第一时间发现网络问题,然后进行端到端诊断,并进行分析和取证;对于业务层问题的诊断需求,可以使用分发功能将相关流量发给第三方工具进行分析。
第二步 | 回溯分析破解运维“迷局”
业务报障之后,运维团队主动复现问题,本是很平常的操作,但在金融领域,复现业务系统出现的问题,存在很大用户体验风险。而且,运维人员排查过程中可能无法复现故障,问题难以根除。这样的情况下,回溯分析就显得十分必要了。
兴业数金通过云网环境中基于流的多维度回溯分析,自定义流量关键字搜索,全景式重现指定时段相关网络的流量特征,为取证、排障等应用场景提供原始数据的支撑。当运维人员排查问题时,可以以时间点为标签轻松抓出与此相关的一切网络信息,从而实现迅速发现问题并排查故障根源。
第三步 | 策略验证确保安全合规的“金字招牌”
随着互联网金融的发展、业务上云的推进,国家的监管力度也越来越大。不仅仅有《网络安全法》的出台,工信部、银监会也都推出了相应的部门法规。而这些政策缩紧反映在技术端,则表现为对基础设施越来越严苛的要求,尤其是审计的要求。
此外,金融上云给技术带来的新挑战是,传统环境下的策略在云端是否都需要一一跟随。为求保险,运维人员不敢轻易删除安全策略,只能在安全问题发生之后再去增补,导致安全策略愈积愈多。随着上云业务的逐渐增多,安全策略的配置也愈发复杂。大量的新增安全策略和变动也增加了网络设备的负担,影响了网络效率,最终降低业务的访问质量。
兴业数金从网络流量的视角出发,通过自动学习云环境中的网络策略、采集并分析云环境中的网络流量,协助运维人员设置安全白名单策略验证,通过对比真实发生的流量是否违背技术人员编写的网络策略,从而触发告警,以确保生产系统的安全可靠。并且可将旧平台的策略直接导入在新的平台上,同样通过流量分析和白名单验证,观察是否存在安全风险。这样,不断验证策略是否生效、是否足以表达用户的安全意图,从而保证网络安全的万无一失。
第四步 | 流量及性能量化做精细化运营的“小能手”
金融机构的互联共享,带来了金融科技新的想象空间。兴业数金累计签约客户已经超过360多家,而且数量仍在持续增加中,其中170多家的业务都托管在兴业数金的云平台上。在云平台运营的初期,计费策略主要是按照租户带宽进行按月结算计费,但随着租户规模不断扩大和金融业务的增长,对计费模式提出了新的需求。兴业数金迫切需要解决的则是如何以云服务运营者的身份,通过精细化管理更好地为这些客户提供灵活、个性化的服务。
数金云依托全网流量的细粒度采集能力,运营人员可以根据租户需求自定义选择任意日期范围、不同时间粒度内指定资源所生成的流量生成报表。租户通过个性化、详实的数据可以更直观的了解流量的使用情况。对平台运营方来说可以及时回收虚拟机、带宽等闲置资源,不但提高IT投资回报率也提高金融云整体服务水平。
兴业数金点亮云网黑盒 实现云网络精细化运营
经过这四步的稳扎稳打,兴业数金大幅提升了云网络的运营效率,排障时间成功缩短到分钟级;成本上,一套虚拟网络流量采集分析系统可以将流量分发给不同平台、不同分析工具复用,大大节省成本;管理上,精细化运营让整个流程更清晰可控、井然有序。
对于为兴业数金提供上述虚拟网络流量采集与云网分析解决方案的云杉网络来说,深耕数据中心网络解决方案多年,认识到要解决上述问题必须深刻理解业务和网络的关系,即将网络的拓扑、网络的流量与其承载的业务进行有机的关联。云杉网络DeepFlow从虚拟流量的采集、分发、分析三个层面出发,用机器学习的方式分析虚拟网元及其配置信息、抽象网络流量数据中的类型、从业务的视角层层梳理网元与流量的特性,从而为客户提供“采集分发”和“分析诊断”两大解决方案。
- DeepFlow采集与分发方案面向云端业务,支持用户根据应用和服务自定义精细的过滤策略,支持OpenStack、vSphere虚拟化环境。通过帮助用户构建大规模、高性能、一体化的监控分析平台,从而提高云资源的利用率和云服务的安全性。
- DeepFlow分析与诊断方案以特定监控对象(业务画像)为起点,通过在业务关键路径实施监控,对其中的相关流量进行逐步钻取分析,从而快速定位问题。对于历史问题则采用网络分析和回溯分析进一步定位,特殊场景下则需将相关网包发给第三方分析工具处理。
兴业数金在与云杉网络的合作下,稳扎稳打击破金融上云的各种网络难题,成就金融行业最佳应用案例。