数腾Oracle RAC数据库灾备解决方案

“一个系统包含很多模块,数据库、前端、缓存、搜索、消息队列等,每个模块都需要做到高可用,才能保证整个系统的高可用。”

数据库作为现代信息社会的基石,几乎所有的计算机应用软件都构建于数据库系统之上,对于数据库而言,高可用的实现可能更为复杂,对用户的服务可用,不仅仅是能仿真,还需要有数据一致性保证。灾备系统成为许多业务应用系统高可用和高可靠性的重要保护措施,基于现代数据库技术的信息灾备系统的建立和发展将成为后续数据安全防护的核心内容。

今天我们先来聊一聊Oracle RAC。Oracle RAC用来在集群环境下实现多机共享数据库,以保证应用的高可用,并实现数据库在故障时的容错和无断点恢复。它是Oracle数据库支持网络计算环境的核心技术。RAC是一种充分利用服务器资源的高可用性实现方案,RAC数据库集群可以根据设定的调整策略,在集群中实现负载均衡的功能,在集群中每个节点都是正常工作的,各个节点也是互相监督的,当集群中某个节点出现故障,RAC会自动将故障的节点从集群中隔离,并将在失败节点上的业务自动切换到其他健康的节点,保证业务对外服务不中断,也保障集群中没有一台机器作为备用机一直不被使用,充分利用资源。此外,传统的双机热备架构在出现问题时,常常需要数分钟的切换时间,而RAC在出现问题时,只需要数十秒的时间就可以完成失败切换过程。

Oracle RAC虽然保障了业务的连续性,但仅对于数据库操作来说,如果数据段有脏数据,也会重写至目标端,目标端没有多个时间点数据回溯能力,源端和目标端的数据对比交易实现,但业务可否接管还需要演练。但RAC并不支持透明演练,需要执行真实的主备切换,在这个过程中如果操作不当有可能会破坏源库。极端情况下,接管后的回传、源端的操作系统/数据库都需要手工来安装部署一遍,再重新配对同步。此外,除了数据库,其他业务应用系统无法基于日志方式做灾备保护,需要更合适的Oracle RAC数据库灾备解决方案。

图片3-1.png

用户偏向使用Oracle RAC数据库双活方案

数据库灾备体系要以用户实际业务需求为导向,基于多种因素考量选择:RPO、RTO、成本、扩展性,以及数据库灾备各种需求:灾备环境搭建、灾备数据同步、灾备监控告警、灾备演练、灾备切换、数据校验及修复等。

  • 低成本:容灾基础设施投入成本不超过生产基础设施建设成本的50%,甚至更低;
  • 可随时演练:可以演练,且没有很高的执行门槛,目的是随时验证容灾系统的可恢复性;
  • 分钟级RTO:RPO秒级,RTO分钟级,5级别以上的灾备恢复能力;
  • 简单易维护:运维方便,简单好用,又不会有过多的技术次生代价,主要是技术管理和维护。

数腾立足于用户实际期望,AceSure具有核心数据秒级恢复,高并发场景下进行数据库增量和差异版本的实时复制、运输,以及数据连续完整、业务高可用等特性。

图片1-1.png

数腾解决方案架构图

数据盘快速替换

01 当Oracle RAC集群点的共享数据盘发生故障时,AceSure的复制平台中选取了一个时间点,快速生成一个完整的数据拷贝;

02 通过IP SAN 或 FC SAN 挂载给RAC集群节点,顶替原来的数据盘,保证RAC集群正常运行;

03 AceSure可以选择不同时间点,生成拷贝,防止数据的逻辑错误。

集群节点降级接管

01 当Oracle RAC两个节点都失效或逻辑错误的情况下,AceSure提供集群的降级接管,可以选择从某个集群主机节点的备份镜像拉起接管虚拟主机;

02 接管虚拟主机的集群共享磁盘使用备份的共享磁盘镜像数据,其他磁盘使用原对应实例节点的本地磁盘备份镜像。

通过AceSure对Oracle RAC的灾备保护:

01 消除单点障碍,满足最严苛高可靠性诉求

AceSure保障了Oracle RAC的应用连续性,减少因操作系统、业务系统、数据逻辑错误等引起的宕机故障,RPO≈0,RTO≈0;

02 7*24应急容灾保障,业务高可用

AceSure提供数据备份和操作恢复的整体方案,具备多环境统一管理、实时增量备份、快速弹性灾备切换、精确到秒级的数据恢复等能力;

03 一体化管理,降低成本,提高资源利用率

AceSure基于快照一键生成应急接管虚机,恢复数据库运行,无需数据库管理员介入,同一个WEB管理界面,实现物理机、虚拟机、云主机的备份、仿真测试、容灾,简单便捷。

数腾即将推出完整RAC接管,无需降级,敬请期待!