• 收藏
  • 加入书签
添加成功
收藏成功
分享

基于备份一体机的数据库和云平台虚拟机的数据备份以及异地容灾的解决方案实践

夏潇
  
文理媒体号
2024年14期
江苏省财政厅财政信息管理中心

随着信息化技术的高速发展,各行各业产生了大量的业务生产数据,而业务生产数据往往容易遭受来自内外网的硬软件的安全威胁,如人为的误操作、恶意破坏数据、勒索病毒、物理磁盘损坏、机房和数据中心故障等等,对业务系统的正常运转产生了巨大的安全隐患。因此,业务数据的安全性至关重要,建设本地备份和异地容灾系统,用于在发生数据或者业务不可用的情况下,可以短时间内通过备份恢复等手段,快速恢复目标数据和业务。

本文通过对云平台(以华为云为例)虚拟主机和数据库(以Oracle数据库为例)的数据备份和异地容灾的建设为例,提供提高业务连续性和数据安全的解决方案。

一、本地备份系统的建设

本地备份主要通过备份一体机对Oracle数据库和云平台虚拟机的数据进行保护。

1.备份一体机对Oracle 数据库的保护

高性能备份一体机通过RMAN API(Recovery Manager API)数据库备份和恢复工具对数据库进行原生格式的备份和恢复。目前RMAN提供了backup set和Image Copy两种备份方式,本次高性能备份一体机采用Image Copy的备份方式对Oracle数据库进行保护,数据捕获的格式支持FileSystem和ASM ,支持单机、双机、RAC等Oracle数据库的部署方式。

Oracle数据库的备份详细流程如下:

1)将RMAN与目标数据库连接,在高性能备份一体机创建基础卷-Base Volume挂载到生产数据库服务器上;

2) 通过Oracle RMAN Image Copy获取全量数据存储到BaseVolume上,同时进行归档日志的备份,若增量备份则需要进行增量合并操作;

3)从数据库服务器上unmount基础卷,并在副本虚拟化平台上对基础卷做时间点快照,并且保存在存储内;

4)当生产数据出现异常需要恢复时:

①通过副本虚拟化平台生成快照副本数据,直接mount到数据库服务器上,切换用户应用访问挂载卷。

②通过指定时间点快照副本mount到数据库服务器上,切换用户应用访问挂载卷。

③通过副本虚拟化平台生成快照副本mount到服务器平台,然后进行浏览恢复(restore)操作。

④通过指定时间点快照副本mount到服务器平台,然后进行浏览恢复(restore)操作。

5)生成的快照副本挂载或恢复到数据库服务器。

策略说明:

1)完全备份+永久增量备份+定义分钟级别 SLA连续日志备份策略,实现分钟级的数据库备份保护;

2)通过原生格式的副本数据存储和虚拟克隆副本技术,可以将备份数据直接挂载给业务服务器使用,实现分钟级的数据库恢复重建;

3)从本地的保护技术而言,实现分钟级别的 RPO 和 RTO 保护。

2.云平台虚拟机的保护

通过大容量的备份一体机,并与华为云API和分布式存储 VBS联调,完成对生产数据中心的海量云平台虚拟机的保护。

云平台虚拟机的备份流程如下:

1)调用FusionStack提供的接口获取云平台虚拟机信息,并对云平台虚拟机创建快照;

2)调用FusionStorage 的接口将云平台虚拟机磁盘快照和差量位图挂载到代理客户端;

3)代理客户端读取数据进行备份,增量备份时通过对比差量位图获取增量数据进行备份;

4)读取数据完成后卸载快照卷和差量位图卷;

5)备份结束后保留本次备份生成的快照,删除上次备份的快照。

云平台虚拟机恢复流程:

6)同备份一样,华为云Stack平台恢复时,针对FusionStorage分布式生产存储,需要通过FusionStorage存储将云平台虚拟机磁盘代理到客户端写数据。

本地数据中心业务运作模式要求业务系统有非常高的可用性和可靠性,因此,在完成本地部署了完善的数据灾备和高可用保障措施。在发生灾难事件后,本地数据中心核心业务系统能在四小时内恢复,数据接近零丢失,以保证信息系统为用户提供高质量的服务。

二、异地数据容灾建设

1.异地数据容灾中心建设的必要性

针对灾备系统建设,业内主要参考《信息系统灾难恢复管理规范》(GB/T 20988-2007),规范明确要求各行业必须加强灾难恢复系统建设,提高业务系统持续运行的能力。同时行业监管部门还将定期对各行业的灾难恢复和业务持续方案的质量和全面性进行检查。国家标准《信息系统灾难恢复规范》根据灾难恢复能力从低至高,定义了6 个不同等级的灾备恢复层级:

1级:基本支持(数据备份的异地保管)

2级:备用场地支持(在1 级的基础上)

3 级:电子传输和部分设备支持(在2 级的基础上)

4 级:电子传输及完整设备支持(在2 级的基础上)

5 级:实时数据传输及完整设备支持(在2 级的基础上)

6 级:数据零丢失和远程集群支持(在2 级的基础上)

从《信息系统灾难恢复管理规范》(GB/T 20988-2007)要求来看,需要将备份数据复制到备用场地是提高灾备恢复能力等级的重要因素。

从业务安全和数据安全角度而言,本地的备份系统能够很好的保障数据安全和业务连续性,但智能将故障的范围限制在本地站点。考虑到业务数据的重要性,规划建设异地容灾中心,用于抵御如自然灾害、人为破坏等区域型灾难就显得尤为重要。

2. 异地数据容灾中心建设方案

灾备中心的选址需要考虑与主数据中心的地理相隔距离,分属不同的河流流域和地震带,因此在防范自然灾害、网络通信故障、区域灾难角度,具有更强的灾害抵御能力。灾备中心需要加强灾备系统建设投入和基础设施投入,包括“配备灾难恢复所需的全部数据处理设备,并处于就绪状态或运行状态”“采用远程数据复制技术,并利用通信网络将生产数据中心的数据实时或定时传送至异地灾备中心”,从相关的制度指标来看,可以提高灾难恢复等级优于四级的要求。

我们结合本地现有的灾备环境和设备,将核心Oracle数据库的副本数据和关键的云平台虚拟机数据通过备份一体机内置的远程复制到灾备中心,在灾难发生的时候,借助灾备中心的基础设施和远程复制而来的灾备数据完成灾后重建。当生产数据中心的备份一体机产生数据变化时,异地数据中心的备份一体机的数据也会实时发生变化。当数据发生问题时,生产数据中心没办法提供恢复服务,则立即使用异地数据中心的备份一体机进行数据恢复,可以在较短的时间内将数据恢复给业务系统使用,从而保障业务的持续运行。

从灾备分级和精细化管理的角度出发,远程数据复制的细粒度应为任务级别,且支持1对1,1对N,N 对1的远程复制方式,结合重复数据删除,减少冗余数据传输,提升传输效率,节省网络带宽资源。通过存储和传输加密加密,防止远程复制的数据被通过链路层和存储层被窃取,从而实现异地的数据级容灾。并结合高 SLA 的自动化日志保护,以达成高性能的RPO和 RTO 指标,灾备等级可以达到4级,即主数据中心基础设施完全故障,造成业务中心瘫痪宕机,灾备中心仍然能够通过远程复制而来的备份数据,在灾备中心或生产中心的基础设施进行恢复重建,减少灾难事件发生所造成的损失,对内外提供可靠、优质、可持续性的。

三、灾难恢复预案

在本项目组成项灾难恢复项目组,明确灾难恢复预案详细的行动步骤。建立灾难恢复的基础文档,定义所需行动的检查表、角色等,保证用户的核心业务系统运行并可在出现问题的情况下以在最短时间恢复正常,帮助用户达到其业务连续运作的目标。

运维管理层:负责生产数据中心的数据备份系统和灾备中心日常运维管理工作的组织,协调资源处理生产数据中心的数据备份系统和灾备中心运行过程中出现的问题。

技术支持层:负责生产数据中心的数据备份系统和灾备中心的基础设施、灾备系统的技术实施及投产后管理维护;处理运行中出现的技术问题;在系统测试验证、子系统验证、系统演练期间提供技术支持。

运行操作层:生产数据中心的数据备份系统和灾备中心的基础设施、环境以及灾备系统的日常运行监控与操作;及时发现系统运行过程中出现的问题,及时反馈给相关人员进行处理。

灾备服务层: 7×24 小时服务热线响应生产数据中心的数据备份系统和灾备中心的服务请求,反馈进度及结果。并定期提交服务报告,组织召开运维管理服务总结会议。

四、总结

最终建设完成的本地数据中心(生产中心)与灾备中心能够很好的解决业务连续性和数据安全的问题。另外,还需要加强人员管理和制度管理,定期开展灾难恢复演练,确保备份的数据可用。

*本文暂不支持打印功能

monitor