• 收藏
  • 加入书签
添加成功
收藏成功
分享

企业数据级容灾系统设计、实施与测试切换

刘春灵 翟永
  
领域媒体号
2022年24期
南京电子技术研究所 南京市 210013

打开文本图片集

摘要: 本文介绍了信息系统的容灾等级和技术框架。对基于存储、主机和应用的容灾技术进行了详细的阐述和对比分析,并以此设计了企业数据级容灾系统,同时还介绍了容灾系统的实施、测试和切换的具体工作。

关键词:容灾;灾难发生时允许丢失的数据量;系统恢复的时间;数据复制

中图分类号:TP309.3     文献标识码:B

0引言

随着“十四五”企业全面数字化转型战略的深入落实,信息系统成为支撑企业数字化转型的重要平台,企业大部分业务都依赖于信息系统,信息系统承载了核心的业务数据,成为企业运营的基础资源,确保业务数据的安全可靠,建立行之有效的数据容灾系统,从而能够在发生各类灾难时快速恢复、保证企业业务的连续性,成为企业数字化转型的重中之重。

1容灾级别

主要分为三个级别:

1)数据级容灾:将生产中心的数据复制到灾备中心,保证灾备中心数据的可用性和有效性。

2)应用级容灾:在数据容灾的基础上保证相关软硬件设备在灾备中心的可用性,确保灾备中心信息系统的可用。

3)业务级容灾:在保证灾备中心的信息系统的可用性基础上,保证人、财、物等资源的可用,是最理想的容灾。

2 数据容灾的技术及选择

数据容灾是我国标准《信息系统灾难恢复规范》中的灾备第四级别和第五级别,一旦灾难发生,灾备中心已保留企业生产系统在线备份的最新业务数据,可在此备份数据的基础上,使用灾备中心的机房场地、备用主机以及外围系统,恢复信息系统的运行,确保企业业务恢复的速度。衡量容灾技术的主要指标为RPO(灾难发生时允许丢失的数据量)和RTO(系统恢复的时间)。

2.1基于存储的数据容灾技术

基于存储内部的软硬件功能,通过IP、DWDM、SAN通道等传输链路,将数据从生产中心复制(同步或异步)到灾备中心。

该技术适应于服务器平台构成复杂、上层应用系统繁多的场景。RTO一般控制在数小时以内;RPO与复制方式相关,同步复制的RPO几乎为零,异步复制取决于异步复制的时间间隔和链路带宽。是目前采用最多的数据容灾技术。

同步复制是指业务数据同时发送给生产中心和灾备中心的存储,只有当两个中心的存储都拥有数据后,生产中心的主机才会收到I/O完成的指示,确保灾备中心有最新的业务数据,由于需要等待灾备中心的完成指示,从而对业务系统有一定的性能影响。异步复制是指业务数据一旦写入生产中心的存储后,生产中心的主机立即收到I/O完成的指示,数据将会按指定复制间隔发送到灾备中心的存储,从而减少了对生产中心业务的影响,但是灾备中心的数据相对于生产中心有一定的延迟。

实现前提:

1)生产中心和灾备中心的存储必须是相同厂家的兼容型号,并具备容灾复制功能;

2)基于存储的数据容灾对生产中心的存储有一定的影响,对复制链路有一定的要求(特别是同步复制)。

技术优势:

1)在存储底层实现,与主机和应用系统无关,不受应用场景的限制,对主机无影响,适配度高。

2)复制方式根据距离和链路情况可以选择同步复制或异步复制,灵活度较大。

2.2基于主机的数据容灾技术

基于主机厂家提供的功能软件或在主机上安装部署第三方软件,通过TCP/IP网络连接,将数据从生产中心复制到灾备中心。架构如下:

技术优势:

1)不受存储设备限制,仅对主机和主机软件有特定的要求。

2)基于IP网络,距离不受限。

局限性:

1)消耗主机资源,对生产中心的数据库和应用系统的性能有一定的影响。

2)由于生产中心和灾备中心的相关主机都需安装部署相关的软件,成本较高。

3)管理要求较高。

该技术能实现较低的RTO和较短的RPO,但是复杂度较大、成本较高且对主机资源有较大的消耗,仅适合I/O不大的少量应用系统使用。使用案例相对较少。

2.3基于应用的数据容灾技术

基于应用的数据容灾技术的代表就是数据库的数据复制技术,包括数据库自身提供的数据容灾模块和第三方厂商提供的数据库复制技术。生产中心的数据变化不断地传送到灾备中心,并且在灾备数据库上连续进行恢复操作,确保灾备中心与生产中心的数据一致性。当生产中心数据库发生故障时,灾备中心的数据库可以直接接管使用。架构如下:

基于应用的数据容灾技术也能实现较低的RTO和较短的RPO,对网络带宽要求较低,容灾网络成本较低,但是仅能对数据库的数据提供保护,并且对生产中心的数据库都有一定的性能影响。

综上所述,企业建立数据级容灾系统优先选择基于存储的数据容灾技术。

3企业数据级容灾系统设计

3.1两地三中心的容灾架构

通过三种数据容灾技术对比,企业信息系统的数据容灾一般会采用基于存储的数据容灾技术,建立两地三中心(即生产中心、同城灾备中心和异地灾备中心)的容灾架构,将生产中心的数据同步复制到同城灾备份中心,异步复制到异地灾备中心。

当生产中心不可用时,优先启用同城灾备中心恢复业务;当灾难导致生产中心和同城灾备中心同时不可用时,启用异地灾备中心恢复业务,异地灾备中心的数据通常会有一定的数据延迟。

“两地三中心”架构能够适应小范围的区域性灾难和较大范围的灾害,为不同灾难场景提供更优的RPO和RTO,是业界普遍采用的架构。

“两地三中心”架构的特点:

1)同城灾备中心为同步复制,数据复制性能较高,RPO≈0。

2)同城灾备中心为同步复制,RTO较小。

3)异地灾备中心的异步复制根据灾难情况,在提升链路带宽的前提下可以降低数据丢失的概率,且能够适应大范围灾难恢复的场景。

4)异地灾备中心,带宽要求较低,无距离限制,且能保证数据的有效性。

3.2关键组件技术实施要求

1)同城灾备中心

容灾网络距离:<100km,裸光纤连接。

传输延迟:<1ms (单向)。

网络真实带宽:>业务的峰值写IO带宽。

2)异地灾备中心

容灾网络距离:无限制。

传输延迟:<50ms (单向)。

网络真实带宽:>业务的平均写IO带宽。

其中业务的IO对链路和复制间隔(数据延迟)有决定性的影响,因此需要在设计时进行准确的统计。

3.3关键设备的设计

1)存储设备

部署在三个中心的存储必须具备复制功能,支持主流存储访问协议的同步、异步复制。

2)存储网络

在三个中心构建存储网络,实现主机对存储的访问和使用。

3)业务系统配套的服务器和软件

在灾备中心配备业务系统所需的数据库服务器、应用服务器并部署相关的软件。

4)容灾管理软件(可选)

根据需要部署容灾管理软件,实现向导式的容灾配置、恢复、切换等工作。

4两地三中心实施、容灾测试和容灾切换

4.1实施步骤

4.1.1准备阶段

安装和部署三个中心的存储设备、主机设备、以及其他软硬件设施。

1)完成所有软硬件设备(存储设备、主机设备等)的安装和上电工作。

2)在主机设备上安装多路径软件,从而使主机设备可以访问到存储设备。

3)确保用于同步和异步复制的FC或IP网络通信正常并完成配置。

4.1.2实施阶段

建立生产中心与灾备中心的数据同步,分为初始同步和持续数据同步。

1)配置同步数据复制和异步数据复制

考虑到生产中心的数据量一般较大,为了提高同步的效率,可以在生产中心完成数据的初始同步(即三个中心的存储设备暂时都放置在生产中心进行初始复制),初始同步完成后将存储设备迁移至同城灾备中心和异地灾备中心,随后配置持续数据复制(同步、异步)。

2)在同城灾备中心和异地灾备中心检查数据复制是否成功以及数据的延迟情况等。

4.1.3运维阶段

两地三中心一旦建立成功,需要完成日常监控和管理,保障数据容灾系统的正常运行。

4.2容灾测试

容灾测试是为了验证灾备中心的可恢复性和实际的容灾效果。主要包括:

1)数据可用性:通过测试灾备中心的文件可读性、数据库启停等操作来验证。

2)数据一致性:通过抽样比对数据库的记录、文件的大小、文件的内容等验证。

3)RPO验证:在生产中心插入时间戳记录,查询灾备中心最后一条记录的时间戳,计算差值即为RPO。

4)RTO验证:停止业务,将生产中心业务系统的数据库服务器地址改为灾备中心的数据库服务器地址,检验业务重启所需的时间。

测试步骤如下:

1)考虑到不影响两个灾备中心已有的容灾数据,可以在测试时建立容灾数据的快照,后续的测试基于快照实现,从而不会因为测试而影响到已经在同步的业务数据。

2)在灾备中心利用数据快照启动数据库、应用系统,检查业务是否可用。

3)验证灾备中心的业务数据是否可用、一致以及与生产中心的数据延迟。

4)验证完成后停止灾备中心的启动的数据库、应用系统,删除相关数据快照,恢复并检查同步、异步复制是否正常。

4.3容灾切换

容灾切换是当生产中心由于灾难等而发生故障无法继续使用时,启动灾备中心恢复业务的过程。

工作原理如下:

1)确认生产中心的状态,仅在确实不可用时才会切换到灾备中心。优先选择同城灾备中心,当同城灾备中心也不可用时启用异地灾备中心。

2)灾备中心的存储设备设置为可读写状态。

3)灾备中心的存储分配给灾备中心的主机。

4)在灾备中心的主机上启动数据库、应用系统,检查业务是否可用。

5)由于启用灾备中心,其存储设备会接收到变化的业务数据,当生产中心恢复后需要将灾备中心的数据反向同步到生产中心,同步完成后,将业务回切到生产中心并恢复生产中心到灾备中心的数据复制关系,从而恢复原有的容灾架构。

5结语

综上所述,在企业应根据实际情况,科学合理地选择容灾技术设计数据容灾方案,完成例行的容灾测试和真正的容灾切换,实现对业务数据的保护,防止业务数据的丢失,从而促进企业信息系统的安全运行,为实现十四五的全面数字化转型奠定基础。

参考文献:

[1]张政          数据容灾技术在企业信息系统中的应用 信息与电脑(2016)

[2]康楠          数据中心系统工程及应用             人民邮电出版社

[3]张江陵,金海  信息存储技术原理                   华中科技大学出版社

[4]李民,曹阳    容灾备份方案                       信息通信(2014(08))

[5]郝乐          数据容灾技术研究                   电子科技(2011)

作者简介:刘春灵(1975-),女,汉族,江苏南京人,南京电子技术研究所高工,硕研,主要从事存储、容灾、数据库等方面的研究工作。

翟永(1981-),男,汉族,江苏南京人,南京电子技术研究所高工,硕研,从事存储、容灾、网络等方面的研究工作。

*本文暂不支持打印功能

monitor