详解容灾架构中的数据容错恢复技术.docx
《详解容灾架构中的数据容错恢复技术.docx》由会员分享,可在线阅读,更多相关《详解容灾架构中的数据容错恢复技术.docx(10页珍藏版)》请在第壹文秘上搜索。
1、1 .企业容灾可能面临的数据灾难场景之前在企业容灾选型指南-2:企业容灾的数据巨制技术文章当中,我们介绍了企业容灾建设过程当中经常会用到的远程数据基制技术,主要集中笔墨在其正需场合下的数据巨制原理和机制上.那么有正常场合就有异常场合,一个成熟的数据复制技术必须能处理异常场合下的数据损坏和丢失故障.本文我们探讨的异常场景,主要是因数据中心之间的通讯故障、主数据中心数据存储设备故障等引起的其中一个数据镜像不可用(数据损坏、复制中断、镜像失效等)的场呆.归纳为以下两个问题:异常发生期间,数据变化如何保存记录?异常恢复之后,镜像数据如何恢复到正常复制状态?围绕以上两个问题,我们接下来探讨从系统层面、数
2、据库层面以及存储层面用什么样的机制或者策略来保障以上问题的完美解决.2 .操作系统层面如何完成数据镜像恢复?2.1 基于逻辑卷管理器模式的数据复制技术如图所示,发生了一个镜像不可用的场景.首先,第一个问题”异常发生期间,数据变化如何保存记录?.逻辑卷管理器是可以通过参数控制逻辑卷的读写行为是否一定要双写(例如AIX参数:KeepQuorumCheckingOn=yesno).如果我们设置双写控制参数为是,那么这个时候整个逻辑卷的写请求就会被挂起,逻娟卷被认为不可用,业务中断.如果我们设置宽松的双写控制参数,那么这个时候整个逻辑卷的写请求会等待PV2的ACK回算,如果超过系统默认Timeout时
3、间,那么认为PV2失效,将其标注为Disable,之后的写行为就不会顾及PV2的硝像豆制了业务无中断,但是之后的数据更新不会有任何辅助手段去记录。其次,第二个问题异常恢且之后,镜像数据如何恢豆到正常复制状态?当PV2所面临的异常环境恢豆之后,虽然PV2的硬件环境和设备都已经恢豆正常,但是逻辑卷的碗像PV2已经被标注为失效状态,因此不会有任何自愈行为.这个时候需要我们手动去做以下几步操作来恢豆数据镜像同步状态:命令方式手动拆除逻娼卷对应PV2的镜像.命令方式手动创建PV2物理卷设备,并加入卷组创建成为逻辑卷的新镜像.命令方式执行境像之间的数据同步.这一系列过程,第三步的原理是PV2会作为一个新的
4、设备存储空间,逐个读取原来PVl对应钱像里面的数据,然后以PP为单元进行基制同步,本身会很耗费时间和系统的读写性能2.2 基于ASM模式的数据复制技术如图所示,FaHUreGroup2对应的数据副本部分或者全部不可用的场景.首先,第一个问俄异常发生期间,数据变化如何保存记录?.OracleASM本身对于磁盘或者整个FailureGroup是否可用的判断,也是有参数可以控制的(例如Disk-RepaicTime,Failuregroupjepaijtime).如果超过参数设置的Timeout时间,那么认为磁盘或FailureGroup失效,格其标注为Unavailable,之后的写行为就不会再往
5、FailureGroup2写入了。但是这个时候它会有一个机制来保存后续短时间内的数据熠最变化.其次,第二个问题*异常恢聂之后,镜像数据如何恢安到正常基制状态?*当FailureGroup2所面临的异常环境恢复之后,ASM会通过设置的参数来判断是否可以自愈,如果不饶在参数所限条件下迸行自施,一样需要手动通过命令进行再同步的操作.1)小于等于参数disk_rep等Jtime(默认3.6H)时,认为是暂时性failure.会一直跟踪涉及failure磁盘extents修改,等该磁盘恢总后,函新同步将修改过的extents同步到failure磁盘.此过程无感知。2).大于disk.repair.tim
6、e.ASM会自动离线failure磁盘.需要人为使用命令剔除无效设备,并添加有效设备进入FailureGroup2,然后ASM会自动通过扫描豆制方式完成镜像的同步.2.3SJ于并行文件系统模式的数据良制技术如图所示,灾难发生后,经过仲裁之后,右侧数据中心的节点Node-2和FailureGroup2当中的所有磁盘对于集群都处于不可用状态.首先,第一个问题异常发生期间,数据变化如何保存记录?.GPFS本身不会通过自身的参数控制来判断磁盘是否不可用,它完全是依赖操作系统对IO状态判断的反馈来执行它的操作。如果GPFS的主节点Node-I通过ping判断负责failureGroup2的节点Node-
7、2是可用的,但是Node-2写入磁盘的10被操作系统判断为failed或者hung.GPFS会通过Recovery1.og来记录元数据和镜像数据的培量变化;如果GPFS的主节点Node-I发现负责FailureGroup2的节点Node-2失败了,那么集群会通过选举算法别除Node-2,并选择与Node-2同数据中心的其他节点来负责FailureGroup2的读写;如果节点和磁盘同时发生了故障(数据中心级别故障),那么GPFS集群会剔除失败节点,并且启用Recovery1.og来记录元数据及镜像数据的增量变化。其次,第二个问题异常恢豆之后,镜像数据如何恢豆到正常豆制状态?”当环境所面临的异常恢
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 详解 架构 中的 数据 容错 恢复 技术