Oracle Data Guard角色转换

实验环境：OEL+Oracle11.2.0.3+physical standby

众所周知，Data Guard已经是现今标准的主流容灾方案，由于日志传递对于网络适应程度强，且可以采用同步实时的传递方式和异步延迟的传递方式，甚至可以成为远程的异地容灾方案。不管用于何种用途，DG都免不了要进行角色转换，即将standby 数据库切换为primary数据库，角色转换分为：switchover和failover两种；两种区别从三个角度来对比：

（1）、使用场合不同：Switchover 用于有准备的、计划之中的切换，通常是系统升级、数据迁移等常态任务；Failover用于意料之外的突易做图况，比如异常掉电、自然灾难等等。

（2）、数据丢失程度不同：Switchover不会丢失数据，Failover通常意味着有部分数据丢失。

（3）、善后处理的不同：Switchover之后Dataguard环境不会被破坏，任然有Primary、Standby两种角色的系统存在。但是Failover之后，Dataguard环境就会被破坏，必须需要重建。

一、Switchover

因为Switchover这种转化是有DBA主动、人为触发的，所以Switchover的步骤都是标准化的。Switchover流程是从Primary Database开始，终止于Standby Database。

Switchover步骤如下：

1 在主库端检查数据库可切换状态

SQL> select switchover_status from v$database;

SWITCHOVER_STATUS:TO STANDBY 表示可以正常切换.

如果SWITCHOVER_STATUS 的值为SESSIONS ACTIVE,表示当前有会话处于ACTIVE状态

2 开始主库正常切换

如果SWITCHOVER_STATUS 的值为TO STANDBY：

SQL>alter database commit to switchover to physical standby;

Database altered.

如果SWITCHOVER_STATUS 的值为SESSIONS ACTIVE：

SQL>alter database commit to switchover to physical standby with session shutdown;

Database altered.

当 Primary Database 收到这条命令后，会发生这几件事情：

（1）、这条命令执行完毕之后，主库上就不会产生Redo，所有DML相关的Cursor都会失效，用户也将不能再执行事务。

（2）、每个日志线程的当前日志被归档，并在接下来的每个Thread新的日志头记录一个特殊的切换标准EOR（End of Redo），然后再次归档，其结果就是把EOR发送给所有Standby Database，Primary Database 转换成了Standby。

（3）、在这个旧的Primary Database 上，MRP（Managed Recovery Process）进程会自动启动，并应用最后一个归档日志，也就是EOR这个日志，一旦这个EOR应用完成，数据库就会Dismounted，并必须启动成一个Standby Database。

3 重启先前的主库

SQL> SHUTDOWN IMMEDIATE;(11g有时候要shutdown abort才行，不然报错)

SQL> startup mount;

4 这时候到备份库在备库验证可切换状态

SQL>select switchover_status from v$database;

SWITCHOVER_STATUS

-----------------

TO_PRIMARY

1 row selected

5 将目标备库转换为主库

如果SWITCHOVER_STATUS 的值为TO STANDBY 则:

SQL> alter database commit to switchover to primary;

Database altered.

如果SWITCHOVER_STATUS 的值为SESSIONS ACTIVE 则:

SQL>alter database commit to switchover to primary with session shutdown;

Database altered.

执行完这个命令后，Standby Database 的控制文件也从Standby 控制文件转换成标准的控制文件了，接下来数据库就可以open database，打开成业务数据库了。

6 重启目标备库

SQL> shutdown immediate;

SQL> startup;

7 先前主库启动日志传送进程

SQL> alter database recover managed standby database disconnect;

8 检查主备库角色状态：

select switchover_status,database_role from v$database;

至此，一个完整的Switchover 完成角色互换，可以正常使用了。

二、Failover

一旦主数据库发生Crash（比如异常掉电、硬件故障），短时间内无法恢复运行，这时为了尽快的把业务恢复正常，通常需要执行failover操作，将Standby数据库强制打开。Failover 通常意味着有一定的数据丢失，而数据丢失问题在Primary Database 是 RAC 时表现的尤为突出，需要重点关注。

Failover步骤如下：

1 停止应用日志：

SQL> recover managed standby database cancel;

Media recovery complete.

2 强制结束日志应用，执行下面命令：

SQL> alter database recover managed standby database finish [force];

Database altered.

这个force是可选项，这个命令是告诉Standby Database的MRP，不要再等待Redo了，并尽可能多的应用现有的Redo记录，并要模拟一个Switchover命令。force参数的作用是关闭PFS进程，否则MRP进程看到RFS进程还存在，就会认为对应的Primary Database还是正常的，就不会允许进程failover，11g中，force参数成了缺省的参数，同时force参数也被取消了。

一旦finish命令完成，DG的数据保护模式就会降级到Maximun Performance，不论原来是什么保护级别。

3 进行正常的switchover：

SQL> alter database commit to switchover to primary with session shutdown;

Database altered.

4 open数据库。

SQL>alter database open;

在打开数据库时，这个新的Primary Database 会尝试去连接Standby Database（也就是那个出了故障的Primary Database），因此打开过程会挂起一段时间，当尝试几次后，最终会打开数据库，这时数据库的保护级别就是Maximun Performance的，以后需要手工将其提升为其他级别。