你踩过dataguard的哪些坑？

dbaplus 2015-10-10 15:44:00

话题

Topic

dataguard有什么缺点？话题发起人@Liangmao认为，dataguard的图形界面让人真不敢用，感觉很没底，而且命令行对于一般的操作人员要求太高。那么大家又是怎么看的呢？（本期话题贡献人：@Liangmao）

众说纷纭

香草拿铁：物理DG不能单建索引，也不能跨平台。

FZJ111：我遇到了几个问题：1、standby的arch文件系统快到99％，不足以放下一个归档文件，依旧会产生不完整的归档文件，这个时候mrp就挂了。11203 psu5 rac的dg standby。

2、检查效验数据文件居然会失败，我还以为是坏块，dbv数据文件没问题。【parknkjun@江政恒：这个情况我也遇到过，重启就可以了。】

3、磁盘被lock了，dg居然报坏块。存储驱动异常导致磁盘lock很正常，dg却报坏。无非就是磁盘无法写和读，mrp挂了，报坏块，dbv数据文件正常。【djs数据库：我把DG库的db_block_checking设置为FULL了，主库也设置db_block_checking设置为FULL了。遇到归档日志有问题，MRP就会挂起。我这里遇到几次主库是RAC，DG库有坏块，必须全恢复情况（是底层光纤链路问题导致），但是同样环境，同样链路问题，单机的DG库没有坏块。】

4、备库有个数据文件比源库小，然后mrp挂了，报错有坏块，当时我们用dbv去检查，发现数据文件都有问题，检查归档无问题，从主库cp那个数据文件恢复启动mrp就好了，这个问题应该是数据文件头坏了。

5、曾经有个问题叫“磁盘io抖动”。san-lan-vios- lpar，复杂的存储架构，没折的sa，emc还是hds的，存储换块盘，哥都要紧张。我们10 rac是hacmp的，存储一搞，或者vios一搞，几十套rac趴店。还有网络交换机断几分钟，100余套rac要挂。我还测出11 g rac的磁盘心跳和网络心跳分别出现问题的场景。rac三个心跳参数（mc、dto、reboottime，10g rac和11g rac这三个值的关系）到底怎么整，我问过很多acs的人，他们让我看mos的那个文章。我测试过10，11g rac，貌似mos不完全对。我测过11g rac，网络心跳比磁盘心跳时间短，10g rac则相反。我可是断过集群网卡和磁盘，有一段时间就是研究rac的心跳的具体时间和危害。我对reboottime的意义不明白，可能就是说故障导致心态丢失到一定时间就会出现重启，io隔离。

天道酬勤：我遇到了一个问题：adg有时延迟达到十几分钟，但奇怪的是standby负载并不高，而且无规律地偶发。primary端设置的参数直接指定sercive和db_unique-name，有standby 10gfi1e，主库是rac备库当机，软件版本11.2.0.4。我现在装了osw，下次再发生我准备开sr。【djs数据库：ADG上RECOVER STANDBY DATABSE可以开并行，我用过PARALLEL 32。远距离ADG，还要采用网络加速，否则日志传输就慢。我们这里跨1000公里的远程DG效果还可以。】

小马：failover后不能回切。

周卫丰：不能跨版本，不能逻辑同步，有限支持跨平台。【杨建荣_北京：不能跨版本是数据库版本，子版本可以兼容，跨平台是操作系统平台，但操作系统版本可以兼容，是这个意思吧？】版本有vesion release psu bundle ml intermediate，最多支持到psu级别，而且不推荐。

韩璐：搭配只读应用有限制。我们这里的只读报表应用也是要记录用户登入、登出时间，及菜单操作轨迹的。dg纯只读无法实现，so这种需求我们就用gg了。【周卫丰：12c可以在备库建临时表及序列，辅助报表分析。】这个还真不了解。不过这样的话，需要修改应用程序代码。我们的只读应用不用对应用代码做任何修改，只需在数据库中删掉一些菜单配置项即可使用，然后修改应用用户的权限为只读权限。

杨建荣_北京：说缺点必然和版本也有关系，我说个前段时间碰到的一个bug，害我一宿没睡好。

在10.2.0.4前，主库如果有drop datafile的操作，备库的mrp起不来了， ORA-00600: internal error code, arguments: [3689], [21], [], [], [], [], [], []

Errors with log /U01/app/oracle/flash_recovery_area/STEST4/archivelog/2015_09_11/o1_mf_1_7414_bz598mqc_.arc

MRP0: Background Media Recovery terminated with error 600

文档上Bug 5623467 - Corrupt redo from ALTER TABLESPACE DROP DATAFILE (文档 ID 5623467.8)

10g的备库不是active的，每次有大查询都得开到read only，查完之后再应用日志，有一次开发忘了还是dba忘了，备库一直read only，RFS接收归档但没apply，dgmgrl查看都正常，结果时间太长，接收的归档也给删了。估计adg也是促使dg大量使用的一个动力，原来客户那边用的是bcv,存储快照复制弄的备库。

小白：adg有个缺点，日志断了就坏了，如果能在线增量，从主库同步就好了，不走日志，直接增量数据。

周亮：主机平台要求大小字节相同，偶见bug带来的性能问题，偶见主备切换带来的生产库损坏，偶见logic corruption 带来的备库损坏，偶见日志断档问题需人为修复，极端环境下DG不适用（主备网络环境差，备存储IO能力不足，生产库归档量巨大）。

公先生：以后数据库干脆像iPhone一样，oem里就一个home钮，管启动和关闭。

Javid：缺点是不是国产解决方案，缺少社会主义元素。

鸣谢

在“DBA+社群”热议话题讨论活动中，得到了以下联合发起人以及群友们的积极参与和支持。在此，小编整理成文，并附上所有发表观点的人员头像汇总图，特此鸣谢！

你踩过dataguard的哪些坑-1