MySQL级联复制的同步问题（一）

热门文章

活动预告

即将开始

ITCP联盟第五届技术大会【AI应用专场】报名火热开启！

时间：2025-12-13形式：线下活动
即将开始

直播预告丨字节跳动高集成与自适应的HTAP系统建设

时间：2025-12-23形式：线上活动
即将开始

直播预告丨携程全链路压测体系建设：节日洪峰场景下的落地实践

时间：2026-01-14形式：线上活动
已结束

直播预告丨数据湖的“超级引擎”：Daft如何为AI应用提速

时间：2025-12-10形式：线上活动
已结束

以开源重塑全球 AI 竞争格局，COSCon'25 大模型开源论坛议程正式发布

时间：2025-12-06形式：线下活动
已结束

11月29日（星期六），Gitee Talk | 模力方舟 AI 沙龙 · 深圳站来了！

时间：2025-11-29形式：线下活动
已结束

ITCP联盟第五届技术大会【AI基建专场】报名火热开启！

时间：2025-11-29形式：线下活动
已结束

2025软件技术大会将于11月28日在北京国家会议中心二期举行

时间：2025-11-28形式：线下活动
已结束

直播预告 | AI Agent在物流业务场景的应用

时间：2025-11-26形式：线上活动
已结束

11 月 20日｜TiDB vs DB2 线上 Meetup 邀您一起探讨！

时间：2025-11-20形式：线上活动
已结束

11 月 15 日·济南站｜证券/医疗核心系统/卫健委/大药房/政务大数据平台的 TiDB 应用实践

时间：2025-11-15形式：线下活动
已结束

直播预告 | 货拉拉大数据存储架构演进与跨云生产实践

时间：2025-11-13形式：线上活动
已结束

直播预告丨智能运维新范式

时间：2025-10-27形式：线上活动
已结束

邀请函 | 海量数据1024开发者日暨产品发布会即将启航！

时间：2025-10-24形式：线上活动
已结束

20w奖金！OpenCloudOS「高效的容器镜像按需加载和去重挑战赛」直通腾讯面试！

时间：2025-10-23形式：线上活动
查看更多

杨建荣 2016-07-26 15:26:00

今天碰到一个有些奇怪的问题，有一套环境，在主从复制的时候有一些问题。

大体的流程设计如下：

三个节点位于三个不同的区域，因为节点1和节点3之间的网络存在问题，所以走了节点2来中转，由此可见延迟是难免的，但是延迟不能太大。最终的数据还是要通过节点3来做统计分析查询。这套环境的数据量不大，但是数据变更貌似是比较频繁。早上开发的同事反馈，节点同步感觉延迟很大，想让我帮忙看看到底是哪里出了问题。

查看节点1，节点2没有延迟，问题就出在节点2到节点3的延迟。

在节点3中查看slave状态：

> show slave status\G

*************************** 1. row ***************************

Slave_IO_State: Waiting for master to send event

Master_Host:xxxx

Master_User: repl

Master_Port: 3307

Connect_Retry: 10

Master_Log_File: mysql-bin.000009

Read_Master_Log_Pos: 16186388

Relay_Log_File: relay-bin.000004

Relay_Log_Pos: 13599457

Relay_Master_Log_File: mysql-bin.000009

Slave_IO_Running: Yes

Slave_SQL_Running: No

Replicate_Do_DB:

Replicate_Ignore_DB:

...

Last_Errno: 1032

Last_Error: Could not execute Delete_rows event on table test_mbi.test_dist_online; Can't find record in 'test_dist_o

Skip_Counter: 0

Exec_Master_Log_Pos: 13599294

Relay_Log_Space: 16304336

Until_Condition: None

...

Seconds_Behind_Master: NULL

Master_SSL_Verify_Server_Cert: No

Last_IO_Errno: 0

Last_IO_Error:

Last_SQL_Errno: 1032

Last_SQL_Error: Could not execute Delete_rows event on table test_mbi.test_dist_online; Can't find record in 'test_dist_o

Replicate_Ignore_Server_Ids:

Master_Server_Id: 23307

Master_UUID: 189a00c4-16a3-11e6-a678-06c76b65c01e

Master_Info_File: mysql.slave_master_info

SQL_Delay: 0

SQL_Remaining_Delay: NULL

Slave_SQL_Running_State:

Master_Retry_Count: 86400

1 row in set (0.00 sec)

发现在日志应用中出现了1032的错误，即删除的数据在从库中找不到。一般来看这类问题，感觉好像说小也小，那skip一下吧，发现这个不是权宜之计，因为skip了这个问题之后接着又碰到了同样的问题，所以反反复复修改skip本身就是一件隔靴挠痒的事情，而且实际上数据已经不一致了。

因为需求紧迫，时间又比较紧张，数据的延迟较大，所以简单评估之后发现还是重建从库。

当然这个步骤就很常规了。我也简单列举一下：

因为是多实例的场景，所以使用了如下的命令来导出：

/opt/mysql/bin/mysqldump -S /data2/bmbidb/mysql.sock --single-transaction --master-data=2 -B test_ad test_mbi test_sys_mgr |gzip > test.sql.gz

然后在各种网络层面周旋，总算是把这个dump从节点2拷贝到了从库环境节点3

然后在节点3停止slave,开始导入数据：

gunzip < test.sql.gz | /opt/mysql/bin/mysql --socket=/home/bmbidb/mysql.sock --port=3307

start slave

接着开始change master,当然这个时候对于MASTER_LOG_FILE，MASTER_LOG_POS可以通过dump来得到这些信息

gunzip < tes.sql.gz | head -50

会发现下面这么一段内容：

-- CHANGE MASTER TO MASTER_LOG_FILE='mysql-bin.000008', MASTER_LOG_POS=241903809;

这就是需要我们关注的地方，然后直接使用即可。

CHANGE MASTER TO MASTER_HOST='xxxx',MASTER_USER='repl',MASTER_PASSWORD='xxxx',MASTER_PORT=3307,MASTER_LOG_FILE='mysql-bin.000008', MASTER_LOG_POS=241903809,MASTER_CONNECT_RETRY=10;

这样从库的设置就完成了。

然后在下午的晚些时间又碰到了类似的问题，这可让我很纠结了，不可能一出现这种情况我就重建从库吧。

排除了很多潜在的原因，包括sync_binlog,表结构差异，节点中的数据库权限，表的存储引擎等。貌似还是没有找到要领。

通过mysqlbinlog去解析relay日志，依旧是无功而返。

/opt/mysql/bin/mysqlbinlog -vv relaylog.05 --base64-output decode-rows > relay05.tmp

所以这个问题还是很让人纠结的。

在同事的协助下，暂时使用了一个临时方案先来过渡。对于这类的DML操作如果数据不存在，可以选择忽略，即设置slave_exec_mode为IDEMPOTENT，而默认职位STRICT

> set global slave_exec_mode='IDEMPOTENT';

Query OK, 0 rows affected (0.00 sec)

> stop slave;set global sql_slave_skip_counter=1;start slave;

Query OK, 0 rows affected (0.00 sec)

修改完成后，这类问题暂时告一段落，还需要找到根本的原因。这种情况下比对了部分的数据，没有发现其他的数据冲突，但是解决方案也需要一个合理的解释。我们下一篇来继续聊聊这个，应该会有一个答复。

降本的Kubernetes何时成了“成本刺客”？

YouTube如何利用MySQL支撑24.9亿用户？

人肉运维100次后，年底出了P0级故障……

关于国产数据库我不得不说

分库分表，可能真的要退出历史舞台了！

MySQL级联复制的同步问题（一）