PostgreSQL基于流复制的HA实现

德哥@Digoal 2015-10-27 20:10:38

继上两周由DBA+杭州群联合发起人周正中带来的数据库安全专题分享，本周起，他将为大家分享数据库管理专题，以下讲解的是PostgreSQL基于流复制的HA实现。

专家简介

周正中

网名：德哥@Digoal

DBA+杭州群联合发起人之一

PostgreSQL中国社区发起人之一，负责杭州分会，兼任社区CTO一职。曾就职于斯凯网络，负责数据库部门。现就职于阿里巴巴，负责RDS PG内核组事务。

前段时间弄了个小玩意，适合2台主机，使用PostgreSQL流复制组建HA。

实现自动的failover和failback。

已经提交到github, 主备角色各一个虚拟IP。

https://github.com/digoal/PostgreSQL_HA_with_primary_standby_2vip

有此类需求的朋友可以下载测试。

之前还写过一个master对应单个IP，并且不会自动failback的脚本，没有这个复杂，也比较好用。

https://github.com/digoal/sky_postgresql_cluster

如果使用RHCS的话，可以组件基于共享存储的HA，我写过几篇文章详细介绍如何部署。

http://blog.163.com/digoal@126/blog/static/163877040201481085344535/

http://blog.163.com/digoal@126/blog/static/163877040201481085624211/

回到主题，讲一下2台主机如何使用流复制来做HA。

A HA script for PostgreSQL with 2 HOST (one for primary, one for standby), Primary with one VIP, Standby with another VIP. Auto failover and failback.

硬件需求：

两台主机，分别负责primary和standby；

2台主机还需要2个fence设备，切换时防止脑裂。

2个虚拟IP，分别对应primary和standby；

三种状态，primary，standby，primary_standby；

三种状态自由切换：

当1台主机异常时，另一台主机承担primary_standby角色，并启动2个虚拟IP。

正常情况下两台主机分别承担primary和standby角色，分别启动一个虚拟IP。

应用程序连接虚拟IP，一个虚拟IP对应的是primary，另一个虚拟IP对应的是standby。

虚拟IP和角色的关系固定，不会变化，例如：

假设192.168.111.130对应primary角色，那么不管怎么切换，他们始终在一起(谁是primary，谁就会启动192.168.111.130)。

数据库角色转变和心跳原理：

1. 根据文件recovery.conf是否存在检测本地节点角色

存在(standby)，不存在(master)

2. 加载NFS对端归档目录

3. 启动数据库

如果是standby

1 备份上一个控制文件副本

2 备份当前控制文件

3 启动数据库

如果是master

1. 启动数据库

启动VIP

如果是standby

1. 启动vips

如果是master

1. 如果vipm已被其他节点启动

降级为standby

启动vips

2. 如果vipm没有被其他节点启动

启动vipm

触发第一次心跳

循环心跳检测

不同的角色，循环逻辑不同：

master角色，循环检查

1. 网关检查，反映本地网络状况

2. 本地心跳检查，反映本地数据库健康状态

3. 本地角色对应IP检查

4. 检查VIPS、PORT、数据库心跳

==如果本地健康，对端不健康

==触发切换

1. 主节点fence standby

2. 主节点接管VIPS

3. 主节点转换master_standby角色

standby角色，循环检查

1. 网关检查，反映本地网络状况

2. 本地心跳检查，反映本地数据库健康状态

3. 本地角色对应IP检查

4. 检查备延迟，判断是否允许promote

5. 检查VIPM、PORT、数据库心跳

==如果本地健康，对端不健康

==触发切换

1. 备节点fence master

2. 备节点停库

3. 备节点备份控制文件

4. 备节点注释restore_command

5. 备节点启动数据库

6. 备节点激活数据库

7. 备节点接管VIPM

8. 备节点转换master_standby角色

master_standby角色，循环检查

1. 检查对端数据库监听是否启动

==如果对端数据库已启动

==触发释放vips

1. 释放vips

2. 转换为master角色

架构图：

[压力测试以及一致性测试]

主192.168.173.37

备192.168.173.42

创建测试表 , 测试函数

postgres=# create table test(id int primary key, info text, crt_time timestamp);

CREATE TABLE

postgres=# create or replace function f_test(i_id int) returns void as $$

declare

begin

update test set info=md5(random()::text),crt_time=now() where id=i_id;

if not found then

insert into test values(i_id,md5(random()::text),now());

end if;

exception when others then

return;

end;

$$ language plpgsql strict;

压力测试脚本

vi test.sql

\setrandom id 1 30000000

select f_test(:id);

压力测试

postgres@db-192-168-173-37-> pgbench -M prepared -n -r -f ./test.sql -c 16 -j 4 -T 3000

在约1分钟后, 关闭主库eth0:1 接口

[root@db-192-168-173-37 ~]# ifdown eth0:1

这期间173.37还在做压力测试, 数据库已经和42产生了差异数据.

看后面37能不能顺利转换成standby

触发切换, 备切换成主备角色

[root@db-192-168-173-42 ~]# tail -f -n 1 /tmp/sky_pg_clusterd.log

2015-01-0408:50:42 detecting eth0 192.168.173.130 exists, ps: return 0 exist, other not exist.

checkmaster check times: 3

2015-01-0408:50:45 detecting eth0 192.168.173.130 exists, ps: return 0 exist, other not exist.

checkmaster check times: 4

2015-01-0408:50:48 detecting eth0 192.168.173.130 exists, ps: return 0 exist, other not exist.

checkmaster check times: 5

2015-01-0408:50:51 detecting eth0 192.168.173.130 exists, ps: return 0 exist, other not exist.

checkmaster ipscan timeout: 5

2015-01-0408:50:53 normal fenceing, waiting...

Success: Rebooted

waiting for server to shut down............. done

server stopped

waiting for server to start....LOG: 00000: redirecting log output to logging collector process

HINT: Future log output will appear in directory "pg_log".

LOCATION: SysLogger_Start, syslogger.c:649

.............................. done

server started

2015-01-0408:51:48 promoting database ...

server promoting

2015-01-0408:51:48 testing promote status

2015-01-0408:51:48 promoting...

2015-01-0408:51:49 testing promote status

2015-01-0408:51:49 promote success.

CHECKPOINT

pg_switch_xlog

----------------

1/14C58C30

(1 row)

CHECKPOINT

pg_switch_xlog

----------------

1/150000E8

(1 row)

CHECKPOINT

2015-01-0408:51:56 eth0:1 if upping. 1.

2015-01-0408:52:00 eth0:1 upped success.

2015-01-0408:52:00 this is m_s

2015-01-0408:52:01 detecting eth0 192.168.173.1 exists, ps: return 0 exist, other not exist.

cluster_keepalive_test

------------------------

(1 row)

2015-01-0408:52:01 detecting 192.168.173.130 address up on eth0 ....

2015-01-0408:52:01 detecting 192.168.173.131 address up on eth0 ....

2015-01-0408:52:01 detecting postgresql listener on peer host.

connect failed!: Operation now in progress

socket created!

在新主节点(192.168.173.42)接着压

postgres@db-192-168-173-42-> pgbench -M prepared -n -r -f ./test.sql -c 16 -j 4 -T 30

最后主备一致性检查

新主节点

postgres=# select count(*),sum(hashtext(info)) from test;

count | sum

---------+---------------

1808909 | -680268294581

(1 row)

新备节点

postgres=# select count(*),sum(hashtext(info)) from test;

count | sum

---------+---------------

1808909 | -680268294581

(1 row)

[参考]

1. https://github.com/digoal/PostgreSQL_HA_with_primary_standby_2vip

2. https://github.com/digoal/sky_postgresql_cluster

3. http://blog.163.com/digoal@126/blog/static/163877040201481085344535/

4. http://blog.163.com/digoal@126/blog/static/163877040201481085624211/

本文由作者周正中授权DBA+社群发布，选自作者网易博客PostgreSQL research

最新评论

: 访客 2024年04月08日

如果字段的最大可能长度超过255字节，那么长度值可能…

: 访客 2024年03月04日

只能说作者太用心了，优秀

: 访客 2024年02月23日

感谢详解

: 访客 2024年02月20日

一般干个7-8年（即30岁左右），能做到年入40w-50w；有…

: 访客 2023年08月20日

230721

活动预告

已结束

XCOPS智能运维管理人年会-广州站

时间：2025-05-16形式：线下活动
已结束

当SQL遇见AI OceanBase开发者大会 · 2025

时间：2025-05-17形式：线下活动
已结束

瓜分 10 万奖金！OceanBase 首届 AI 黑客松等你来战

时间：2025-04-10形式：线下活动
已结束

AI创业者速来！第十一期浦软创业营启动招募啦！

时间：2025-04-30形式：线上活动
已结束

坐标上海，国产数据库平替“深度对话”！多语法兼容，未来已来

时间：2025-03-22形式：线下活动
已结束

国产数据库选型必看！2月20日，深度探讨 TiDB vs MySQL：技术演进与选型趋势大揭秘！

时间：2025-02-20形式：线上活动
已结束

参会指南 | 2024 第五届 GOLF+ IT新治理领导力论坛重磅来袭!

时间：2024-12-17形式：线下活动
已结束

【北京】StarRocks Summit Asia 2024——"Data + AI" 时代下的数据架构

时间：2024-12-07形式：线下活动
已结束

中国Dev0ps社区峰会 2024·上海

时间：2024-10-19形式：线下活动
已结束

StarRocks 小课堂 · 监控告警全覆盖

时间：2025-04-16形式：线上活动
已结束

直播预告丨金融数据库性能优化实战分享

时间：2025-03-19形式：线上分享
已结束

直播预告丨基于DeepSeek的鸿蒙平台稳定性优化实践

时间：2025-03-20形式：线上分享
已结束

直播预告丨迈入深水区！国产数据库存算分离架构技术创新与实践演进

时间：2024-12-12形式：线上分享
已结束

2024 华为云开源开发者论坛

时间：2024-12-07形式：线下活动
已结束

字节跳动开源云原生数据仓库ByConity有奖众测，邀你体验完整的数仓能力

时间：2024-12-02形式：线上参与
查看更多

PostgreSQL基于流复制的HA实现

降本的Kubernetes何时成了“成本刺客”？

YouTube如何利用MySQL支撑24.9亿用户？

人肉运维100次后，年底出了P0级故障……

关于国产数据库我不得不说

分库分表，可能真的要退出历史舞台了！