digoal
diff --git a/‎201706/20170612_02.md‎
Lines changed: 332 additions & 0 deletions b/‎201706/20170612_02.md‎
Lines changed: 332 additions & 0 deletions
diff --git a/‎201706/20170612_02_pic_001.jpg‎
119 KB b/‎201706/20170612_02_pic_001.jpg‎
119 KB
diff --git a/‎201706/20170612_02_pic_002.jpg‎
125 KB b/‎201706/20170612_02_pic_002.jpg‎
125 KB
diff --git a/‎201706/20170612_02_pic_003.jpg‎
134 KB b/‎201706/20170612_02_pic_003.jpg‎
134 KB
diff --git a/‎201706/readme.md‎
Lines changed: 1 addition & 0 deletions b/‎201706/readme.md‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎README.md‎
Lines changed: 1 addition & 0 deletions b/‎README.md‎
Lines changed: 1 addition & 0 deletions
@@ -0,0 +1,332 @@
+## PG多节点(quorum based), 0丢失 HA(failover,switchover)方案   
+                                                    
+### 作者                
+digoal                
+                 
+### 日期                
+2017-06-12                
+                       
+### 标签                
+PostgreSQL , 同步复制 , quorum based    
+                
+----                
+                   
+## 背景        
+PostgreSQL 10加入了quorum based的同步复制功能，用户可以配置若干standby节点，并配置需要将WAL发送多少份才返回给客户端事务结束的消息。  
+  
+```  
+ANY num_sync ( standby_name [, ...] )  
+```  
+  
+原理详见  
+  
+https://www.postgresql.org/docs/10/static/runtime-config-replication.html#runtime-config-replication-master  
+  
+https://www.postgresql.org/docs/10/static/warm-standby.html#synchronous-replication  
+  
+例子  
+  
+```  
+s1,s2,s3为standby recovery.conf配置的application_name, 即standby的唯一标示  
+  
+下面配置表示WAL需要复制到s1,s2,s3中的任意2个副本。  
+  
+synchronous_standby_names = 'ANY 2 (s1, s2, s3)'  
+  
+下面配置表示WAL需要复制到任意standby的任意2个副本。  
+synchronous_standby_names = 'ANY 2 (*)'  
+```  
+  
+PostgreSQL的quorum base配置比较灵活，用户可以根据地域、延迟、保护级别等需求来配置synchronous_standby_names。  
+  
+例如  
+  
+master有4个standby分别是s1,s2,s3,s4，s1在同机房, s2,s3在某个同城45公里以内的机房, s4在其他城市。  
+  
+那么可以这么配置  
+  
+```  
+下面配置表示WAL至少在一个其他机房有一份拷贝，防止整个机房的故障。  
+  
+synchronous_standby_names = 'ANY 2 (s1,s2,s4)'  
+```  
+  
+未来甚至有更灵活的配置(畅想)    
+  
+```  
+下面配置表示s2,s3只算一次，但是它们任意一个feedback都算数。不失可靠性的情况下，提高可用性。  
+  
+synchronous_standby_names = 'ANY 2 (s1,[s2,s3],s4)'  
+```  
+    
+但是问题来了，当master出现故障时，如何failover，如何switchover呢？  
+  
+## 架构  
+![pic](20170612_02_pic_001.jpg)  
+  
+1、每个数据库实例对应一个静态IP，PostgreSQL master - slave搭建好时就固定下来。  
+  
+2、每个数据库实例对应一个角色，master或slave。  
+  
+3、每个角色对应一个域名，当实例为master角色时，对应的域名为master，当角色为slave时，对应slave的域名。  
+  
+4、集群初次创建好之后，将IP和域名的对应关系写入DNS。  
+  
+5、HA管理软件，使用master域名从DNS得到静态IP，连接到静态IP，并探测master是否正常。发生异常时，进入failover流程。(后面讲failover流程)  
+  
+6、最终应用、PROXY，通过域名连接数据库。  
+  
+例如，这是tom lane所在的crunchydata公司开源的一个PostgreSQL proxy，用golang写的，不做SQL解析，仅仅通过SQL HINT做简单的路由，够用。效率比较高。  
+  
+https://github.com/CrunchyData/crunchy-proxy  
+  
+如果使用客户端连接多实例的话，可以参考如下文章  
+  
+[《PostgreSQL 10.0 preview 功能增强 - libpq支持多主机连接(failover,LB)让数据库HA和应用配合更紧密》](../201704/20170420_01.md)    
+  
+7、failover结束后，master角色更替，ha管理软件通知DNS修改解析信息。  
+  
+![pic](20170612_02_pic_002.jpg)  
+  
+8、即使应用程序、PROXY因为DNS缓存，有可能在DNS TTL失效前，短暂的连接到错误的MASTER，也没有关系，因为master配置了quorum based sync replication，所以failover结束后，（即使old master突然好了）写请求下去是不会响应的。  
+  
+读请求则可能受到影响，可能读到old master的data。(短暂影响)  
+  
+## 配置  
+  
+1、初始配置  
+  
+初始配置，将master, slave配置好，以前面的图为例，master配置复制到3个副本。  
+  
+slave配置，连接master域名，application_name配置为master ID+slave ID。  
+  
+例子(关键配置)  
+  
+DNS  
+  
+```  
+N1 : 192.168.1.100 : master  
+N2 : 192.168.1.101 : slave1  
+N3 : 192.168.1.102 : slave2  
+N4 : 192.168.1.103 : slave3  
+N5 : 192.168.1.104 : slave4  
+N6 : 192.168.1.105 : slave5  
+```  
+  
+master(N1) postgresql.conf  
+  
+```  
+synchronous_standby_names = 'ANY 3 (N1_N2, N1_N3, N1_N4, N1_N5, N1_N6)'  
+```  
+  
+slave recovery.conf  
+  
+```  
+N2:  
+primary_conninfo = 'host=master port=xx user=xx password=xx application_name=N1_N2'  
+N3:  
+primary_conninfo = 'host=master port=xx user=xx password=xx application_name=N1_N3'  
+N4:  
+primary_conninfo = 'host=master port=xx user=xx password=xx application_name=N1_N4'  
+N5:  
+primary_conninfo = 'host=master port=xx user=xx password=xx application_name=N1_N5'  
+N6:  
+primary_conninfo = 'host=master port=xx user=xx password=xx application_name=N1_N6'  
+```  
+  
+2、DNS配置  
+  
+TTL设置(尽量缩短客户端的dns cache时间, 例如10秒)，域名映射配置。  
+  
+```  
+192.168.1.100 : master  
+192.168.1.101 : slave1  
+192.168.1.102 : slave2  
+192.168.1.103 : slave3  
+192.168.1.104 : slave4  
+192.168.1.105 : slave5  
+```  
+  
+3、ha管理软件配置  
+  
+可以使用一个单独的数据库来存储，或者使用文件配置。  
+  
+3\.1 IP，数据库监听端口和ID的关系（端口必须固定、相等）  
+  
+```  
+N1 : 192.168.1.100 , 1921  
+N2 : 192.168.1.101 , 1921  
+N3 : 192.168.1.102 , 1921  
+N4 : 192.168.1.103 , 1921  
+N5 : 192.168.1.104 , 1921  
+N6 : 192.168.1.105 , 1921  
+```  
+  
+3\.2 角色与域名的关系  
+  
+```  
+master : master  
+slave : slave1  
+slave : slave2  
+slave : slave3  
+slave : slave4  
+slave : slave5  
+```  
+  
+3\.3 数据库用户密码  
+  
+```  
+user : xx  
+  
+pwd : xx  
+```  
+  
+3\.4 重试间隔，重试次数。  
+  
+3\.5 quorum数 = 3 # (取自master postgresql.conf的配置synchronous_standby_names = 'ANY 3 (N1_N2, N1_N3, N1_N4, N1_N5, N1_N6)')。  
+  
+3\.6 总节点数(包括master) = 6    
+  
+## failover流程  
+1、请求解析，从master角色的域名"master"，得到IP。  
+  
+2、探测IP，数据库监听端口连通性。（异常时，注意重试次数、超时）  
+  
+异常时，重试若干次(设置好重试间隔、重试次数)，重试若干次均不可用，则进入failover流程。一旦重启期间可用，则退出failover。  
+  
+3、探测数据库是否可以正常登录。（异常时，注意重试次数、超时）  
+  
+异常时，重试若干次(设置好重试间隔、重试次数)，重试若干次均不可用，则进入failover流程。一旦重启期间可用，则退出failover。  
+  
+4、登录数据库，探测数据库可用性，(数据库alive检测，封装成数据库函数，返回true or false表示数据库是否可用）。（异常时，注意重试次数、超时）  
+  
+返回false，或者返回异常，则数据库不可用。  
+  
+异常时，重试若干次(设置好重试间隔、重试次数)，重试若干次均不可用，则进入failover流程。一旦重启期间可用，则退出failover。  
+  
+### 孤立slave  
+孤立slave的意思是让slave进入孤立状态，能接收读请求，但是wal receiver进程不工作，也不发feedback给master，和master脱离关系。  
+  
+孤立必须具备持久性，例如，重启后依旧处于孤立状态。  
+  
+### 实例操作方法  
+failover过程中，会涉及实例的操作，可以通过多种方式实现  
+  
+1、通过数据库UDF实现数据库实例的文件、脚本等操作。  
+  
+2、通过在数据库主机部署agent软件实现数据库实例的文件、脚本等操作。  
+  
+推荐使用agent。  
+  
+![pic](20170612_02_pic_003.jpg)  
+  
+### failover  
+1、使用配置，获取slave角色对应的域名，获取域名对应的IP。后面连接SLAVE的操作，均使用IP。  
+  
+ip - node name 已有映射关系。    
+  
+2、孤立若干个slave，若干是如何计算的呢？  
+  
+公式  
+  
+```  
+若干 = 总节点数(包括master) - quorum数 = 6-3 = 3  
+```  
+  
+3、孤立若干个slave后，如果还有未孤立的slave，则继续孤立。  
+  
+第2步的slave即使孤立不成功，也继续。(假设N2也异常)  
+  
+4、从已孤立的SLAVE中，选择一个LSN最大的slave(我们这里假设为N3)，作为new master，修改postgresql.conf。  
+  
+```  
+synchronous_standby_names = 'ANY 3 (N3_N1, N3_N2, N3_N4, N3_N5, N3_N6)'  
+```  
+  
+5、重命名new master的recovery.conf  
+  
+```  
+rename recovery.conf to recovery.done  
+```  
+  
+6、修改其他已孤立的slave - recovery.conf  
+  
+```  
+N4:  
+primary_conninfo = 'host=master port=xx user=xx password=xx application_name=N3_N4'  
+N5:  
+primary_conninfo = 'host=master port=xx user=xx password=xx application_name=N3_N5'  
+N6:  
+primary_conninfo = 'host=master port=xx user=xx password=xx application_name=N3_N6'  
+```  
+  
+7、通知dns修改域名映射  
+  
+```  
+-- 对调old master和new master  
+  
+192.168.1.102 : master   
+192.168.1.101 : slave1  
+192.168.1.102 : slave2  
+192.168.1.100 : slave3  
+192.168.1.104 : slave4  
+192.168.1.105 : slave5  
+```  
+  
+8、重启孤立实例。  
+  
+9、解除孤立。  
+  
+10、激活new master。  
+  
+11、结束failover流程。  
+  
+#### 注意事项  
+任何步骤失败，解除孤立，从头再来。  
+  
+## 修复异常节点  
+### 实例回退修复  
+通常不需要修复，因为不可能出现数据丢失的情况，对于已结束的事务，new master的wal内容和old master一定是一样的。  
+  
+https://www.postgresql.org/docs/10/static/app-pgrewind.html  
+  
+但是一些未结束事务，可能会在new master产生更多的WAL，所以new master可能需要rewind。参考pg_rewind的方法。  
+  
+1、配置recovery.conf  
+  
+old master:  
+  
+```  
+primary_conninfo = 'host=master port=xx user=xx password=xx application_name=N3_N1'  
+```  
+  
+N2(异常slave):  
+  
+```  
+primary_conninfo = 'host=master port=xx user=xx password=xx application_name=N3_N2'  
+```  
+  
+2、配置old master postgresql.conf  
+  
+```  
+注释  
+  
+# synchronous_standby_names = ..........  
+```  
+  
+重启或启动修复实例  
+  
+## 小结  
+1、建议使用虚拟IP，否则管理软件还需要维护一套IP变更的方法。  
+  
+2、当节点数不为6，或者quorum数不等于3时，都可以支持，使用前面提到的孤立公式即可。  
+  
+## 参考  
+https://www.postgresql.org/docs/10/static/runtime-config-replication.html#runtime-config-replication-master  
+  
+https://www.postgresql.org/docs/10/static/app-pgrewind.html  
+  
+http://dalibo.github.io/PAF/administration.html  
+  
+https://github.com/digoal/PostgreSQL_HA_with_primary_standby_2vip  
+  
@@ -1,5 +1,6 @@
 ### 文章列表  
 ----  
+##### 20170612_02.md   [《PG多节点(quorum based), 0丢失 HA(failover,switchover)方案》](20170612_02.md)  
 ##### 20170612_01.md   [《PostgreSQL (varbit, roaring bitmap) VS pilosa(bitmap库)》](20170612_01.md)  
 ##### 20170611_02.md   [《PostgreSQL 并行写入堆表，如何保证时序线性存储 - BRIN索引优化》](20170611_02.md)  
 ##### 20170611_01.md   [《为什么PostgreSQL是"最先进的开源数据库"》](20170611_01.md)  
 
@@ -28,6 +28,7 @@ digoal's|PostgreSQL|文章|归类
 
 ### 未归类文档如下  
 ----  
+##### 201706/20170612_02.md   [《PG多节点(quorum based), 0丢失 HA(failover,switchover)方案》](201706/20170612_02.md)  
 ##### 201706/20170612_01.md   [《PostgreSQL (varbit, roaring bitmap) VS pilosa(bitmap库)》](201706/20170612_01.md)  
 ##### 201706/20170611_02.md   [《PostgreSQL 并行写入堆表，如何保证时序线性存储 - BRIN索引优化》](201706/20170611_02.md)  
 ##### 201706/20170611_01.md   [《为什么PostgreSQL是"最先进的开源数据库"》](201706/20170611_01.md)