new doc

digoal · digoal · commit 802a7d6d80b6 · 2017-08-10T10:29:55.000+08:00
diff --git a/201707/20170728_01.md b/201707/20170728_01.md
@@ -169,7 +169,7 @@ https://help.aliyun.com/document_detail/35457.html
 create writeable external table oss_ext ....;    
 ```  
   
-3\.3 导入到HybridDB for PostgreSQL  
+3\.3 导入(合并，存在则更新，不存在则插入)到HybridDB for PostgreSQL  
   
 ```  
 begin;  
@@ -189,6 +189,42 @@ insert into feed_uniq (...) select * from oss_ext;
 调用OSS API清除对应的oss bucket  
 ```  
   
+附加知识点，如果目标端是PG，可以用insert xxx on conflict xxx do xxx;的合并语法。如果是9.5以前的版本，可以使用函数合并的方法例如：  
+  
+```
+do language plpgsql $$
+declare
+  x tmp;
+begin
+  for x in select * from tmp 
+  loop
+    update old_tbl set xx=xx where pk=x.pk;
+    if not found then
+      insert into old_tbl values (x.*);
+    end if;
+  end loop;
+  exception when others then
+    return;
+end;
+$$;
+```
+   
+注意，HDB请不要使用以上函数式MERGE方法，因为HDB的所有DML都是2PC的，单条单条的处理性能不好，如果使用了列存则有一个更加严重的问题。  
+  
+HDB的列存是每次事务结束记录列存BLOCK级别偏移量作为事务结束标记，需要调用系统的FSYNC接口进行持久化，一个事务不管多大，凡是事务结束时，每个列对应的数据文件的最后一个追加的BLOCK是需要被冻结的，下次事务就会使用新追加的BLOCK。
+  
+由于HDB的列存储持久化机制的问题，如果我们使用类似PostgreSQL的insert on conflict或function合并的方法，会导致非常严重的性能问题。  
+  
+建议HDB的数据合并，采用三步走的方法。  
+  
+1、需要合并的数据写入临时表。  
+  
+2、采用delete from xx using tmp where xx.pk=tmp.pk;删除重复数据。    
+   
+3、采用insert into xx select * from tmp;写入。   
+  
+以上三步可以在事务中完成。   
+  
 ### 调度系统  
 将以上的调度事务，写入调度平台，设置好依赖关系，就可以实现增量、准实时的数据写入到HybridDB for PostgreSQL了。