digoal
diff --git a/‎201607/20160726_01.md‎
Lines changed: 199 additions & 0 deletions b/‎201607/20160726_01.md‎
Lines changed: 199 additions & 0 deletions
diff --git a/‎201607/20160726_01_pic_001.png‎
620 KB b/‎201607/20160726_01_pic_001.png‎
620 KB
diff --git a/‎201607/20160726_01_pic_002.png‎
422 KB b/‎201607/20160726_01_pic_002.png‎
422 KB
diff --git a/‎201607/20160726_01_pic_003.png‎
301 KB b/‎201607/20160726_01_pic_003.png‎
301 KB
diff --git a/‎201607/20160726_01_pic_004.png‎
274 KB b/‎201607/20160726_01_pic_004.png‎
274 KB
diff --git a/‎201607/20160726_01_pic_005.png‎
155 KB b/‎201607/20160726_01_pic_005.png‎
155 KB
diff --git a/‎201607/20160726_01_pic_006.png‎
1.1 MB b/‎201607/20160726_01_pic_006.png‎
1.1 MB
diff --git a/‎201607/20160727_01.md‎
Lines changed: 80 additions & 0 deletions b/‎201607/20160727_01.md‎
Lines changed: 80 additions & 0 deletions
diff --git a/‎201607/20160727_01_pic_001.png‎
778 KB b/‎201607/20160727_01_pic_001.png‎
778 KB
diff --git a/‎201607/20160727_01_pic_002.png‎
761 KB b/‎201607/20160727_01_pic_002.png‎
761 KB
@@ -0,0 +1,199 @@
+## 弱水三千,只取一瓢,当图像搜索遇见PostgreSQL(Haar wavelet)  
+                                                            
+### 作者                                                                
+digoal                                                                
+                                                            
+### 日期                                                                
+2016-07-26                                                             
+                                                            
+### 标签                                                                
+PostgreSQL , haar wavelet , 图像搜索 , 图片去重 , 视频去重 , 搜索引擎                                          
+                                                            
+----                                                                
+                                                            
+## 背景  
+图片搜索是继文字搜索后又一个比较常用的搜索引擎。    
+    
+市面上常见的搜索引擎有谷歌、百度、搜狗等图片搜索引擎。    
+  
+http://image.baidu.com/     
+  
+http://images.google.com.hk     
+    
+例如在搜索引擎提供的接口中上层了一张雪人的图片，搜出来一堆和雪人近似的图片。    
+  
+![screenshot](20160726_01_pic_001.png)  
+    
+图片搜索是怎么做到的呢?    
+    
+万能的PostgreSQL绝不落下这么好玩的东东，通过PG万能的API，可以扩展它的图片搜索功能。    
+    
+如果你对PostgreSQL扩展开发感兴趣，可以参考我写的文章    
+  
+《找对业务G点, 体验酸爽 - PostgreSQL内核扩展指南》    
+  
+https://yq.aliyun.com/articles/55981    
+    
+## PostgreSQL 图像搜索插件背景技术  
+PostgreSQL的图像搜索插件使用了非常主流的Haar wavelet技术对图像进行变换后存储，可以参考WIKI和一篇关于HW的文献。    
+  
+https://en.wikipedia.org/wiki/Haar_wavelet     
+  
+http://www.cs.toronto.edu/~kyros/courses/320/Lectures.2013s/lecture.2013s.10.pdf    
+  
+截取几页，注意烧脑。    
+  
+![screenshot](20160726_01_pic_002.png)  
+    
+![screenshot](20160726_01_pic_003.png)  
+    
+![screenshot](20160726_01_pic_004.png)  
+    
+![screenshot](20160726_01_pic_005.png)  
+    
+## PostgreSQL 图像搜索插件介绍  
+依赖gd.h    
+  
+```  
+# yum install -y gd-devel  
+```  
+    
+下载安装imgsmlr    
+  
+```  
+$ git clone https://github.com/postgrespro/imgsmlr  
+$ cd imgsmlr  
+$ export PGHOME=/home/digoal/pgsql9.5  
+$ export PATH=$PGHOME/bin:$PATH:.  
+  
+$ make USE_PGXS=1  
+$ make USE_PGXS=1 install  
+```  
+    
+安装插件    
+  
+```  
+$ psql  
+psql (9.5.3)  
+Type "help" for help.  
+postgres=# create extension imgsmlr;  
+CREATE EXTENSION  
+```  
+    
+imgsmlr新增了两个数据类型      
+    
+| Datatype  | Storage length |                              Description                           |  
+| --------- |--------------: | ------------------------------------------------------------------ |  
+| pattern   | 16388 bytes    | Result of Haar wavelet transform on the image                      |  
+| signature | 64 bytes       | Short representation of pattern for fast search using GiST indexes |  
+    
+gist 索引方法(支持pattern和signature类型), 以及KNN操作符，可以用于搜索相似度        
+    
+| Operator | Left type | Right type | Return type |                Description                |  
+| -------- |-----------| ---------- | ----------- | ----------------------------------------- |  
+| <->      | pattern   | pattern    | float8      | Eucledian distance between two patterns   |  
+| <->      | signature | signature  | float8      | Eucledian distance between two signatures |  
+    
+新增了几个函数    
+  
+将图像的二进制转换为pattern类型，将pattern中存储的数据转换为signature类型        
+    
+|          Function          | Return type |                      Description                    |  
+| -------------------------- |-------------| --------------------------------------------------- |  
+| jpeg2pattern(bytea)        | pattern     | Convert jpeg image into pattern                     |  
+| png2pattern(bytea)         | pattern     | Convert png image into pattern                      |  
+| gif2pattern(bytea)         | pattern     | Convert gif image into pattern                      |  
+| pattern2signature(pattern) | signature   | Create signature from pattern                       |  
+| shuffle_pattern(pattern)   | pattern     | Shuffle pattern for less sensitivity to image shift |  
+    
+## PostgreSQL 图像搜索插件测试    
+导入一些图片，例如（越多越好）      
+  
+![screenshot](20160726_01_pic_006.png)    
+  
+建立图片表    
+  
+```  
+create table image (id serial, data bytea);  
+```  
+    
+导入图片到数据库      
+  
+```  
+insert into image(data) select pg_read_binary_file('文件路径');  
+```  
+    
+将图片转换成 patten 和 signature      
+  
+```  
+CREATE TABLE pat AS (  
+	SELECT  
+		id,  
+		shuffle_pattern(pattern) AS pattern,   
+		pattern2signature(pattern) AS signature   
+	FROM (  
+		SELECT   
+			id,   
+			jpeg2pattern(data) AS pattern   
+		FROM   
+			image  
+	) x   
+);  
+```  
+    
+创建索引    
+  
+```  
+ALTER TABLE pat ADD PRIMARY KEY (id);  
+CREATE INDEX pat_signature_idx ON pat USING gist (signature);  
+```  
+    
+近似度查询，例如查询与id = :id的图像相似的图像，按相似度排行，取出前10条      
+  
+```sql  
+SELECT  
+	id,  
+	smlr  
+FROM  
+(  
+	SELECT  
+		id,  
+		pattern <-> (SELECT pattern FROM pat WHERE id = :id) AS smlr  
+	FROM pat  
+	WHERE id <> :id  
+	ORDER BY  
+		signature <-> (SELECT signature FROM pat WHERE id = :id)  
+	LIMIT 100  
+) x  
+ORDER BY x.smlr ASC   
+LIMIT 10  
+```  
+    
+这里可以用到KNN索引，快速按相似度排行输出结果。    
+  
+## 小结  
+* PostgreSQL是一个非常强大的数据库，功能高度可定制。而且不需要动到PostgreSQL的内核。  安全可靠。      
+  
+* 使用图像搜索的技术就是PostgreSQL功能扩展的例子，速度杠杠的，还记得我以前给出的关于地理位置近邻查询的性能指标吗。    
+  
+  《PostgreSQL 百亿地理位置数据 近邻查询毫秒级反馈》    
+  
+  https://yq.aliyun.com/articles/2999          
+  
+* 如果你对PostgreSQL扩展开发感兴趣，可以参考我写的文章      
+  
+  《找对业务G点, 体验酸爽 - PostgreSQL内核扩展指南》    
+  
+  https://yq.aliyun.com/articles/55981    
+    
+祝大家玩得开心，欢迎随时来 **阿里云促膝长谈** 业务需求 ，恭候光临。    
+    
+阿里云的小伙伴们加油，努力做 **最贴地气的云数据库** 。    
+  
+  
+  
+  
+                                                            
+[Count](http://info.flagcounter.com/h9V1)                                                                
+              
+          
@@ -0,0 +1,80 @@
+## PostgreSQL 会话级资源隔离探索    
+                                                          
+### 作者                                                              
+digoal                                                              
+                                                          
+### 日期                                                              
+2016-07-27                                                           
+                                                          
+### 标签                                                              
+PostgreSQL , 资源隔离 , cgroup , 用户进程 , backend process                                          
+                                                          
+----                                                              
+                                                          
+## 背景  
+如果一个数据库对外提供的服务，或者承载的业务很多时，你首先想到的肯定是拆分数据库。      
+    
+但是，拆分毕竟是有成本的，而且有时并不是所有的场景都适合拆分来解决。      
+    
+如果多个业务混合在一起使用一个数据库，就容易造成资源的争抢。      
+    
+那么不拆分的情况下，控制每个业务或者每个会话的资源使用呢？      
+    
+## 如何区分来源应用  
+要隔离应用使用数据库的资源，首先要区分应用。   
+     
+通常如果一个数据库提供了多个业务服务时，会给每个业务创建不同的库或者分配不同的用户。   
+  
+![screenshot](20160727_01_pic_001.png)  
+    
+当然，如果你用了同一个库，或者同一个数据库，就分不清业务了吗？      
+  
+当然不是，你还可以从业务的来源IP区分。      
+  
+![screenshot](20160727_01_pic_002.png)  
+    
+如果业务部署在同一个IP上，就没有办法区分业务了吧？     
+  
+当然也不是，你还可以通过application_name来区分业务。    
+  
+![screenshot](20160727_01_pic_003.png)  
+    
+## 用什么手段隔离资源  
+PostgreSQL 是进程模式的，如果结合cgroup，就可以做到会话级别的资源隔离。    
+    
+客户端向postmaster发起连接请求，postmaster fork一个backend process处理该连接请求，以及将来改客户端的SQL请求。    
+    
+根据前面区分来源应用的方法，找到对应的应用。（这个区分方法应该首先要存储在数据库的表中，或者使用函数的手段获得）    
+    
+根据应用于cgroup的映射关系，找到对应的cgroup，然后将这个PID写入对应cgroup的tasks文件即可。    
+  
+![screenshot](20160727_01_pic_004.png)  
+    
+![screenshot](20160727_01_pic_005.png)    
+    
+步骤    
+  
+* 创建cgroup，包括mem, net, cpu, iops  
+  
+* 在每个cgroup中为每个业务创建对应的subcgroup，并配置对应的资源限制。    
+  
+  例如(内存，网络包转发限制，网络带宽限制，CPU时间片分配限制，块设备的读写IOPS和读写带宽限制)  
+  
+* 修改内核，在fork后，需要处理将pid写入cgroup的动作。    
+  
+* 创建对应的函数，将指定的PID放到指定的CGROUP中。    
+    
+## 小结  
+* PostgreSQL的进程模式，为会话级资源隔离提供了便利。    
+  
+* 即使不改内核，你也可以通过在操作系统层部署程序的方式，做到对PostgreSQL会话级的资源隔离管理。    
+  
+  pg_stat_activity中有你需要的用来区分客户端应用的信息（包括客户端IP, username, dbname, pid, application_name）。      
+    
+祝大家玩得开心，欢迎随时来 **阿里云促膝长谈** 业务需求 ，恭候光临。    
+    
+阿里云的小伙伴们加油，努力做 **最贴地气的云数据库** 。    
+                                                          
+[Count](http://info.flagcounter.com/h9V1)                                                              
+            
+