Skip to content

Commit 76b23d7

Browse files
committed
new doc
1 parent 734928f commit 76b23d7

File tree

7 files changed

+90
-10
lines changed

7 files changed

+90
-10
lines changed

201508/20150824_01.md

Lines changed: 19 additions & 5 deletions
Original file line numberDiff line numberDiff line change
@@ -1,4 +1,4 @@
1-
## PostgreSQL 结巴分词
1+
## PostgreSQL Greenplum 结巴分词(by plpython)
22
33
### 作者
44
digoal
@@ -7,11 +7,13 @@ digoal
77
2015-08-24
88

99
### 标签
10-
PostgreSQL , 中文分词 , jieba , 结巴分词
10+
PostgreSQL , 中文分词 , jieba , 结巴分词 , python , plpython
1111

1212
----
1313
1414
## 背景
15+
除了数据库内置的中文分词,使用plpython数据库存储过程语言,也能实现方便的分词能力。在greenplum中是一个很好的选择。
16+
1517
结合PostgreSQL plpython和language transform可以很方便的实现中文分词。
1618

1719
https://github.com/fxsjy/jieba
@@ -35,9 +37,9 @@ postgres=# select * from pg_language ;
3537
(5 rows)
3638
3739
postgres=# create or replace function fenci(i_text text) returns tsvector as $$
38-
import jieba
39-
seg_list = jieba.cut(i_text, cut_all=False)
40-
return(" ".join(seg_list))
40+
import jieba
41+
seg_list = jieba.cut(i_text, cut_all=False)
42+
return(" ".join(seg_list))
4143
$$ language plpythonu;
4244
CREATE FUNCTION
4345
@@ -134,3 +136,15 @@ Time: 1.237 ms
134136

135137
https://github.com/jaiminpan/pg_jieba
136138

139+
[《如何加快PostgreSQL结巴分词加载速度》](../201607/20160725_02.md)
140+
141+
[《使用阿里云PostgreSQL zhparser时不可不知的几个参数》](../201603/20160310_01.md)
142+
143+
[《PostgreSQL 行级 全文检索》](../201604/20160419_01.md)
144+
145+
[《PostgreSQL 如何高效解决 按任意字段分词检索的问题 - case 1》](../201607/20160725_05.md)
146+
147+
[《聊一聊双十一背后的技术 - 分词和搜索》](../201611/20161115_01.md)
148+
149+
[《多国语言字符串的加密、全文检索、模糊查询的支持》](../201710/20171020_01.md)
150+

201508/readme.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -3,7 +3,7 @@
33
##### 20150831_03.md [《PostgreSQL & LLVM & Vitesse DB》](20150831_03.md)
44
##### 20150831_02.md [《NFS over RDMA》](20150831_02.md)
55
##### 20150831_01.md [《使用 PGStrom 2 (GPU JOIN, BulkScan, GpuPreAgg, ...)》](20150831_01.md)
6-
##### 20150824_01.md [《PostgreSQL 结巴分词》](20150824_01.md)
6+
##### 20150824_01.md [《PostgreSQL Greenplum 结巴分词(by plpython)](20150824_01.md)
77
##### 20150821_01.md [《NLPIR 分词准确率接近98.23%》](20150821_01.md)
88
##### 20150818_03.md [《PostgreSQL 读写操作系统文件函数(File I/O)》](20150818_03.md)
99
##### 20150818_02.md [《PostgreSQL cann't use NULL ciphers(do not encryption) when use hostssl?》](20150818_02.md)

201603/20160310_01.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -1,4 +1,4 @@
1-
## 使用阿里云PostgreSQL zhparser时不可不知的几个参数
1+
## 使用阿里云PostgreSQL zhparser中文分词时不可不知的几个参数
22
33
### 作者
44
digoal

201603/readme.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -7,7 +7,7 @@
77
##### 20160316_01.md [《PostgreSQL 加载动态库详解》](20160316_01.md)
88
##### 20160315_02.md [《PostgreSQL MySQL 兼容性之 - 时间类型》](20160315_02.md)
99
##### 20160315_01.md [《PostgreSQL Oracle 兼容性之 - sys_guid() UUID》](20160315_01.md)
10-
##### 20160310_01.md [《使用阿里云PostgreSQL zhparser时不可不知的几个参数](20160310_01.md)
10+
##### 20160310_01.md [《使用阿里云PostgreSQL zhparser中文分词时不可不知的几个参数](20160310_01.md)
1111
##### 20160309_01.md [《Greenplum通过gp_dist_random('gp_id') 在所有节点调用某个函数》](20160309_01.md)
1212
##### 20160308_01.md [《Greenplum 最佳实践 - 如何支持反转索引(reverse, orafunc)》](20160308_01.md)
1313
##### 20160307_01.md [《PostgreSQL 1000亿数据量 正则匹配 速度与激情》](20160307_01.md)

201711/20171107_01.md

Lines changed: 64 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,64 @@
1+
## [未完待续] 流式机器学习(online machine learning) - pipelineDB with plR and plPython
2+
3+
### 作者
4+
digoal
5+
6+
### 日期
7+
2017-11-07
8+
9+
### 标签
10+
PostgreSQL , 在线机器学习 , 流式机器学习 , pipelinedb , plr , plpython , madlib
11+
12+
----
13+
14+
## 背景
15+
pipelinedb 是一款基于PostgreSQL的SQL接口的流式数据库,数据处理吞吐量大,同时能使用PostgreSQL的内置强大功能。
16+
17+
对用户来说,可以省掉很多开发成本,使用pipelinedb以及plpython或plr语言,实现流式的机器学习,流式的数据处理。
18+
19+
pipelinedb作为流式数据处理平台,plpython和plr作为处理逻辑代码,写在pipelinedb数据库中。
20+
21+
例子:
22+
23+
1、定义数据流格式
24+
25+
```
26+
create stream s1 (id int, content jsonb);
27+
```
28+
29+
2、定义数据处理逻辑代码
30+
31+
```
32+
create or replace function ml_func1(jsonb) returns text as $$
33+
-- python代码
34+
$$ language plpythonu strict;
35+
36+
37+
38+
create or replace function ml_func1(jsonb) returns text as $$
39+
-- R代码
40+
$$ language plr strict;
41+
```
42+
43+
3、定义流式计算视图
44+
45+
```
46+
createa continue view cv1 as select id, ml_func1(content) from s1;
47+
```
48+
49+
4、通过SQL查询cv1得到流式计算的结果
50+
51+
```
52+
select * from cv1 where ....;
53+
```
54+
55+
## DEMO
56+
57+
## 小结
58+
59+
## 参考
60+
https://www.postgresql.org/docs/10/static/plpython.html
61+
62+
https://github.com/postgres-plr/plr
63+
64+

201711/readme.md

Lines changed: 1 addition & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -1,5 +1,6 @@
11
### 文章列表
22
----
3+
##### 20171107_01.md [[未完待续] 流式机器学习(online machine learning) - pipelineDB with plR and plPython》](20171107_01.md)
34
##### 20171104_03.md [《PostgreSQL 中英文混合分词特殊规则(中文单字、英文单词)》](20171104_03.md)
45
##### 20171104_02.md [[未完待续] PostgreSQL on ECS 高效率持续备份设计 - By ZFS on Linux》](20171104_02.md)
56
##### 20171104_01.md [[未完待续] pgrouting在机票业务中的应用 - 实时最佳转机计算》](20171104_01.md)

README.md

Lines changed: 3 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -29,6 +29,7 @@ digoal's|PostgreSQL|文章|归类
2929

3030
### 未归类文档如下
3131
----
32+
##### 201711/20171107_01.md [[未完待续] 流式机器学习(online machine learning) - pipelineDB with plR and plPython》](201711/20171107_01.md)
3233
##### 201711/20171104_03.md [《PostgreSQL 中英文混合分词特殊规则(中文单字、英文单词)》](201711/20171104_03.md)
3334
##### 201711/20171104_02.md [[未完待续] PostgreSQL on ECS 高效率持续备份设计 - By ZFS on Linux》](201711/20171104_02.md)
3435
##### 201711/20171104_01.md [[未完待续] pgrouting在机票业务中的应用 - 实时最佳转机计算》](201711/20171104_01.md)
@@ -742,7 +743,7 @@ digoal's|PostgreSQL|文章|归类
742743
##### 201603/20160316_01.md [《PostgreSQL 加载动态库详解》](201603/20160316_01.md)
743744
##### 201603/20160315_02.md [《PostgreSQL MySQL 兼容性之 - 时间类型》](201603/20160315_02.md)
744745
##### 201603/20160315_01.md [《PostgreSQL Oracle 兼容性之 - sys_guid() UUID》](201603/20160315_01.md)
745-
##### 201603/20160310_01.md [《使用阿里云PostgreSQL zhparser时不可不知的几个参数](201603/20160310_01.md)
746+
##### 201603/20160310_01.md [《使用阿里云PostgreSQL zhparser中文分词时不可不知的几个参数](201603/20160310_01.md)
746747
##### 201603/20160309_01.md [《Greenplum通过gp_dist_random('gp_id') 在所有节点调用某个函数》](201603/20160309_01.md)
747748
##### 201603/20160308_01.md [《Greenplum 最佳实践 - 如何支持反转索引(reverse, orafunc)》](201603/20160308_01.md)
748749
##### 201603/20160307_01.md [《PostgreSQL 1000亿数据量 正则匹配 速度与激情》](201603/20160307_01.md)
@@ -856,7 +857,7 @@ digoal's|PostgreSQL|文章|归类
856857
##### 201508/20150831_03.md [《PostgreSQL & LLVM & Vitesse DB》](201508/20150831_03.md)
857858
##### 201508/20150831_02.md [《NFS over RDMA》](201508/20150831_02.md)
858859
##### 201508/20150831_01.md [《使用 PGStrom 2 (GPU JOIN, BulkScan, GpuPreAgg, ...)》](201508/20150831_01.md)
859-
##### 201508/20150824_01.md [《PostgreSQL 结巴分词》](201508/20150824_01.md)
860+
##### 201508/20150824_01.md [《PostgreSQL Greenplum 结巴分词(by plpython)](201508/20150824_01.md)
860861
##### 201508/20150821_01.md [《NLPIR 分词准确率接近98.23%》](201508/20150821_01.md)
861862
##### 201508/20150818_03.md [《PostgreSQL 读写操作系统文件函数(File I/O)》](201508/20150818_03.md)
862863
##### 201508/20150818_02.md [《PostgreSQL cann't use NULL ciphers(do not encryption) when use hostssl?》](201508/20150818_02.md)

0 commit comments

Comments
 (0)