Skip to content

Commit

Permalink
Merge pull request #83 from jiangzhonglian/master
Browse files Browse the repository at this point in the history
添加6.SVM视频中2个问题的注释
  • Loading branch information
jiangzhonglian authored Apr 19, 2017
2 parents c25cad8 + 11a3822 commit 7463424
Show file tree
Hide file tree
Showing 7 changed files with 238 additions and 86 deletions.
42 changes: 42 additions & 0 deletions docs/15.大数据与MapReduce.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,42 @@
# 大数据与MapReduce

> 本章内容
* MapReduce
* Python中Hadoop流的使用
* 使用mrjob库将MapReduce自动化
* 利用Pegasos算法并行训练支持向量机

## MapReduce:分布式计算的框架

```
优点:可在短时间内完成大量工作。
缺点:算法必须经过重写,需要对系统工程有一定的理解。
适用数据类型:数值型和标称型数据。
```

* MapReduce集群的示意图
![MapReduce集群的示意图](/images/15.BigData_MapReduce/MR_1_cluster.jpg)

> 关于MapRduce的学习要点
* 主节点控制MapReduce的作业流程
* MapReduce的作业可以分成map任务和reduce任务
* map任务之间不做数据交流,reduce任务也一样
* 在map和reduce阶段中间,有一个sort和combine阶段
* 数据被重复存放在不同的机器上,以防止某个机器实效
* mapper和reducer传输的数据形式为key/value对

## Hadoop流

## 在Amazon网络服务商运行Hadoop程序

## MapReduce上的机器学习

## 在Python中使用mrjob来自动化MapReduce

## 示例:分布式SVM的Pegasos算法

## 你真的需要MapReduce吗?

## 本章小节
51 changes: 26 additions & 25 deletions docs/6.支持向量机.md
Original file line number Diff line number Diff line change
Expand Up @@ -11,7 +11,7 @@
* 机(Machine)就是表示一种算法,而不是表示机器。
* SVM有很多种实现,最流行的一种实现是: `序列最小优化(Sequential Minimal Optimization, SMO)算法`
* 下面还会介绍一种称为`核函数(kernel)`的方式将SVM扩展到更多数据集上。
* 实战项目:回顾第1章中手写识别的案例,并考察其能否通过SVM来提高识别的效果。
* 实战项目:回顾第2章中手写识别的案例,并考察其能否通过SVM来提高识别的效果。
* 注意:`SVM几何含义比较直观,但其算法实现较复杂,牵扯大量数学公式的推导。`

```
Expand Down Expand Up @@ -53,55 +53,56 @@ This is the simplest kind of SVM (Called an LSVM) Support Vectors are those data
```

* 选择D会比B、C分隔的效果要好很多,原因是上述的5个结论。
* 所有的点看作地雷吧,那么我们(超平面)得找到最近所有的地雷,并保证我们离它最远。
![线性可分](/images/6.SVM/SVM_3_linearly-separable.jpg)

### 怎么寻找最大间隔

> 点到超平面的距离
* 分隔超平面`函数间距`: $$y(x)=w^Tx+b$$
* 分类的结果: $$f(x)=sign(w^Tx+b)$$ (sign表示>0为1,<0为-1,=0为0)
* 点到超平面的`几何间距`: $$d(x)=(w^Tx+b)/||w||$$ [ ||w||表示w矩阵的二范式=> sqrt(w*w^T), 点到超平面的距离也是类似的,需要复习一下向量的知识 ]
* 分隔超平面`函数间距`: \\(y(x)=w^Tx+b\\)
* 分类的结果: \\(f(x)=sign(w^Tx+b)\\) (sign表示>0为1,<0为-1,=0为0)
* 点到超平面的`几何间距`: \\(d(x)=(w^Tx+b)/||w||\\) (||w||表示w矩阵的二范式=> \\(\sqrt{w*w^T}\\), 点到超平面的距离也是类似的,需要复习一下向量的知识
![点到直线的几何距离](/images/6.SVM/SVM_4_point2line-distance.png)

> 拉格朗日乘子法的使用
* 类别标签用-1、1,是为了后期方便`lable*(w^Tx+b)`的标识和距离计算;如果`lable*(w^Tx+b)>0`表示预测正确,否则预测错误。
* 类别标签用-1、1,是为了后期方便 \\(lable*(w^Tx+b)\\) 的标识和距离计算;如果 \\(lable*(w^Tx+b)>0\\) 表示预测正确,否则预测错误。
* 现在目标很明确,就是要找到`w``b`,因此我们必须要找到最小间隔的数据点,也就是前面所说的`支持向量`
* 也就说,让最小的距离取最大.(最小的距离:就是最小间隔的数据点;最大:就是最大间距,为了找出最优超平面--最终就是支持向量)
* 怎么理解呢? 例如: 所有的点看作地雷吧,那么我们(超平面)得找到最近所有的地雷,并保证我们离它最远。
* 目标函数:`arg max{min(lable*(w^Tx+b)/||w||)}`
* 1.如果`lable*(w^Tx+b)>0`表示预测正确,`||w||`可以理解为归一化,我们始终可以找到一个阈值让`lable*(w^Tx+b)>=1`
* 2.所以令`lable*(w^Tx+b)=1`,我们本质上是求 `arg max[关于w, b] (1/||w||)`;也就说,我们约束(前提)条件是`lable*(w^Tx+b)>=1`
* 新的目标函数求解: `arg max[关于w, b] (1/||w||)`
* => 就是求: `arg min[关于w, b] (||w||)` (求矩阵会比较麻烦,如果x只是1/2*X^2的偏导数,那么。。同样是求最小值)
* => 就是求: `arg min[关于w, b] (1/2*||w||^2)` (二次函数求导,求极值,平方也方便计算)
* 目标函数:\\(arg: max\ \{min\ [lable*(w^Tx+b)/||w||]\}\\)
* 1.如果 \\(lable*(w^Tx+b)>0\\) 表示预测正确,也称`函数间隔`\\(||w||\\) 可以理解为归一化,也称`几何间隔`,我们始终可以找到一个阈值让 \\(lable*(w^Tx+b)>=1\\)
* 2.所以令 \\(lable*(w^Tx+b)=1\\),我们本质上是求 \\(arg: max\{关于w, b\}\ (1/||w||)\\);也就说,我们约束(前提)条件是: \\(lable*(w^Tx+b)=1\\)
* 新的目标函数求解: \\(arg: max\{关于w, b\}\ (1/||w||)\\)
* => 就是求: \\(arg: min\{关于w, b\}\ (||w||)\\) (求矩阵会比较麻烦,如果x只是1/2*X^2的偏导数,那么。。同样是求最小值)
* => 就是求: \\(arg: min\{关于w, b\}\ (\frac{1}{2}*||w||^2)\\) (二次函数求导,求极值,平方也方便计算)
* 本质上就是求线性不等式的二次优化问题(求分隔超平面,等价于求解相应的凸二次规划问题。)
* 通过拉格朗日乘子法,求二次优化问题
* 假设需要求极值的目标函数 (objective function) 为 f(x,y),限制条件为 φ(x,y)=M
* 设g(x,y)=M-φ(x,y) # 临时φ(x,y)表示下文中`label*(w^Tx+b)`
* 假设需要求极值的目标函数 (objective function) 为 f(x,y),限制条件为 φ(x,y)=M # M=1
* 设g(x,y)=M-φ(x,y) # 临时φ(x,y)表示下文中 \\(label*(w^Tx+b)\\)
* 定义一个新函数: F(x,y,λ)=f(x,y)+λg(x,y)
* a为λ,代表要引入的拉格朗日乘子(Lagrange multiplier)
* 那么: `L(w,b,a)=1/2||w||^2 + Σ a*[1-label*(w^Tx+b)]` => `L(w,b,a)=1/2||w||^2 - Σ a*[label*(w^Tx+b)-1]`
* 因为:`label*(w^Tx+b)>=1, a>0` , 所以`a*[label*(w^Tx+b)-1]>=0`, Σ 0~n的加和也都大于0
* `max[关于a] (L(w,b,a)) = 1/2*||w||^2`
* 如果求: `min(1/2*||w||^2)`, 也就是要求: `arg min[关于w, b]{ max[关于a] (L(w,b,a)) }`
* 那么: \\(L(w,b,\alpha)=\frac{1}{2} * ||w||^2 + \sum_{i=1}^{n} \alpha * [1 - label * (w^Tx+b)]\\)
* 因为:\\(label*(w^Tx+b)>=1, \alpha>0\\) , 所以 \\(\alpha*[label*(w^Tx+b)-1]>=0\\), \\(\sum_{i=1}^{n} \alpha * [label * (w^Tx+b) - 1]>=0\\)
* \\(max\{关于\alpha\}\ L(w,b,\alpha) = \frac{1}{2} *||w||^2\\)
* 如果求: \\(min\{关于w, b\}\ \frac{1}{2} *||w||^2\\) , 也就是要求: \\(min\{关于w, b\}\ [max\{关于\alpha\}\ L(w,b,\alpha)]\\)
* 现在转化到对偶问题的求解
* `min[关于w, b]{ max[关于w, b] (L(w,b,a)) } >= max[关于w, b] { min[关于w, b] (L(w,b,a)) }`
* \\(min\{关于w, b\}\ [max\{关于\alpha\}\ L(w,b,\alpha)]\\) >= \\(max\{关于\alpha\}\ [min\{关于w, b\}\ L(w,b,\alpha)]\\)
* 现在分2步
* 先求:`min[关于w, b] (L(w,b,a))=1/2||w||^2 + Σ a*[1-label*(w^Tx+b)]`
* 先求: \\(min\{关于w, b\}\ L(w,b,\alpha)=\frac{1}{2} * ||w||^2 + \sum_{i=1}^{n} \alpha * [1 - label * (w^Tx+b)]\\)
* 就是求`L(w,b,a)`关于[w, b]的偏导数, 得到`w和b的值`,并化简为:`L和a的方程`
* 参考: 1.【计算拉格朗日函数的对偶函数-下图是参考小象学院】 2.如果公式推导还是不懂,也可以参考《统计学习方法》李航-P103<学习的对偶算法>
* 参考: 如果公式推导还是不懂,也可以参考《统计学习方法》李航-P103<学习的对偶算法>
* ![计算拉格朗日函数的对偶函数](/images/6.SVM/SVM_5_Lagrangemultiplier.png)
* 终于得到课本上的公式:`max(Σ(i=>n) a[i] - 1/2*Σ(i,j=>n) a[i]*a[j]]*label(i)*label(j)*<xi*xj内积>)`
* 约束条件: `a>=0 and Σ a[i]*label(i)=0`
* 终于得到课本上的公式: \\(max\ \{\alpha\}\ [\sum_{i=1}^{m} \alpha - \frac{1}{2} \sum_{i, j=1}^{m} label_i·label_j·\alpha_i·\alpha_j·<x_i, x_j>]\\)
* 约束条件: \\(a>=0,\ and\ \sum_{i=1}^{m} a_i·label_i=0\\)

> 松弛变量(slack variable)
* 我们知道几乎所有的数据都不那么干净, 通过引入松弛变量来允许数据点可以处于分隔面错误的一侧。
* 约束条件: `C>=a>=0 and Σ a[i]*label(i)=0`
* 约束条件: \\(C>=a>=0,\ and\ \sum_{i=1}^{m} a_i·label_i=0\\)
* 这里常量C用于控制“最大化间隔”和“保证大部分点的函数间隔小于1.0” 这两个目标的权重。
* 常量C是一个常数,我们通过调节钙参数得到不同的结果。一旦求出了所有的alpha,那么分隔超平面就可以通过这些alpha来表示。
* 常量C是一个常数,我们通过调节该参数得到不同的结果。一旦求出了所有的alpha,那么分隔超平面就可以通过这些alpha来表示。
* 这一结论十分直接,SVM中的主要工作就是要求解 alpha.

> SVM应用的一般框架
Expand Down Expand Up @@ -130,7 +131,7 @@ SVM的一般流程
* 这里指的合适必须要符合一定的条件
* 1.这两个alpha必须要在间隔边界之外
* 2.这两个alpha还没有进行过区间化处理或者不在边界上。
* 之所以要同时改变2个alpha;原因,我们有一个约束条件:`Σ a[i]*label(i)=0`;如果只是修改一个alpha,很可能导致约束条件失效。
* 之所以要同时改变2个alpha;原因,我们有一个约束条件: \\(\sum_{i=1}^{m} a_i·label_i=0\\);如果只是修改一个alpha,很可能导致约束条件失效。

```
SMO伪代码大致如下:
Expand Down
Binary file added images/15.BigData_MapReduce/MR_1_cluster.jpg
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file modified images/6.SVM/SVM_5_Lagrangemultiplier.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
12 changes: 6 additions & 6 deletions src/python/6.SVM/svm-complete.py
Original file line number Diff line number Diff line change
Expand Up @@ -101,7 +101,7 @@ def calcEk(oS, k):
k 具体的某一行
Returns:
Ek 预测结果与真实结果比对,计算误差Ek
"""
fXk = float(multiply(oS.alphas, oS.labelMat).T * oS.K[:, k] + oS.b)
Ek = fXk - float(oS.labelMat[k])
Expand Down Expand Up @@ -142,7 +142,7 @@ def selectJ(i, oS, Ei): # this is the second choice -heurstic, and calcs Ej
maxK = -1
maxDeltaE = 0
Ej = 0
# # 首先将输入值Ei在缓存中设置成为有效的。这里的有效意味着它已经计算好了。
# 首先将输入值Ei在缓存中设置成为有效的。这里的有效意味着它已经计算好了。
oS.eCache[i] = [1, Ei]

# print 'oS.eCache[%s]=%s' % (i, oS.eCache[i])
Expand Down Expand Up @@ -247,8 +247,7 @@ def innerL(i, oS):
return 0

# eta是alphas[j]的最优修改量,如果eta==0,需要退出for循环的当前迭代过程
# 如果ETA为0,那么计算新的alphas[j]就比较麻烦了, 为什么呢? 因为2个值一样。
# 2ab <= a^2 + b^2
# 参考《统计学习方法》李航-P125~P128<序列最小最优化算法>
eta = 2.0 * oS.K[i, j] - oS.K[i, i] - oS.K[j, j] # changed for kernel
if eta >= 0:
print("eta>=0")
Expand All @@ -274,6 +273,7 @@ def innerL(i, oS):
# 在对alpha[i], alpha[j] 进行优化之后,给这两个alpha值设置一个常数b。
# w= Σ[1~n] ai*yi*xi => b = yi- Σ[1~n] ai*yi(xi*xj)
# 所以: b1 - b = (y1-y) - Σ[1~n] yi*(a1-a)*(xi*x1)
# 为什么减2遍? 因为是 减去Σ[1~n],当好2个变量i和j,所以减2遍
b1 = oS.b - Ei - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.K[i, i] - oS.labelMat[j] * (oS.alphas[j] - alphaJold) * oS.K[i, j]
b2 = oS.b - Ej - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.K[i, j] - oS.labelMat[j] * (oS.alphas[j] - alphaJold) * oS.K[j, j]
if (0 < oS.alphas[i]) and (oS.C > oS.alphas[i]):
Expand Down Expand Up @@ -515,8 +515,8 @@ def plotfig_SVM(xArr, yArr, ws, b, alphas):
# plotfig_SVM(dataArr, labelArr, ws, b, alphas)

# # 有核函数的测试
# testRbf(1)
testRbf(0.8)

# 项目实战
# 示例:手写识别问题回顾
testDigits(('rbf', 20))
# testDigits(('rbf', 20))
Loading

0 comments on commit 7463424

Please sign in to comment.