diff --git "a/docs/15.\345\244\247\346\225\260\346\215\256\344\270\216MapReduce.md" "b/docs/15.\345\244\247\346\225\260\346\215\256\344\270\216MapReduce.md" index e69de29bb..3fd7d3882 100644 --- "a/docs/15.\345\244\247\346\225\260\346\215\256\344\270\216MapReduce.md" +++ "b/docs/15.\345\244\247\346\225\260\346\215\256\344\270\216MapReduce.md" @@ -0,0 +1,42 @@ +# 大数据与MapReduce + +> 本章内容 + +* MapReduce +* Python中Hadoop流的使用 +* 使用mrjob库将MapReduce自动化 +* 利用Pegasos算法并行训练支持向量机 + +## MapReduce:分布式计算的框架 + +``` +优点:可在短时间内完成大量工作。 +缺点:算法必须经过重写,需要对系统工程有一定的理解。 +适用数据类型:数值型和标称型数据。 +``` + +* MapReduce集群的示意图 +![MapReduce集群的示意图](/images/15.BigData_MapReduce/MR_1_cluster.jpg) + +> 关于MapRduce的学习要点 + +* 主节点控制MapReduce的作业流程 +* MapReduce的作业可以分成map任务和reduce任务 +* map任务之间不做数据交流,reduce任务也一样 +* 在map和reduce阶段中间,有一个sort和combine阶段 +* 数据被重复存放在不同的机器上,以防止某个机器实效 +* mapper和reducer传输的数据形式为key/value对 + +## Hadoop流 + +## 在Amazon网络服务商运行Hadoop程序 + +## MapReduce上的机器学习 + +## 在Python中使用mrjob来自动化MapReduce + +## 示例:分布式SVM的Pegasos算法 + +## 你真的需要MapReduce吗? + +## 本章小节 diff --git "a/docs/6.\346\224\257\346\214\201\345\220\221\351\207\217\346\234\272.md" "b/docs/6.\346\224\257\346\214\201\345\220\221\351\207\217\346\234\272.md" index 8b90446d2..a3dba2f63 100644 --- "a/docs/6.\346\224\257\346\214\201\345\220\221\351\207\217\346\234\272.md" +++ "b/docs/6.\346\224\257\346\214\201\345\220\221\351\207\217\346\234\272.md" @@ -11,7 +11,7 @@ * 机(Machine)就是表示一种算法,而不是表示机器。 * SVM有很多种实现,最流行的一种实现是: `序列最小优化(Sequential Minimal Optimization, SMO)算法`。 * 下面还会介绍一种称为`核函数(kernel)`的方式将SVM扩展到更多数据集上。 -* 实战项目:回顾第1章中手写识别的案例,并考察其能否通过SVM来提高识别的效果。 +* 实战项目:回顾第2章中手写识别的案例,并考察其能否通过SVM来提高识别的效果。 * 注意:`SVM几何含义比较直观,但其算法实现较复杂,牵扯大量数学公式的推导。` ``` @@ -53,55 +53,56 @@ This is the simplest kind of SVM (Called an LSVM) Support Vectors are those data ``` * 选择D会比B、C分隔的效果要好很多,原因是上述的5个结论。 +* 所有的点看作地雷吧,那么我们(超平面)得找到最近所有的地雷,并保证我们离它最远。 ![线性可分](/images/6.SVM/SVM_3_linearly-separable.jpg) ### 怎么寻找最大间隔 > 点到超平面的距离 -* 分隔超平面`函数间距`: $$y(x)=w^Tx+b$$ -* 分类的结果: $$f(x)=sign(w^Tx+b)$$ (sign表示>0为1,<0为-1,=0为0) -* 点到超平面的`几何间距`: $$d(x)=(w^Tx+b)/||w||$$ [ ||w||表示w矩阵的二范式=> sqrt(w*w^T), 点到超平面的距离也是类似的,需要复习一下向量的知识 ] +* 分隔超平面`函数间距`: \\(y(x)=w^Tx+b\\) +* 分类的结果: \\(f(x)=sign(w^Tx+b)\\) (sign表示>0为1,<0为-1,=0为0) +* 点到超平面的`几何间距`: \\(d(x)=(w^Tx+b)/||w||\\) (||w||表示w矩阵的二范式=> \\(\sqrt{w*w^T}\\), 点到超平面的距离也是类似的,需要复习一下向量的知识) ![点到直线的几何距离](/images/6.SVM/SVM_4_point2line-distance.png) > 拉格朗日乘子法的使用 -* 类别标签用-1、1,是为了后期方便`lable*(w^Tx+b)`的标识和距离计算;如果`lable*(w^Tx+b)>0`表示预测正确,否则预测错误。 +* 类别标签用-1、1,是为了后期方便 \\(lable*(w^Tx+b)\\) 的标识和距离计算;如果 \\(lable*(w^Tx+b)>0\\) 表示预测正确,否则预测错误。 * 现在目标很明确,就是要找到`w`和`b`,因此我们必须要找到最小间隔的数据点,也就是前面所说的`支持向量`。 * 也就说,让最小的距离取最大.(最小的距离:就是最小间隔的数据点;最大:就是最大间距,为了找出最优超平面--最终就是支持向量) * 怎么理解呢? 例如: 所有的点看作地雷吧,那么我们(超平面)得找到最近所有的地雷,并保证我们离它最远。 - * 目标函数:`arg max{min(lable*(w^Tx+b)/||w||)}` - * 1.如果`lable*(w^Tx+b)>0`表示预测正确,`||w||`可以理解为归一化,我们始终可以找到一个阈值让`lable*(w^Tx+b)>=1` - * 2.所以令`lable*(w^Tx+b)=1`,我们本质上是求 `arg max[关于w, b] (1/||w||)`;也就说,我们约束(前提)条件是`lable*(w^Tx+b)>=1` -* 新的目标函数求解: `arg max[关于w, b] (1/||w||)` - * => 就是求: `arg min[关于w, b] (||w||)` (求矩阵会比较麻烦,如果x只是1/2*X^2的偏导数,那么。。同样是求最小值) - * => 就是求: `arg min[关于w, b] (1/2*||w||^2)` (二次函数求导,求极值,平方也方便计算) + * 目标函数:\\(arg: max\ \{min\ [lable*(w^Tx+b)/||w||]\}\\) + * 1.如果 \\(lable*(w^Tx+b)>0\\) 表示预测正确,也称`函数间隔`,\\(||w||\\) 可以理解为归一化,也称`几何间隔`,我们始终可以找到一个阈值让 \\(lable*(w^Tx+b)>=1\\) + * 2.所以令 \\(lable*(w^Tx+b)=1\\),我们本质上是求 \\(arg: max\{关于w, b\}\ (1/||w||)\\);也就说,我们约束(前提)条件是: \\(lable*(w^Tx+b)=1\\) +* 新的目标函数求解: \\(arg: max\{关于w, b\}\ (1/||w||)\\) + * => 就是求: \\(arg: min\{关于w, b\}\ (||w||)\\) (求矩阵会比较麻烦,如果x只是1/2*X^2的偏导数,那么。。同样是求最小值) + * => 就是求: \\(arg: min\{关于w, b\}\ (\frac{1}{2}*||w||^2)\\) (二次函数求导,求极值,平方也方便计算) * 本质上就是求线性不等式的二次优化问题(求分隔超平面,等价于求解相应的凸二次规划问题。) * 通过拉格朗日乘子法,求二次优化问题 - * 假设需要求极值的目标函数 (objective function) 为 f(x,y),限制条件为 φ(x,y)=M - * 设g(x,y)=M-φ(x,y) # 临时φ(x,y)表示下文中`label*(w^Tx+b)` + * 假设需要求极值的目标函数 (objective function) 为 f(x,y),限制条件为 φ(x,y)=M # M=1 + * 设g(x,y)=M-φ(x,y) # 临时φ(x,y)表示下文中 \\(label*(w^Tx+b)\\) * 定义一个新函数: F(x,y,λ)=f(x,y)+λg(x,y) * a为λ,代表要引入的拉格朗日乘子(Lagrange multiplier) - * 那么: `L(w,b,a)=1/2||w||^2 + Σ a*[1-label*(w^Tx+b)]` => `L(w,b,a)=1/2||w||^2 - Σ a*[label*(w^Tx+b)-1]` - * 因为:`label*(w^Tx+b)>=1, a>0` , 所以`a*[label*(w^Tx+b)-1]>=0`, Σ 0~n的加和也都大于0 - * `max[关于a] (L(w,b,a)) = 1/2*||w||^2` - * 如果求: `min(1/2*||w||^2)`, 也就是要求: `arg min[关于w, b]{ max[关于a] (L(w,b,a)) }` + * 那么: \\(L(w,b,\alpha)=\frac{1}{2} * ||w||^2 + \sum_{i=1}^{n} \alpha * [1 - label * (w^Tx+b)]\\) + * 因为:\\(label*(w^Tx+b)>=1, \alpha>0\\) , 所以 \\(\alpha*[label*(w^Tx+b)-1]>=0\\), \\(\sum_{i=1}^{n} \alpha * [label * (w^Tx+b) - 1]>=0\\) + * \\(max\{关于\alpha\}\ L(w,b,\alpha) = \frac{1}{2} *||w||^2\\) + * 如果求: \\(min\{关于w, b\}\ \frac{1}{2} *||w||^2\\) , 也就是要求: \\(min\{关于w, b\}\ [max\{关于\alpha\}\ L(w,b,\alpha)]\\) * 现在转化到对偶问题的求解 - * `min[关于w, b]{ max[关于w, b] (L(w,b,a)) } >= max[关于w, b] { min[关于w, b] (L(w,b,a)) }` + * \\(min\{关于w, b\}\ [max\{关于\alpha\}\ L(w,b,\alpha)]\\) >= \\(max\{关于\alpha\}\ [min\{关于w, b\}\ L(w,b,\alpha)]\\) * 现在分2步 - * 先求:`min[关于w, b] (L(w,b,a))=1/2||w||^2 + Σ a*[1-label*(w^Tx+b)]` + * 先求: \\(min\{关于w, b\}\ L(w,b,\alpha)=\frac{1}{2} * ||w||^2 + \sum_{i=1}^{n} \alpha * [1 - label * (w^Tx+b)]\\) * 就是求`L(w,b,a)`关于[w, b]的偏导数, 得到`w和b的值`,并化简为:`L和a的方程`。 - * 参考: 1.【计算拉格朗日函数的对偶函数-下图是参考小象学院】 2.如果公式推导还是不懂,也可以参考《统计学习方法》李航-P103<学习的对偶算法> + * 参考: 如果公式推导还是不懂,也可以参考《统计学习方法》李航-P103<学习的对偶算法> * ![计算拉格朗日函数的对偶函数](/images/6.SVM/SVM_5_Lagrangemultiplier.png) -* 终于得到课本上的公式:`max(Σ(i=>n) a[i] - 1/2*Σ(i,j=>n) a[i]*a[j]]*label(i)*label(j)*)` -* 约束条件: `a>=0 and Σ a[i]*label(i)=0` +* 终于得到课本上的公式: \\(max\ \{\alpha\}\ [\sum_{i=1}^{m} \alpha - \frac{1}{2} \sum_{i, j=1}^{m} label_i·label_j·\alpha_i·\alpha_j·]\\) +* 约束条件: \\(a>=0,\ and\ \sum_{i=1}^{m} a_i·label_i=0\\) > 松弛变量(slack variable) * 我们知道几乎所有的数据都不那么干净, 通过引入松弛变量来允许数据点可以处于分隔面错误的一侧。 -* 约束条件: `C>=a>=0 and Σ a[i]*label(i)=0` +* 约束条件: \\(C>=a>=0,\ and\ \sum_{i=1}^{m} a_i·label_i=0\\) * 这里常量C用于控制“最大化间隔”和“保证大部分点的函数间隔小于1.0” 这两个目标的权重。 -* 常量C是一个常数,我们通过调节钙参数得到不同的结果。一旦求出了所有的alpha,那么分隔超平面就可以通过这些alpha来表示。 +* 常量C是一个常数,我们通过调节该参数得到不同的结果。一旦求出了所有的alpha,那么分隔超平面就可以通过这些alpha来表示。 * 这一结论十分直接,SVM中的主要工作就是要求解 alpha. > SVM应用的一般框架 @@ -130,7 +131,7 @@ SVM的一般流程 * 这里指的合适必须要符合一定的条件 * 1.这两个alpha必须要在间隔边界之外 * 2.这两个alpha还没有进行过区间化处理或者不在边界上。 - * 之所以要同时改变2个alpha;原因,我们有一个约束条件:`Σ a[i]*label(i)=0`;如果只是修改一个alpha,很可能导致约束条件失效。 + * 之所以要同时改变2个alpha;原因,我们有一个约束条件: \\(\sum_{i=1}^{m} a_i·label_i=0\\);如果只是修改一个alpha,很可能导致约束条件失效。 ``` SMO伪代码大致如下: diff --git a/images/15.BigData_MapReduce/MR_1_cluster.jpg b/images/15.BigData_MapReduce/MR_1_cluster.jpg new file mode 100644 index 000000000..6bf55a583 Binary files /dev/null and b/images/15.BigData_MapReduce/MR_1_cluster.jpg differ diff --git a/images/6.SVM/SVM_5_Lagrangemultiplier.png b/images/6.SVM/SVM_5_Lagrangemultiplier.png index c98c5aaa1..c5dda0071 100644 Binary files a/images/6.SVM/SVM_5_Lagrangemultiplier.png and b/images/6.SVM/SVM_5_Lagrangemultiplier.png differ diff --git a/src/python/6.SVM/svm-complete.py b/src/python/6.SVM/svm-complete.py index 4028a6eb8..a6f5aa41a 100644 --- a/src/python/6.SVM/svm-complete.py +++ b/src/python/6.SVM/svm-complete.py @@ -101,7 +101,7 @@ def calcEk(oS, k): k 具体的某一行 Returns: - + Ek 预测结果与真实结果比对,计算误差Ek """ fXk = float(multiply(oS.alphas, oS.labelMat).T * oS.K[:, k] + oS.b) Ek = fXk - float(oS.labelMat[k]) @@ -142,7 +142,7 @@ def selectJ(i, oS, Ei): # this is the second choice -heurstic, and calcs Ej maxK = -1 maxDeltaE = 0 Ej = 0 - # # 首先将输入值Ei在缓存中设置成为有效的。这里的有效意味着它已经计算好了。 + # 首先将输入值Ei在缓存中设置成为有效的。这里的有效意味着它已经计算好了。 oS.eCache[i] = [1, Ei] # print 'oS.eCache[%s]=%s' % (i, oS.eCache[i]) @@ -247,8 +247,7 @@ def innerL(i, oS): return 0 # eta是alphas[j]的最优修改量,如果eta==0,需要退出for循环的当前迭代过程 - # 如果ETA为0,那么计算新的alphas[j]就比较麻烦了, 为什么呢? 因为2个值一样。 - # 2ab <= a^2 + b^2 + # 参考《统计学习方法》李航-P125~P128<序列最小最优化算法> eta = 2.0 * oS.K[i, j] - oS.K[i, i] - oS.K[j, j] # changed for kernel if eta >= 0: print("eta>=0") @@ -274,6 +273,7 @@ def innerL(i, oS): # 在对alpha[i], alpha[j] 进行优化之后,给这两个alpha值设置一个常数b。 # w= Σ[1~n] ai*yi*xi => b = yi- Σ[1~n] ai*yi(xi*xj) # 所以: b1 - b = (y1-y) - Σ[1~n] yi*(a1-a)*(xi*x1) + # 为什么减2遍? 因为是 减去Σ[1~n],当好2个变量i和j,所以减2遍 b1 = oS.b - Ei - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.K[i, i] - oS.labelMat[j] * (oS.alphas[j] - alphaJold) * oS.K[i, j] b2 = oS.b - Ej - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.K[i, j] - oS.labelMat[j] * (oS.alphas[j] - alphaJold) * oS.K[j, j] if (0 < oS.alphas[i]) and (oS.C > oS.alphas[i]): @@ -515,8 +515,8 @@ def plotfig_SVM(xArr, yArr, ws, b, alphas): # plotfig_SVM(dataArr, labelArr, ws, b, alphas) # # 有核函数的测试 - # testRbf(1) + testRbf(0.8) # 项目实战 # 示例:手写识别问题回顾 - testDigits(('rbf', 20)) + # testDigits(('rbf', 20)) diff --git a/src/python/6.SVM/svm-complete_Non-Kernel.py b/src/python/6.SVM/svm-complete_Non-Kernel.py index 25dfdaad2..51199e534 100644 --- a/src/python/6.SVM/svm-complete_Non-Kernel.py +++ b/src/python/6.SVM/svm-complete_Non-Kernel.py @@ -11,6 +11,18 @@ import matplotlib.pyplot as plt +class optStruct: + def __init__(self, dataMatIn, classLabels, C, toler): # Initialize the structure with the parameters + self.X = dataMatIn + self.labelMat = classLabels + self.C = C + self.tol = toler + self.m = shape(dataMatIn)[0] + self.alphas = mat(zeros((self.m, 1))) + self.b = 0 + self.eCache = mat(zeros((self.m, 2))) # first column is valid flag + + def loadDataSet(fileName): """loadDataSet(对文件进行逐行解析,从而得到第行的类标签和整个数据矩阵) @@ -61,59 +73,64 @@ def clipAlpha(aj, H, L): return aj -def calcWs(alphas, dataArr, classLabels): - """ - 基于alpha计算w值 +def calcEk(oS, k): + """calcEk(求 Ek误差:预测值-真实值的差) + + 该过程在完整版的SMO算法中陪出现次数较多,因此将其单独作为一个方法 Args: - alphas 拉格朗日乘子 - dataArr feature数据集 - classLabels 目标变量数据集 + oS optStruct对象 + k 具体的某一行 Returns: - wc 回归系数 + Ek 预测结果与真实结果比对,计算误差Ek """ - X = mat(dataArr) - labelMat = mat(classLabels).transpose() - m, n = shape(X) - w = zeros((n, 1)) - for i in range(m): - w += multiply(alphas[i] * labelMat[i], X[i, :].T) - return w - - -''' -#######******************************** -Non-Kernel VErsions below -#######******************************** -''' - -class optStruct: - def __init__(self, dataMatIn, classLabels, C, toler): # Initialize the structure with the parameters - self.X = dataMatIn - self.labelMat = classLabels - self.C = C - self.tol = toler - self.m = shape(dataMatIn)[0] - self.alphas = mat(zeros((self.m, 1))) - self.b = 0 - self.eCache = mat(zeros((self.m, 2))) # first column is valid flag - - -def calcEk(oS, k): fXk = float(multiply(oS.alphas, oS.labelMat).T * (oS.X * oS.X[k, :].T)) + oS.b Ek = fXk - float(oS.labelMat[k]) return Ek def selectJ(i, oS, Ei): # this is the second choice -heurstic, and calcs Ej + """selectJ(返回最优的j和Ej) + + 内循环的启发式方法。 + 选择第二个(内循环)alpha的alpha值 + 这里的目标是选择合适的第二个alpha值以保证每次优化中采用最大步长。 + 该函数的误差与第一个alpha值Ei和下标i有关。 + Args: + i 具体的第i一行 + oS optStruct对象 + Ei 预测结果与真实结果比对,计算误差Ei + + Returns: + j 随机选出的第j一行 + Ej 预测结果与真实结果比对,计算误差Ej + """ maxK = -1 maxDeltaE = 0 Ej = 0 - oS.eCache[i] = [1, Ei] # set valid #choose the alpha that gives the maximum delta E + # 首先将输入值Ei在缓存中设置成为有效的。这里的有效意味着它已经计算好了。 + oS.eCache[i] = [1, Ei] + + # print 'oS.eCache[%s]=%s' % (i, oS.eCache[i]) + # print 'oS.eCache[:, 0].A=%s' % oS.eCache[:, 0].A.T + # """ + # # 返回非0的:行列值 + # nonzero(oS.eCache[:, 0].A)= ( + # 行: array([ 0, 2, 4, 5, 8, 10, 17, 18, 20, 21, 23, 25, 26, 29, 30, 39, 46,52, 54, 55, 62, 69, 70, 76, 79, 82, 94, 97]), + # 列: array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0, 0]) + # ) + # """ + # print 'nonzero(oS.eCache[:, 0].A)=', nonzero(oS.eCache[:, 0].A) + # # 取行的list + # print 'nonzero(oS.eCache[:, 0].A)[0]=', nonzero(oS.eCache[:, 0].A)[0] + # 非零E值的行的list列表,所对应的alpha值 validEcacheList = nonzero(oS.eCache[:, 0].A)[0] if (len(validEcacheList)) > 1: - for k in validEcacheList: # loop through valid Ecache values and find the one that maximizes delta E - if k == i: continue # don't calc for i, waste of time + for k in validEcacheList: # 在所有的值上进行循环,并选择其中使得改变最大的那个值 + if k == i: + continue # don't calc for i, waste of time + + # 求 Ek误差:预测值-真实值的差 Ek = calcEk(oS, k) deltaE = abs(Ei - Ek) if (deltaE > maxDeltaE): @@ -121,24 +138,53 @@ def selectJ(i, oS, Ei): # this is the second choice -heurstic, and calcs Ej maxDeltaE = deltaE Ej = Ek return maxK, Ej - else: # in this case (first time around) we don't have any valid eCache values + else: # 如果是第一次循环,则随机选择一个alpha值 j = selectJrand(i, oS.m) + + # 求 Ek误差:预测值-真实值的差 Ej = calcEk(oS, j) return j, Ej def updateEk(oS, k): # after any alpha has changed update the new value in the cache + """updateEk(计算误差值并存入缓存中。) + + 在对alpha值进行优化之后会用到这个值。 + Args: + oS optStruct对象 + k 某一列的行号 + """ + + # 求 误差:预测值-真实值的差 Ek = calcEk(oS, k) oS.eCache[k] = [1, Ek] def innerL(i, oS): + """innerL + 内循环代码 + Args: + i 具体的某一行 + oS optStruct对象 + + Returns: + 0 找不到最优的值 + 1 找到了最优的值,并且oS.Cache到缓存中 + """ + + # 求 Ek误差:预测值-真实值的差 Ei = calcEk(oS, i) - if ((oS.labelMat[i] * Ei < -oS.tol) and (oS.alphas[i] < oS.C)) or ( - (oS.labelMat[i] * Ei > oS.tol) and (oS.alphas[i] > 0)): - j, Ej = selectJ(i, oS, Ei) # this has been changed from selectJrand + + # 约束条件 (KKT条件是解决最优化问题的时用到的一种方法。我们这里提到的最优化问题通常是指对于给定的某一函数,求其在指定作用域上的全局最小值。) + # 0<=alphas[i]<=C,但由于0和C是边界值,我们无法进行优化,因为需要增加一个alphas和降低一个alphas。 + # 表示发生错误的概率:labelMat[i]*Ei 如果超出了 toler, 才需要优化。至于正负号,我们考虑绝对值就对了。 + if ((oS.labelMat[i] * Ei < -oS.tol) and (oS.alphas[i] < oS.C)) or ((oS.labelMat[i] * Ei > oS.tol) and (oS.alphas[i] > 0)): + # 选择最大的误差对应的j进行优化。效果更明显 + j, Ej = selectJ(i, oS, Ei) alphaIold = oS.alphas[i].copy() alphaJold = oS.alphas[j].copy() + + # L和H用于将alphas[j]调整到0-C之间。如果L==H,就不做任何改变,直接return 0 if (oS.labelMat[i] != oS.labelMat[j]): L = max(0, oS.alphas[j] - oS.alphas[i]) H = min(oS.C, oS.C + oS.alphas[j] - oS.alphas[i]) @@ -148,22 +194,37 @@ def innerL(i, oS): if L == H: print("L==H") return 0 + + # eta是alphas[j]的最优修改量,如果eta==0,需要退出for循环的当前迭代过程 + # 参考《统计学习方法》李航-P125~P128<序列最小最优化算法> eta = 2.0 * oS.X[i, :] * oS.X[j, :].T - oS.X[i, :] * oS.X[i, :].T - oS.X[j, :] * oS.X[j, :].T if eta >= 0: print("eta>=0") return 0 + + # 计算出一个新的alphas[j]值 oS.alphas[j] -= oS.labelMat[j] * (Ei - Ej) / eta + # 并使用辅助函数,以及L和H对其进行调整 oS.alphas[j] = clipAlpha(oS.alphas[j], H, L) - updateEk(oS, j) # added this for the Ecache + # 更新误差缓存 + updateEk(oS, j) + + # 检查alpha[j]是否只是轻微的改变,如果是的话,就退出for循环。 if (abs(oS.alphas[j] - alphaJold) < 0.00001): print("j not moving enough") return 0 - oS.alphas[i] += oS.labelMat[j] * oS.labelMat[i] * (alphaJold - oS.alphas[j]) # update i by the same amount as j - updateEk(oS, i) # added this for the Ecache #the update is in the oppostie direction - b1 = oS.b - Ei - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.X[i, :] * oS.X[i, :].T - oS.labelMat[j] * ( - oS.alphas[j] - alphaJold) * oS.X[i, :] * oS.X[j, :].T - b2 = oS.b - Ej - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.X[i, :] * oS.X[j, :].T - oS.labelMat[j] * ( - oS.alphas[j] - alphaJold) * oS.X[j, :] * oS.X[j, :].T + + # 然后alphas[i]和alphas[j]同样进行改变,虽然改变的大小一样,但是改变的方向正好相反 + oS.alphas[i] += oS.labelMat[j] * oS.labelMat[i] * (alphaJold - oS.alphas[j]) + # 更新误差缓存 + updateEk(oS, i) + + # 在对alpha[i], alpha[j] 进行优化之后,给这两个alpha值设置一个常数b。 + # w= Σ[1~n] ai*yi*xi => b = yj Σ[1~n] ai*yi(xi*xj) + # 所以: b1 - b = (y1-y) - Σ[1~n] yi*(a1-a)*(xi*x1) + # 为什么减2遍? 因为是 减去Σ[1~n],当好2个变量i和j,所以减2遍 + b1 = oS.b - Ei - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.X[i, :] * oS.X[i, :].T - oS.labelMat[j] * (oS.alphas[j] - alphaJold) * oS.X[i, :] * oS.X[j, :].T + b2 = oS.b - Ej - oS.labelMat[i] * (oS.alphas[i] - alphaIold) * oS.X[i, :] * oS.X[j, :].T - oS.labelMat[j] * (oS.alphas[j] - alphaJold) * oS.X[j, :] * oS.X[j, :].T if (0 < oS.alphas[i]) and (oS.C > oS.alphas[i]): oS.b = b1 elif (0 < oS.alphas[j]) and (oS.C > oS.alphas[j]): @@ -175,24 +236,51 @@ def innerL(i, oS): return 0 -def smoP(dataMatIn, classLabels, C, toler, maxIter): # full Platt SMO +def smoP(dataMatIn, classLabels, C, toler, maxIter): + """ + 完整SMO算法外循环,与smoSimple有些类似,但这里的循环退出条件更多一些 + Args: + dataMatIn 数据集 + classLabels 类别标签 + C 松弛变量(常量值),允许有些数据点可以处于分隔面的错误一侧。 + 控制最大化间隔和保证大部分的函数间隔小于1.0这两个目标的权重。 + 可以通过调节该参数达到不同的结果。 + toler 容错率 + maxIter 退出前最大的循环次数 + Returns: + b 模型的常量值 + alphas 拉格朗日乘子 + """ + + # 创建一个 optStruct 对象 oS = optStruct(mat(dataMatIn), mat(classLabels).transpose(), C, toler) iter = 0 entireSet = True alphaPairsChanged = 0 + + # 循环遍历:循环maxIter次 并且 (alphaPairsChanged存在可以改变 or 所有行遍历一遍) while (iter < maxIter) and ((alphaPairsChanged > 0) or (entireSet)): alphaPairsChanged = 0 - if entireSet: # go over all + + # 当entireSet=true or 非边界alpha对没有了;就开始寻找 alpha对,然后决定是否要进行else。 + if entireSet: + # 在数据集上遍历所有可能的alpha for i in range(oS.m): + # 是否存在alpha对,存在就+1 alphaPairsChanged += innerL(i, oS) print("fullSet, iter: %d i:%d, pairs changed %d" % (iter, i, alphaPairsChanged)) iter += 1 - else: # go over non-bound (railed) alphas + + # 对已存在 alpha对,选出非边界的alpha值,进行优化。 + else: + # 遍历所有的非边界alpha值,也就是不在边界0或C上的值。 nonBoundIs = nonzero((oS.alphas.A > 0) * (oS.alphas.A < C))[0] for i in nonBoundIs: alphaPairsChanged += innerL(i, oS) print("non-bound, iter: %d i:%d, pairs changed %d" % (iter, i, alphaPairsChanged)) iter += 1 + + # 如果找到alpha对,就优化非边界alpha值,否则,就重新进行寻找,如果寻找一遍 遍历所有的行还是没找到,就退出循环。 if entireSet: entireSet = False # toggle entire set loop elif (alphaPairsChanged == 0): @@ -201,6 +289,26 @@ def smoP(dataMatIn, classLabels, C, toler, maxIter): # full Platt SMO return oS.b, oS.alphas +def calcWs(alphas, dataArr, classLabels): + """ + 基于alpha计算w值 + Args: + alphas 拉格朗日乘子 + dataArr feature数据集 + classLabels 目标变量数据集 + + Returns: + wc 回归系数 + """ + X = mat(dataArr) + labelMat = mat(classLabels).transpose() + m, n = shape(X) + w = zeros((n, 1)) + for i in range(m): + w += multiply(alphas[i] * labelMat[i], X[i, :].T) + return w + + def plotfig_SVM(xArr, yArr, ws, b, alphas): """ 参考地址: diff --git a/src/python/6.SVM/svm-simple.py b/src/python/6.SVM/svm-simple.py index e7699c3bd..3d188659c 100644 --- a/src/python/6.SVM/svm-simple.py +++ b/src/python/6.SVM/svm-simple.py @@ -127,8 +127,7 @@ def smoSimple(dataMatIn, classLabels, C, toler, maxIter): continue # eta是alphas[j]的最优修改量,如果eta==0,需要退出for循环的当前迭代过程 - # 如果ETA为0,那么计算新的alphas[j]就比较麻烦了, 为什么呢? 因为2个值一样。 - # 2ab <= a^2 + b^2 + # 参考《统计学习方法》李航-P125~P128<序列最小最优化算法> eta = 2.0 * dataMatrix[i, :]*dataMatrix[j, :].T - dataMatrix[i, :]*dataMatrix[i,:].T - dataMatrix[j, :]*dataMatrix[j, :].T if eta >= 0: print("eta>=0") @@ -145,8 +144,9 @@ def smoSimple(dataMatIn, classLabels, C, toler, maxIter): # 然后alphas[i]和alphas[j]同样进行改变,虽然改变的大小一样,但是改变的方向正好相反 alphas[i] += labelMat[j]*labelMat[i]*(alphaJold - alphas[j]) # 在对alpha[i], alpha[j] 进行优化之后,给这两个alpha值设置一个常数b。 - # w= Σ[1~n] ai*yi*xi => b = yi- Σ[1~n] ai*yi(xi*xj) + # w= Σ[1~n] ai*yi*xi => b = yj- Σ[1~n] ai*yi(xi*xj) # 所以: b1 - b = (y1-y) - Σ[1~n] yi*(a1-a)*(xi*x1) + # 为什么减2遍? 因为是 减去Σ[1~n],当好2个变量i和j,所以减2遍 b1 = b - Ei- labelMat[i]*(alphas[i]-alphaIold)*dataMatrix[i,:]*dataMatrix[i,:].T - labelMat[j]*(alphas[j]-alphaJold)*dataMatrix[i,:]*dataMatrix[j,:].T b2 = b - Ej- labelMat[i]*(alphas[i]-alphaIold)*dataMatrix[i,:]*dataMatrix[j,:].T - labelMat[j]*(alphas[j]-alphaJold)*dataMatrix[j,:]*dataMatrix[j,:].T if (0 < alphas[i]) and (C > alphas[i]): @@ -158,6 +158,7 @@ def smoSimple(dataMatIn, classLabels, C, toler, maxIter): alphaPairsChanged += 1 print("iter: %d i:%d, pairs changed %d" % (iter, i, alphaPairsChanged)) # 在for循环外,检查alpha值是否做了更新,如果在更新则将iter设为0后继续运行程序 + # 知道更新完毕后,iter次循环无变化,才推出循环。 if (alphaPairsChanged == 0): iter += 1 else: