机器学习-支持向量机算法实现与实例程序

深圳湾

2018-05-20

一． SMO算法基础

支持向量就是离分隔超平面最近的那些点。分隔超平面是将数据集分开来的决策边界。

支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化。其假定为，平行超平面间的距离或差距越大，分类器的总误差越小。

我们希望找到离分隔超平面最近的点，确保他们离分隔面的距离尽可能远，误差尽可能小。

与logistics不同的是支持向量机采用的类别标签是-1和+1，因为-1和+1只相差一个符号，方便数学上的处理。

分隔超平面的形式可以写成,一个点到到分隔超平面的的法线或垂线的长度为成，我们的目标是找出间隔最大化时的w和b，间隔通过来计算，即目标式可写作：

其中||w||为二阶范数，也就是各项目平方和的平方根：

但对乘积优化是特别麻烦的，所以我们可以将超平面写成数据点的形式：

约束条件为：

可得w与b：

但是大部分情况下数据都不会是100%线性可分的，因此我们加入松弛变量，约束条件变为：

其中求解过程是比较复杂的，如果像我一样接触这类计算机语言不久，可以不用太纠结于算法的计算过程，清楚原理也可以读懂程序。接下来就是完整SMO算法程序实现。

二．程序实现

先用testSet.txt中的数据简单了解一下支持向量机算法。

部分testSet.txt中的数据

对于testSet.txt数据集，先辅助函数loadDataSet()函数打开文件并对其进行逐行解析，从而得到每行的类标签和整个数据矩阵。selectJrand()中参数i是第一个alpha的下标，m是所有alpha的数目。clipAlpha()用于调整大于H或小于L的alpha值。

然后需要构建一个仅包含init方法的optStructure类来实现其成员变量的填充。calcEK()计算E值并返回。selectJ()用于选择内循环的alpha值。cpdateEK()计算在对alpha值进行优化时会用到的误差值。

再导入innerL()函数，使用它自己的数据结构在参数os中传递。smoP()函数创建一个数据结构来容纳所有的数据，然后对控制函数退出的变量进行初始化。CalcWs()中的for循环遍历数据集中的所有数据，舍弃支持向量之外的其他数据点。

最后，利用matplotlib画出图形。

三．手写识别问题

数据：存放在trainingDigits和testDigits两个文件夹中的手写识别数据。

SMO算法程序与前面相同，接下来用img2vector()函数将32x32的二进制图像转换为1x1024向量及loadImages()函数加载图片。

四．测试结果与方法

用testDigits()函数测试支持向量个数、训练集错误率及测试集错误率。

经过4次迭代以后得到：

五．核函数

核函数是SMV的核心算法，对于原本线性不可分的样本，可以通过将原始输入空间映射到更高维度的特征空间这一操作使其在新的核空间内变为线性可分。仅需要调整核函数就可以将特征进行低维到高维的变换，在低维上进行计算，实质结果表现在高维上。

此图来自https://blog.csdn.net/github_38325884/article/details/74418365

比较流行的一个核函数是径向基核函数：

由于本人对核函数还不是很懂，这里使用的数据集比较简单，没有使用核函数，就不再具体介绍了，想深入了解具体算法实现过程可参考http://www.cnblogs.com/jerrylead/archive/2011/03/18/1988406.html

六．总结

支持向量机具有良好的学习能力，结果有很好的推广性。且完整算法在很大程度上提高了优化的速度。但对参数调节和核函数的选择敏感，若要处理二分类以外的问题需要对原始分离器加以修改。适用于数值型和标称型数据。

机器学习支持向量机超平面算法

安科网

机器学习-支持向量机算法实现与实例程序

深圳湾

一． SMO算法基础

二．程序实现

三．手写识别问题

四．测试结果与方法

五．核函数

六．总结

深圳湾

相关推荐

关于机器学习算法的16个技巧

选择困难终结者：不同问题之下的机器学习算法

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

Python 用5行代码学机器学习—线性回归

深圳湾