机器学习：Python实现KERNEL SVM

Evan

2018-08-30

在机器学习中，核方法是一类用于模式分析的算法，其最着名的成员是支持向量机（SVM）。模式分析的一般任务是在数据集中查找和研究一般类型的关系（例如聚类，排名，主成分，相关性，分类）。对于许多解决这些任务的算法，原始表示中的数据必须通过用户指定的特征映射显式转换为特征向量表示：相反，核方法只需要用户指定的核，即在原始的表示中，有两组数据点的相似函数。

核方法的名称来源于核函数的使用，这使得它们能够在高维，隐式特征空间中操作而无需计算该空间中数据的坐标，而是通过计算图像之间的内积的双特征空间中的数据。该操作通常在计算上比显着计算坐标便宜。这种方法称为“ 核技巧(kernel trick) ”。已经为序列数据，图形，文本，图像以及向量引入了核函数。

能够与核一起操作的算法包括核感知器，支持向量机（SVM），高斯过程，主成分分析（PCA），典型相关分析，岭回归，谱聚类，线性自适应滤波器等等。通过将核技巧应用于模型，可以将任何线性模型转换为非线性模型：通过核函数替换其特征（预测变量）。

大多数核算法都基于凸优化或特征问题，并且在统计上是有根据的。通常，使用统计学习理论（例如，使用Rademacher复杂性）分析它们的统计特性。

举一个例子，我们有一组观察，这里的目标是找到两个类别之间的决策边界。不幸的是，有些情况下数据不是线性可分的，我们无法绘制决策边界线：

机器学习：Python实现KERNEL SVM

这就是更高维空间发挥作用的地方。在一维数据集上，我们选择一个随机数，比方说5，我们从我们的独立变量x中减去这个值：

机器学习：Python实现KERNEL SVM

然后，通过平方函数，我们将能够在二维级别上划分数据集，并将所有内容投射回原始空间：

机器学习：Python实现KERNEL SVM

所以现在我们可以分割我们的数据集了，那就是当您在更高维度中映射某些东西时会发生什么。我们可以将相同的方法应用于我们的初始示例，并使用映射函数使我们的数据可以通过超平面分离：

机器学习：Python实现KERNEL SVM

这个技术的问题在于，映射到更高维度可能是计算机密集型的，并且在处理大量数据时这种方法可能会有问题。

但核技巧可以轻松解决这个问题！所以这里我们有高斯函数：

机器学习：Python实现KERNEL SVM

因此，让我们尝试分解这个公式：k代表核，它的函数应用于数据集的x向量点。l代表landmark，e代表esponent。它在视觉上看起来像图中间的尖端，我们把它投射到平面上，然后找到landmark:

机器学习：Python实现KERNEL SVM

如果我们取一个点，测量距离中心的距离，然后平方，这个距离将等于一个很大的数，最终会得到一个非常接近0的值。

机器学习：Python实现KERNEL SVM

事实上，当我们离得很远时，我们会接近0，当我们接近中心时，我们会接近1。我们将使用这个函数来分离我们的数据集，并在核函数周围取最优的圆，这样圆之外的所有值都是0，里面的所有值都在0到1之间:

机器学习：Python实现KERNEL SVM

请注意，如果我们增加sigma，我们将包含更多或更少的值：

机器学习：Python实现KERNEL SVM

并且这种计算仍然在我们原始的二维空间中发生，其不需要大量的计算强度。

如果在这里我们采用2个核函数，我们可以将相同的算法应用于更复杂的数据集：

机器学习：Python实现KERNEL SVM

要在Python上实现核算法，我们需要从sklearn.svm通过SVC类创建我们的分类器，并将核参数作为rbf输入：

# Data Preprocessing

# Importing the Library

import numpy as np

import matplotlib.pyplot as plt

import pandas as pd

# Importing the dataset

dataset= pd.read_csv('Data.csv')

X = dataset.iloc[: , [2, 3]].values

Y = dataset.iloc[: , 4].values

# Feature Scaling

from sklearn.preprocessing import StandardScaler

sc_X = StandardScaler()

X_train = sc_X.fit_transform(X_train)

X_test = sc_X.transform(X_test)

# Fitting Classifier to the Training set

from sklearn.svm import SVC

classifier = SVC(kernel = 'rbf', random_state = 0)

classifier.fit(X_train, y_train)

# Predicting the Test set results

y_pred = classifier.predict(X_test)

接下来，我们创建混淆矩阵并可视化我们的预测，Python代码如下：

# Data Preprocessing

# Importing the Library

import numpy as np

import matplotlib.pyplot as plt

import pandas as pd

# Importing the dataset

dataset= pd.read_csv('Data.csv')

X = dataset.iloc[: , [2, 3]].values

Y = dataset.iloc[: , 4].values

# Feature Scaling

from sklearn.preprocessing import StandardScaler

sc_X = StandardScaler()

X_train = sc_X.fit_transform(X_train)

X_test = sc_X.transform(X_test)

# Fitting Classifier to the Training set

from sklearn.svm import SVC

classifier = SVC(kernel = 'rbf', random_state = 0)

classifier.fit(X_train, y_train)

# Predicting the Test set results

y_pred = classifier.predict(X_test)

# Making the Confusion Matrix

fromsklearn.metrics import confusion_matrix

cm = confusion_matrix(y_test, y_pred)

# Visualising the Training set results

from matplotlib.colors import ListedColormap

X_set, Y_set = X_train, y_train

X1, X2 = np.meshgrid(np.arrange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),

np.arrange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01)

plt.contourf(X1, X2, classifier.predict(np.array([X1.rave(), X2.ravel()]).T).reshape(X1.shape),

alpha = 0.75, cmap = ListedColormap(('red', 'Green')))

plt.xlim(X1.min(), X1.max())

plt.ylim(X1.min(), X1.max())

for i, j in emunerate(np.unique(y_set)):

plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1]

c = ListedColormap(('red', 'green'))(i), label = j)

plt.title('SVC (Training set)')

plt.xlabel('Age')

plt.ylabel('Estimated Salary')

plt.legend()

plt.show()

# Visualising the Test set results

from matplotlib.colors import ListedColormap

X_set, Y_set = X_train, y_train

X1, X2 = np.meshgrid(np.arrange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),

np.arrange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01)

plt.contourf(X1, X2, classifier.predict(np.array([X1.rave(), X2.ravel()]).T).reshape(X1.shape),

alpha = 0.75, cmap = ListedColormap(('red', 'Green')))

plt.xlim(X1.min(), X1.max())

plt.ylim(X1.min(), X1.max())

for i, j in emunerate(np.unique(y_set)):

plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1]

c = ListedColormap(('red', 'green'))(i), label = j)

plt.title('SVC (Test set)')

plt.xlabel('Age')

plt.ylabel('Estimated Salary')

plt.legend()

plt.show()

机器学习 svm python python机器学习 python算法 kernel

安科网

机器学习：Python实现KERNEL SVM

Evan

Evan

相关推荐

Python 用5行代码学机器学习—线性回归

如果不能用Python执行机器学习，那该用什么呢？

关于机器学习管道需要了解什么?

这里有你需要的5个机器学习必备技能

在云端你需要的5个机器学习技能

用Python构建和可视化决策树

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

Evan