机器学习:Python实现k-最近邻算法

在模式识别中,k-最近邻算法(k -NN)是用于分类和回归的非参数方法。在这两种情况下,输入都包含特征空间中最近的k个训练样例。输出取决于k -NN是用于分类还是回归:

在k-NN分类中,输出是类成员资格。通过其neighbors的多数投票对对象进行分类,其中对象被分配给在其k个最近neighbors中最常见的类(k是正整数,通常是小整数)。如果k = 1,则简单地将对象分配给该单个最近邻的类。

在k-NN回归中,输出是对象的属性值。该值是其k个最近邻的值的平均值。

k -NN是一种基于实例的学习或称懒惰学习,其中函数仅在局部近似。ķ -NN算法是最简单的所有机器学习算法之一。

在分类和回归方面,可以使用一种有用的技术来为neighbors的贡献分配权重,这样离得越近的neighbors对平均值的贡献就越大。例如,一个常见的加权方案是给每个neighbors一个1/d的权值,其中d是到neighbors的距离。

neighbors取自一组对象,其中类(用于k -NN分类)或对象属性值(用于k -NN回归)是已知的。这可以被认为是算法的训练集,但是不需要明确的训练步骤。

k-NN算法的一个特点是对数据的局部结构敏感。该算法不要与另一种流行的机器学习技术k-means混淆。

让我们假设我们有一个包含2个类别的场景,并考虑2个独立变量,并添加一个新点。在绿色或红色数据点区域,它应该落在哪里?

机器学习:Python实现k-最近邻算法

为了解决这个问题,我们首先需要根据欧几里德距离选择K个neighbors(通常为5个)。我们可以回忆欧几里德距离公式:

机器学习:Python实现k-最近邻算法

然后我们计算数据点的数量,并将新数据点分配给大多数neighbors的类别:

机器学习:Python实现k-最近邻算法

要在Python中实现KN,我们首先需要通过sklearn.neighbors库和KNeighbors类创建我们的分类器,并创建我们的对象分类器并指定neighbors的数量,我们想要实现的度量(在这种情况下是欧几里德距离)和类型“minkowski”。

# Data Preprocessing

# Importing the Library

import numpy as np

import matplotlib.pyplot as plt

import pandas as pd

# Importing the dataset

dataset= pd.read_csv('Data.csv')

X = dataset.iloc[: , [2, 3]].values

Y = dataset.iloc[: , 4].values

# Feature Scaling

from sklearn.preprocessing import StandardScaler

sc_X = StandardScaler()

X_train = sc_X.fit_transform(X_train)

X_test = sc_X.transform(X_test)

# Fitting Classifier to the Training set

from sklearn.neighbors import KNeighborsClassifier

classifier = KNeighborsClassifier(n_neighbors = 5, metric = 'minkowski', p = 2)

classifier.fit(X_train, y_train)

# Predicting the Test set results

y_pred = classifier.predict(X_test)

接下来,我们将分类器拟合到训练集中,并创建我们的混淆矩阵。Python代码如下:

# Data Preprocessing

# Importing the Library

import numpy as np

import matplotlib.pyplot as plt

import pandas as pd

# Importing the dataset

dataset= pd.read_csv('Data.csv')

X = dataset.iloc[: , [2, 3]].values

Y = dataset.iloc[: , 4].values

# Feature Scaling

from sklearn.preprocessing import StandardScaler

sc_X = StandardScaler()

X_train = sc_X.fit_transform(X_train)

X_test = sc_X.transform(X_test)

# Fitting Classifier to the Training set

from sklearn.neighbors import KNeighborsClassifier

classifier = KNeighborsClassifier(n_neighbors = 5, metric = 'minkowski', p = 2)

classifier.fit(X_train, y_train)

# Predicting the Test set results

y_pred = classifier.predict(X_test)

# Making the Confusion Matrix

fromsklearn.metrics import confusion_matrix

cm = confusion_matrix(y_test, y_pred)

# Visualising the Training set results

from matplotlib.colors import ListedColormap

X_set, Y_set = X_train, y_train

X1, X2 = np.meshgrid(np.arrange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),

np.arrange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01)

plt.contourf(X1, X2, classifier.predict(np.array([X1.rave(), X2.ravel()]).T).reshape(X1.shape),

alpha = 0.75, cmap = ListedColormap(('red', 'Green')))

plt.xlim(X1.min(), X1.max())

plt.ylim(X1.min(), X1.max())

for i, j in emunerate(np.unique(y_set)):

plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1]

c = ListedColormap(('red', 'green'))(i), label = j)

plt.title('K-NN (Training set)')

plt.xlabel('Age')

plt.ylabel('Estimated Salary')

plt.legend()

plt.show()

# Visualising the Test set results

from matplotlib.colors import ListedColormap

X_set, Y_set = X_train, y_train

X1, X2 = np.meshgrid(np.arrange(start = X_set[:, 0].min() - 1, stop = X_set[:, 0].max() + 1, step = 0.01),

np.arrange(start = X_set[:, 1].min() - 1, stop = X_set[:, 1].max() + 1, step = 0.01)

plt.contourf(X1, X2, classifier.predict(np.array([X1.rave(), X2.ravel()]).T).reshape(X1.shape),

alpha = 0.75, cmap = ListedColormap(('red', 'Green')))

plt.xlim(X1.min(), X1.max())

plt.ylim(X1.min(), X1.max())

for i, j in emunerate(np.unique(y_set)):

plt.scatter(X_set[y_set == j, 0], X_set[y_set == j, 1]

c = ListedColormap(('red', 'green'))(i), label = j)

plt.title('K-NN (Test set)')

plt.xlabel('Age')

plt.ylabel('Estimated Salary')

plt.legend()

plt.show()

相关推荐