机器学习系列20：K-均值算法

weijinqian0

2019-06-22

机器学习系列20：K-均值算法

曾经我写过一篇文章介绍监督学习和无监督学习的区别与特点，如果没看过的小伙伴可以看一下：

机器学习系列 1：监督学习和无监督学习

接下来介绍的K-均值算法就是无监督学习算法。在无监督学习中，我们会把没有标签的数据集交给算法，让它自动地发现数据之间的关系，聚类算法(Clustering algorithm)就是一种无监督学习算法。它会自动地将无标签的数据集进行分类，如下图：

机器学习系列20：K-均值算法

它会将这个数据集划分成两类，每一个绿圈就是一类。

在聚类算法中，最常见的就是 K-均值算法(K-means algorithm)，我们先来看看这个算法在下面这个数据集中是如何进行工作的。

机器学习系列20：K-均值算法

如果将数据集划分成两类的话，第一步随机选取两个点作为聚类中心(通常不是这么选择，为了更方便的理解，先这么选，在后面我会告诉你正确应该如何去选择)：

机器学习系列20：K-均值算法

对于每一个样本点，离哪一个聚类中心近就会被染成相应的颜色，划归成相同的一类：

机器学习系列20：K-均值算法

然后每一类都会计算出离那些数据集最近的一个位置，将聚类中心移动到那个位置：

机器学习系列20：K-均值算法

之后再进行染色：

机器学习系列20：K-均值算法

再移动，再染色，再移动，再染色，再移动。。。(人类的本质是什么

机器学习系列20：K-均值算法

)不断地进行循环，直到聚类中心不再移动为止：

机器学习系列20：K-均值算法

现在就成功地划分出两类不同的数据集了。

再回过头来看 K-均值算法(K-means algorithm)：它需要传入两个参数，需要聚类的数量 K 和训练集。

机器学习系列20：K-均值算法

一开始，会根据传入聚类的数量 K 随机初始化聚类中心，然后不断地去循环内部的两个循环：

机器学习系列20：K-均值算法

红色部分表示每一个样本点选择离它最近的聚类中心染成相应的颜色，也就是簇分配，我们将每一个样本点划分到所属的聚类中心。实际上就是最小化这个代价函数：

机器学习系列20：K-均值算法

蓝色部分表示不断地去移动聚类中心使它到跟它颜色相同的样本点的距离最小。

机器学习系列20：K-均值算法

最后来补充一下如何初始化聚类中心。之前说过，随机位置初始化这种方法是不可取的，正确的操作是随机选取样本点所在的位置作为聚类中心，为了避免陷入到局部最优解中，我们要多次选取，挑选一个代价函数最小的作为我们的选择，这样就会达到最优的效果。

机器学习算法 jpg

安科网

机器学习系列20：K-均值算法

weijinqian0

weijinqian0

相关推荐

关于机器学习算法的16个技巧

选择困难终结者：不同问题之下的机器学习算法

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

Python 用5行代码学机器学习—线性回归

weijinqian0