无监督学习简介

无监督学习简介

鹰状星云

到目前为止,我们主要关心监督机器学习,这是目前最实用的应用领域。

逻辑回归是所有分类技术的“母亲”。

话虽如此,这是无人监督的机器学习,它承载着对未来的承诺。为什么?因为获取数据很便宜,它正被标记相对较难的数据。

在这篇文章中,我们将介绍常见的无监督机器学习算法和技术。

无人监督的学习:另一个样子

K均值聚类算法

K均值聚类旨在将n个观测聚类或分组为k个聚类,使得中心对应于各个组的各自的平均值。要找到平均欧几里得距离,可以使用任何有效的度量来计算距离。使用k均值聚类的学习算法如下:

1.猜测聚类中心是随机的。

2.将每个数据点分配给集群中心。即使它们是随机选择的,也应指定最可能对应的数据点。在这里可以使用欧几里德距离。

现在在数据点和聚类中心之间存在对应关系,找到与当前数据点组关联的点对应的最优集群中心,您将拥有一组新的集群中心。

3.通过这组新的聚类中心,跳转到步骤2,并通过定义迭代次数或通过定义聚类中心的跨越点是否低于一个小阈值来迭代其余过程。

无监督学习简介

期望最大化

K-Means算法是一种简单且可扩展的机器学习算法,但它不具备其他机器学习算法的满意度和美感。因为在了解K-Means的工作原理时,存在合理的数学背景。我们在实践中可以看到这个结果,其中K Means很容易收敛到局部最小值。这是期望最小化算法进入图片的地方。

在期望最大化中,所有聚类点都映射到所有数据点,不同之处在于对应关系更松散并且是概率性的。另一方面,由于对应关系是概率分布,所以计算可能非常缓慢。

无监督学习简介

集群和分布并排

例如,对于两个群集的概率分布可能看起来像右侧的图。因此在EM中,目标是计算概率分布并达到最终的累积分布。

降维

维度降低技术可用于查找数据之间的潜在关系。在现实世界中,我们所拥有的数据相互关联很多。

主成分分析的步骤如下所示。

1.以d维和N个样本为例取整个数据集。

2.计算d维平均向量(每个维度的均值)。

3.计算整个数据集的协方差矩阵。

4.计算特征向量和特征值。

5.根据减少的特征值对特征向量进行排序。

6.根据您想要保留的维数,只选择前k个特征向量,其中k≤d。

7.使用这个kxN矩阵将样本转换为新的空间。

通过降维的应用,数据中的聚类可能会出现。 PCA帮助我们理解无监督设置下变量之间的潜在相互作用。

谱聚类

到目前为止,我们所讨论的所有用于无监督学习的技术都基于线性变换的。当这些关系非线性时,这些线性算法就失败了。在有监督算法的情况下,非线性已经使用内核方法处理,但在无监督学习的情况下,我们没有这种特权。

例如,虽然下面的曲线是二维的,但我们可以在一个维度上表达它,因为它是一根正弦曲线。我们可以这样做,因为我们知道x轴和y轴之间的关系。但是,如果y轴不被认为是无监督学习的情况,那么降维将成为一项艰巨的任务。

无监督学习简介

因此,为了解决这些问题,使用谱聚类。谱聚类的基本思想是通过亲和力进行聚类。因此,您将创建一个亲和矩阵,该矩阵将是一个稀疏矩阵,并将显示所有点相对于所有其他点的距离。亲和矩阵可以通过各种方式创建,可以通过定义邻接矩阵,也可以使用高斯内核。 Scikit-learn使用以下公式来查找相似度。

无监督学习简介

完成后,我们可以运行K-means作为最后一步。

相关推荐