非监督学习最强攻略

非监督学习最强攻略

MLK,即Machine Learning Knowledge,本专栏在于对机器学习的重点知识做一次梳理,便于日后温习,内容主要来自于《百面机器学习》一书,结合自己的经验与思考做的一些总结与归纳。本次主要讲解的内容是机器学习里的非监督学习经典原理与算法,非监督,也就是没有target(标签)的算法模型。

Index

  • K-Mean聚类算法
  • 高斯混合模型
  • 自组织映射神经网络
  • 聚类算法的评估指标
  • 常见聚类算法对比
  • 常见聚类算法的Python实现

在机器学习中存在一种问题,那就是模型是没有target的,给机器输入大量的特征数据,期望机器可以学习出当中的共性或者结构又或者是关联,并不需要像监督学习那样输出某个预测值。

K-Mean聚类算法

K-Mean的基本思想就是通过迭代的方式寻找K个簇(Cluster)的一种划分方案,使得聚类结果对应的Cost Function最小,一般K-Mean的Cost Function为各个样本距离所属簇中心点的误差平方和,公式为:

非监督学习最强攻略

其中Xi代表第i个样本,Ci是Xi所属的簇,μci代表簇对应的中心点,M是样本总数。

首先先来看一下K-Mean算法的具体步骤描述:

1)数据预处理,如归一化、异常值处理;

2)随机抽取K个簇(K由人工设定);

3)定义Cost Function:

非监督学习最强攻略

4)不断迭代下面

相关推荐