python kmeans聚类简单介绍和实现代码

lzujiangge

2018-02-23

一、k均值聚类的简单介绍

假设样本分为c类，每个类均存在一个中心点，通过随机生成c个中心点进行迭代，计算每个样本点到类中心的距离（可以自定义、常用的是欧式距离）

将该样本点归入到最短距离所在的类，重新计算聚类中心，进行下次的重新划分样本，最终类中心不改变时，聚类完成

二、伪代码

三、python代码实现

#!/usr/bin/env python 
# coding=utf-8 
 
import numpy as np 
import random 
import matplotlib.pyplot as plt 
 
#data:numpy.array dataset 
#k the number of cluster 
def k_means(data,k): 
   
  #random generate cluster_center 
  sample_num=data.shape[0] 
  center_index=random.sample(range(sample_num),k) 
  cluster_cen=data[center_index,:] 
 
  is_change=1 
  cat=np.zeros(sample_num) 
   
 
  while is_change: 
    is_change=0 
 
    for i in range(sample_num): 
      min_distance=100000 
      min_index=0 
 
      for j in range(k): 
        sub_data=data[i,:]-cluster_cen[j,:] 
        distance=np.inner(sub_data,sub_data) 
        if distance<min_distance: 
          min_distance=distance 
          min_index=j+1 
 
      if cat[i]!=min_index: 
        is_change=1 
        cat[i]=min_index 
    for j in range(k): 
      cluster_cen[j]=np.mean(data[cat==(j+1)],axis=0) 
 
  return cat,cluster_cen 
 
 
if __name__=='__main__': 
 
  #generate data 
  cov=[[1,0],[0,1]] 
  mean1=[1,-1] 
  x1=np.random.multivariate_normal(mean1,cov,200) 
 
  mean2=[5.5,-4.5] 
  x2=np.random.multivariate_normal(mean2,cov,200) 
 
  mean3=[1,4] 
  x3=np.random.multivariate_normal(mean3,cov,200) 
 
  mean4=[6,4.5] 
  x4=np.random.multivariate_normal(mean4,cov,200) 
 
  mean5=[9,0.0] 
  x5=np.random.multivariate_normal(mean5,cov,200) 
   
  X=np.vstack((x1,x2,x3,x4,x5)) 
   
  #data distribution 
  fig1=plt.figure(1) 
  p1=plt.scatter(x1[:,0],x1[:,1],marker='o',color='r',label='x1') 
  p2=plt.scatter(x2[:,0],x2[:,1],marker='+',color='m',label='x2') 
  p3=plt.scatter(x3[:,0],x3[:,1],marker='x',color='b',label='x3') 
  p4=plt.scatter(x4[:,0],x4[:,1],marker='*',color='g',label='x4') 
  p5=plt.scatter(x5[:,0],x4[:,1],marker='+',color='y',label='x5') 
  plt.title('original data') 
  plt.legend(loc='upper right') 
   
  cat,cluster_cen=k_means(X,5)    
 
  print 'the number of cluster 1:',sum(cat==1) 
  print 'the number of cluster 2:',sum(cat==2) 
  print 'the number of cluster 3:',sum(cat==3) 
  print 'the number of cluster 4:',sum(cat==4) 
  print 'the number of cluster 5:',sum(cat==5) 
 
   
  fig2=plt.figure(2) 
  for i,m,lo,label in zip(range(5),['o','+','x','*','+'],['r','m','b','g','y'],['x1','x2','x3','x4','x5']): 
 
    p=plt.scatter(X[cat==(i+1),0],X[cat==(i+1),1],marker=m,color=lo,label=label) 
  plt.legend(loc='upper right') 
  plt.title('the clustering result') 
  plt.show()

聚类 data python kmeans

lzujiangge

0 关注 0 粉丝 0 动态

相关推荐

K均值(K-MEANS)

Kmeans是一种简单的聚类方法，一般在数据分析前期使用，选取适当的k，将数据分类后，然后分类研究不同聚类下数据的特点。　　2 令k从2到一个固定值如10，在每个k值上重复运行数次kmeans，并计算当前k的平均轮廓系数，最后选取轮廓系数最大的值对应的k作

路漫 2020-05-30

K-均值聚类（k-means）算法

model_kmeans=KMeans #建立聚类模型对象。colors=['#4EACC5','#FF9C34','#4E9A06'] #设置不同类别的颜色。plt.scatter #展示聚类子集内的样本点。plt.plot #展示各聚类子集的

从早忙到晚的闲人 2020-04-13

算法 - k-means++

Kmeans++算法，主要可以解决初始中心的选择问题，不可解决k的个数。Kmeans++主要思想是选择的初始聚类中心要尽量的远。

Happyunlimited 2019-11-09

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 5评论 2020-11-11

转录组数据分析思路

转录组紧紧围绕基因表达量和功能分析两部分，结合生物学问题来进行数据分析。高表达基因已经研究比较透彻，应该更多关注中低表达基因。功能富集分析不应过多关注显著P值，功能通路作为一个整体，不应排除差异非显著的基因作用。根据功能来推测生物学过程，需要经验，如胞外信

Fredreck 2020-07-19

k-means聚类算法原理简析

K-means算法是最普及的聚类算法，也是一个比较简单的聚类算法。算法接受一个未标记的数据集，然后将数据聚类成不同的组，同时，k-means算法也是一种无监督学习。那么用k-means算法来解决这个问题会是怎样的呢？完全没有人为的让他进行分类的学习，也没有

horizonheart 2020-07-05

大数据分析领域模型有哪些

数据角度的模型一般指的是统计或数据挖掘、机器学习、人工智能等类型的模型，是纯粹从科学角度出发定义的。因此，我们需要降低维度数量并降低维度间共线性影响。　　数据降维也被成为数据归约或数据约减，其目的是减少参与数据计算和建模维度的数量。　　回归是研究自变量x对

swazerz 2020-06-04

有了K均值聚类，为什么还需要DBSCAN聚类算法？

聚类本文转载自公众号“读芯术”分析是一种无监督学习法，它将数据点分离成若干个特定的群或组，使得在某种意义上同一组中的数据点具有相似的性质，不同组中的数据点具有不同的性质。聚类分析包括基于不同距离度量的多种不同方法。2014年，DBSCAN算法在领先的数据挖

只能做防骑 2020-05-13

11.分类与监督学习，朴素贝叶斯分类算法

简述分类与聚类的联系与区别。　　　分类简单来说，就是根据文本的特征或属性，划分到已有的类别中。聚类不需要对数据进行训练和学习。有监督学习即人工给定一组数据，每个数据的属性值也给出，对于数据集中的每个样本，我们想要算法预测并给出正确答案：回归问题，分类问题

horizonheart 2020-05-09

11.分类与监督学习，朴素贝叶斯分类算法

　　　　　　聚类是将一系列点分成若干类，事先是没有类别的，常用算法是K-Means算法，是一种无监督学习。　　② 无监督学习：缺乏足够的先验知识；在数据中发现一些规律；任务是聚类和降维。利用关于心脏病患者的临床历史数据集，建立朴素贝叶斯心脏病分类模型。

wonner 2020-05-09

R语言绘图——层次聚类图及树状图添加side bar

聚类分析作图往往包含热图和树状图。热图用来展示每个样本点数值大小和聚集模式。树状图用来表示样本之间以及变量之间的距离远近。R官网目前提供了至少45个可以绘制热图的包，其中比较常见的、可以添加行列注释信息条的聚类作图包有pheatmap、gplots等等。以

NVEFLY 2020-04-19

Cluster Analysis in Python

Normalize a group of observations on a per feature basis.# Use the whiten() function to standardize the data. # Check mean and s

Yiyang 2020-03-03

请别再把深度学习与机器学习混为一谈了！

机器学习算法通常分为：监督和非监督两种。监督式机器学习又可以进一步被分为：分类和回归。无监督学习则可以进一步分为：聚类、关联、以及降维。它需要在两个或多个类之间进行选择，并最终为每一个类分配概率。显然，在回归和分类的机器学习算法之间有一定的重叠度。聚类问题

sayhaha 2020-02-05

数据建模（）-K-means聚类算法

K-Means算法是典型基于距离的非层次聚类算法，在最小化误差函数的基础上将数据划分为预定的类数K，采用作为相似性的评价指标，即认为2个对象的距离越近，其相似度越大。对连续属性，要先对各属性值进行零-均值规范，再进行距离计算。K-Means聚类算法中，一般

路漫 2020-01-23

机器学习——谱聚类

　　具有在任意形状的样本空间上聚类并且收敛于全局最优解的优点。　　通过对样本数据的拉普拉斯矩阵的特征向量进行聚类，从而达到对样本数据进行聚类的目的;其本质是将聚类问题转换为图的最优划分问题，是一种点对聚类算法。基于图的最优划分规则就是子图内的相似度最大，子

kingzone 2020-01-01

【机器学习】k-means算法原理自实现

from sklearn.cluster import KMeans # 导入k-means. # 获取数据的行数。# # 随机选择一行所有的数据作为一个中心。# 先初始化一个全为0 的聚类中心。# 设计列表来退出循环。# 设计一个计数器来给聚类

lixiaotao 2019-12-29

监督学习与非监督学习

是有特征和标签的，即便是没有标签的，机器也是可以通过特征和标签之间的关系，判断出标签。监督学习是通过训练让机器自己找到特征和标签之间的联系，在以后面对只有特征而没有标签的数据时可以自己判别出标签。相当于给定数据，预测标签。常见的有监督学习算法：回归分析和统

sxyhetao 2019-12-14

聚类算法总结以及python代码实现

使同一类对象的相似度尽可能地大；不同类对象之间的相似度尽可能地小。层次聚类算法实际上分为两类：自上而下或自下而上。因此，自下而上的层次聚类称为合成聚类或HAC。将两个聚类合并为具有最小平均连接的组。此外，该算法对距离度量的选择不敏感;它们的工作方式都很好，

wuxiaosi0 2019-12-06

Python使用RMF聚类分析客户价值

投资机构或电商企业等积累的客户交易数据繁杂。需要根据用户的以往消费记录分析出不同用户群体的特征与价值，再针对不同群体提供不同的营销策略。根据美国数据库营销研究所Arthur Hughes的研究，客户数据库中有三个神奇的要素，这三个要素构成了数据分析最好的指

huimor 2019-12-07

零基础的程序员们，关于大数据挖掘的知识点，都在这里了

下面是一些关于大数据挖掘的知识点，今天和大家一起来学习一下。

nimeijian 2019-12-05

lzujiangge

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号