Python实现k-means算法

campwin

2018-02-23

本文实例为大家分享了Python实现k-means算法的具体代码，供大家参考，具体内容如下

这也是周志华《机器学习》的习题9.4。

数据集是西瓜数据集4.0，如下

编号,密度,含糖率
1,0.697,0.46
2,0.774,0.376
3,0.634,0.264
4,0.608,0.318
5,0.556,0.215
6,0.403,0.237
7,0.481,0.149
8,0.437,0.211
9,0.666,0.091
10,0.243,0.267
11,0.245,0.057
12,0.343,0.099
13,0.639,0.161
14,0.657,0.198
15,0.36,0.37
16,0.593,0.042
17,0.719,0.103
18,0.359,0.188
19,0.339,0.241
20,0.282,0.257
21,0.784,0.232
22,0.714,0.346
23,0.483,0.312
24,0.478,0.437
25,0.525,0.369
26,0.751,0.489
27,0.532,0.472
28,0.473,0.376
29,0.725,0.445
30,0.446,0.459

算法很简单，就不解释了，代码也不复杂，直接放上来：

# -*- coding: utf-8 -*- 
"""Excercise 9.4"""
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import sys
import random

data = pd.read_csv(filepath_or_buffer = '../dataset/watermelon4.0.csv', sep = ',')[["密度","含糖率"]].values

########################################## K-means ####################################### 
k = int(sys.argv[1])
#Randomly choose k samples from data as mean vectors
mean_vectors = random.sample(data,k)

def dist(p1,p2):
  return np.sqrt(sum((p1-p2)*(p1-p2)))
while True:
  print mean_vectors
  clusters = map ((lambda x:[x]), mean_vectors) 
  for sample in data:
    distances = map((lambda m: dist(sample,m)), mean_vectors) 
    min_index = distances.index(min(distances))
    clusters[min_index].append(sample)
  new_mean_vectors = []
  for c,v in zip(clusters,mean_vectors):
    new_mean_vector = sum(c)/len(c)
    #If the difference betweenthe new mean vector and the old mean vector is less than 0.0001
    #then do not updata the mean vector
    if all(np.divide((new_mean_vector-v),v) < np.array([0.0001,0.0001]) ):
      new_mean_vectors.append(v)  
    else:
      new_mean_vectors.append(new_mean_vector)  
  if np.array_equal(mean_vectors,new_mean_vectors):
    break
  else:
    mean_vectors = new_mean_vectors 

#Show the clustering result
total_colors = ['r','y','g','b','c','m','k']
colors = random.sample(total_colors,k)
for cluster,color in zip(clusters,colors):
  density = map(lambda arr:arr[0],cluster)
  sugar_content = map(lambda arr:arr[1],cluster)
  plt.scatter(density,sugar_content,c = color)
plt.show()

运行方式：在命令行输入 python k_means.py 4。其中4就是k。
下面是k分别等于3，4，5的运行结果，因为一开始的均值向量是随机的，所以每次运行结果会有不同。

Python实现k-means算法

Python实现k-means算法

Python实现k-means算法

k-means python算法 mean k-means算法编程语言 python

campwin

0 关注 0 粉丝 0 动态

相关推荐

k-means聚类算法原理简析

K-means算法是最普及的聚类算法，也是一个比较简单的聚类算法。算法接受一个未标记的数据集，然后将数据聚类成不同的组，同时，k-means算法也是一种无监督学习。那么用k-means算法来解决这个问题会是怎样的呢？完全没有人为的让他进行分类的学习，也没有

horizonheart 2020-07-05

k-means算法求解anchors

文字内容以后再补充： import numpy as np# 定义Box类，描述bounding box的坐标class Box(): def __init__(self, x, y, w, h): self.x = x

lixiaotao 2020-03-02

数据建模（）-K-means聚类算法

K-Means算法是典型基于距离的非层次聚类算法，在最小化误差函数的基础上将数据划分为预定的类数K，采用作为相似性的评价指标，即认为2个对象的距离越近，其相似度越大。对连续属性，要先对各属性值进行零-均值规范，再进行距离计算。K-Means聚类算法中，一般

路漫 2020-01-23

机器学习——Mini Batch K-Means算法

　　Mini Batch K-Means算法是K-Means算法的一种优化变种，采用小规模的数据子集减少计算时间，同时试图优化目标函数; Mini Batch K-Means算法可以减少K- Means算法的收敛时间，而且产生的结果效果只是略差于标准K-M

jiayuqicz 2020-01-01

【机器学习】k-means算法原理自实现

from sklearn.cluster import KMeans # 导入k-means. # 获取数据的行数。# # 随机选择一行所有的数据作为一个中心。# 先初始化一个全为0 的聚类中心。# 设计列表来退出循环。# 设计一个计数器来给聚类

lixiaotao 2019-12-29

【机器学习】机器学习入门08 - 聚类与聚类算法K-Means

时间过得很快，这篇文章已经是机器学习入门系列的最后一篇了。短短八周的时间里，虽然对机器学习并没有太多应用和熟悉的机会，但对于机器学习一些基本概念已经差不多有了一个提纲挈领的了解，如分类和回归，损失函数，以及一些简单的算法——kNN算法、决策树算法等。那么，

清溪算法 2019-12-23

数据挖掘--K-means

K-Means方法是MacQueen1967年提出的。给定一个数据集合X和一个整数K（?n），K-Means方法是将X分成K个聚类并使得在每个聚类中所有值与该聚类中心距离的总和最小。[1] 给K个cluster选择最初的中心点，称为K个Means。[3]

muyurenzheng 2019-12-02

算法 - k-means算法

所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法，属于无监督学习方法，这个方法要保证同一类的数据有相似的特征，如下图所示：

蜗牛慢爬的李成广 2019-11-09

k-means和iosdata聚类算法在生活案例中的运用

所以，本篇博客主要是对生活中的案例，运用k-means算法和isodata聚类算法进行数据评价和分析。本文是对“中国男足近几年在亚洲处于几流水平？”的问题进行分析。按照样本之间的距离大小，将样本集划分为K个簇。

lixiaotao 2019-10-28

Clustering：K-means Extention

在上篇K-Means介绍中，学习了K-means算法的优点和缺点。本文通过扩展K-Means算法来进一步学习Clustering的相关算法。在K-Means算法中，使用的距离概念是欧式距离，这个必须在欧式空间中才有效。那么再使用K-Means算法就不再合适

KDF000 2013-03-10

Cluster：K-means Algorithm

K-means算法算是Clustering算法中最为简单的算法了，我们从最简单的算法开始学习。K-means的算法思路很简单，根据算法名字所描述的那样，K是系统的输入参数，表明我们想分簇的数量；首先随机选择K个初始点作为中心点，再将每个数据点赋给离其最近的

KDF000 2013-03-06

聚类分析（二） K-MEANS

算法属于划分方法中的一种。是利用距离来量化相似度的，所以我们这里可以理解为是“将它们指定到离最近最近距离的质心所属类簇”）。然后重新计算质心位置。以上过程不断反复，直到准则函数收敛为止。通常采用平方误差准则，定义如下：。代表的意思是所有类簇中各对象到其所属

Oudasheng 2012-12-27

R语言聚类分析：k-means和层次聚类

尽管我个人非常不喜欢人们被划分圈子，因为这样就有了歧视、偏见、排挤和矛盾，但“物以类聚，人以群分”确实是一种客观的现实——这其中就蕴含着聚类分析的思想。前面所提到的机器学习算法主要都是分类和回归，这两类的应用场景都很清晰，就是对分类型变量或者数值型变量的预

JueryLee 2019-06-28

K-Means算法的10个有趣用例

K-means算法具有悠久的历史，并且也是最常用的聚类算法之一。K-means算法实施起来非常简单，因此，它非常适用于机器学习新手爱好者。首先我们来回顾K-Means算法的起源，然后介绍其较为典型的应用场景。1967年，James MacQueen在他的论

WindChaser 2019-06-27

k均值聚类(K-means)

分类作为一种监督学习方法，要求必须事先明确知道各个类别的信息，并且断言所有待分类项都有一个类别与之对应。但是，计算机没有这种直观感受能力，我们必须对相异度在数学上进行定量定义。也就是说相异度是两个元素对实数域的一个映射，所映射的实数定量表示两个元素的相异度

小白的成长 2010-12-20

k均值聚类算法（二）（k-means++）

前言这次的文章，是笔者写的k均值算法的第二篇。在这篇文章里，笔者要给自己备忘一下k-means++算法的学习。因此，笔者今天备忘的k-means++算法，就是针对第二个问题而提出的一种算法。因为k-means++要解决k-means受初始化值影响大这个问题

WindChaser 2019-06-26

K-means在Python中的实现

K-means算法简介K-means是机器学习中一个比较常用的算法，属于无监督学习算法，其常被用于数据的聚类，只需为它指定簇的数量即可自动将数据聚合到多类中，相同簇中的数据相似度较高，不同簇中数据相似度较低。适当选择c个类的初始中心；利用均值等方法更新该类

WindChaser 2019-06-21

如何运用k-means聚类进行图像识别、色彩压缩

对任何人来说，图像应用过滤器都不是一个新概念。我们拍了一张照片，做了一些修改，现在看起来更酷了。但是人工智能从何而来呢?让我们尝试使用Python中的k均值聚类进行无监督机器学习。我还尝试用自动编码器进行图像压缩，取得了不同程度的成功。然而，这一次，我的目

ivabrother 2019-06-04

一个完整的K-means聚类算法指南！

假设您想根据内容和主题对数百（或数千）个文档进行分类，或者您希望出于某种原因将不同的图像组合在一起。目标是获得尽可能相似的同一组中的数据点，并使不同组中的数据点尽可能不相似。K-means非常适合探索性分析，非常适合了解您的数据并提供几乎所有数据类型的见解

风吹夏天 2019-05-21

K-Means算法的10个有趣用例

K-means算法具有悠久的历史，并且也是最常用的聚类算法之一。K-means算法实施起来非常简单，因此，它非常适用于机器学习新手爱好者。首先我们来回顾K-Means算法的起源，然后介绍其较为典型的应用场景。1967年，James MacQueen在他的论

SuMFLOWERS 2018-04-01

机器学习初学者的K-Means聚类算法概述

任何在google上搜索“数据科学”的人都可能看到过机器学习中的k-means聚类算法。K-means是一种简单但功能强大的分类工具，它根据相似的特征将数据分配到组中。例如，它可以用于根据电影标题和上映日期预测电影类型，或者根据客户的购买模式分类客户。现在

秋田小鼠 2018-10-19

从头开始实现机器学习K-Means聚类

本文的目的不是详细解释机器学习中的K-Means聚类，是在不使用Scikit的情况下提供实现细节。K-Means是用于聚类的流行且简单的机器学习中无监督学习算法之一。K-Means中的超参数'K'指的是clusters的数量。K-Means是一种基于质心的

kunlong00 2018-09-15

机器学习：Python实现K-MEANS聚集

k-means聚类是一种矢量量化方法，最初来源于信号处理，在数据挖掘中被广泛应用于聚类分析。k-means聚类的目的是将n个观测值划分为k个观测值，每个观测值都属于最接近均值的聚类，作为聚类的原型。这导致将数据空间划分为Voronoi单元。该算法与k最近邻

bamboocqh 2018-09-02

基于机器学习聚类算法K-means完成经典的压缩彩色图像的操作

聚类算法在机器学习十大算法中，聚类算法是一种重要的无监督的学习算法，它可以将数据集中的样本点归结为一系列特定的组合。训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质和规律，最常用的就是“聚类”算法。聚类算法的应用电子商务平台

yxqfxd 2018-11-15

Python机器学习第一印象｜什么是K-means

本节将要介绍一种被广泛使用的直接聚类算法k-means。换而言之，就是将相似接近的对象分到同一聚簇，将不相似的对象分到不同聚簇。因此聚类归属于无监督学习算法，我们并不知道数据对象的标记，只知道它的特征如何。K是指定K-means算法聚类个数的输入参数，一般

MasterCui 2018-05-25

Python机器学习算法之k均值聚类（k-means）

一开始的目的是学习十大挖掘算法,并用编码实现一遍，但越往后学习，越往后实现编码，越发现自己的编码水平低下，学习能力低。下面的代码中这些可以优化的并没有改，这么做的原因是希望做到抛砖引玉，欢迎大家丢玉，如果能给出优化方法就更好了

香蕉麦乐迪 2018-02-23

Python机器学习之K-Means聚类实现详解

K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。上述idx得到的300

jiayuqicz 2018-02-22

python实现k-means聚类算法

k-means是发现给定数据集的k个簇的算法，也就是将数据集聚合为k类的算法。算法过程如下：1）从N个文档随机选取K个文档作为质心2）对剩余的每个文档测量其到每个质心的距离，并把它归到最近的质心的类，我们一般取欧几里得距离3）重新计算已经得到的各个类的质心

CorrectForm 2018-02-23

详解K-means算法在Python中的实现

K-means是机器学习中一个比较常用的算法，属于无监督学习算法，其常被用于数据的聚类，只需为它指定簇的数量即可自动将数据聚合到多类中，相同簇中的数据相似度较高，不同簇中数据相似度较低。通过迭代寻找k个类簇的一种划分方案，使得用这k个类簇的均值来代表相应各

HTML学堂码匠 2017-12-05

python中学习K-Means和图片压缩

大家在学习python中，经常会使用到K-Means和图片压缩的，我们在此给大家分享一下K-Means和图片压缩的方法和原理，喜欢的朋友收藏一下吧。通俗的介绍这种压缩方式，就是将原来很多的颜色用少量的颜色去表示，这样就可以减小图片大小了。下面首先我先介绍下

kker 2019-04-29

K-means聚类算法介绍与利用python实现的代码示例

今天说K-means聚类算法，但是必须要先理解聚类和分类的区别，很多业务人员在日常分析时候不是很严谨，混为一谈，其实二者有本质的区别。分类其实是从特定的数据中挖掘模式，作出判断的过程。k-means是一种非常常见的聚类算法，在处理聚类任务中经常使用。K-m

yuanran0 2017-11-13

python中实现k-means聚类算法详解

k-means算法实际上就是通过计算不同样本间的距离来判断他们的相近关系的，相近的就会放到同一个类别中去。另一种则是根据具体的需求确定，比如说进行衬衫尺寸的聚类你可能就会考虑分成三类等。完成后我们则需要将每个簇算出平均值，用这个点作为新的质心。

slxshare 2017-11-11

Spark实现K-Means算法代码示例

K-Means算法是一种基于距离的聚类算法，采用迭代的方法，计算出K个聚类中心，把若干个点聚成K类。MLlib实现K-Means算法的原理是，运行多个K-Means算法，每个称为run，返回最好的那个聚类的类簇中心。初始的类簇中心，可以是随机的，也可以是K

yimixgg 2017-10-17

机器学习K-means算法在Python中的实现

K-means是机器学习中一个比较常用的算法，属于无监督学习算法，其常被用于数据的聚类，只需为它指定簇的数量即可自动将数据聚合到多类中，相同簇中的数据相似度较高，不同簇中数据相似度较低。)n_clusters: 簇的个数，即你想聚成几类 init:

rioalian 2017-09-12

campwin

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号