mahout之1-Canopy聚类

xiajlxiajl

2010-07-01

关注关注

1.Canopy聚类

Canopy聚类是一种简单、快速、但不太准确的聚类方法。

该算法需一种快速的近似距离度量方法和两个距离阈值T1>T2。

while(没有标记的数据点){

选择一个没有强标记的数据点p

把p看作一个新Canopyc的中心

离p距离<T1的所有点都认为在c中，给这些点做上弱标记

离p距离<T2的所有点都认为在c中，给这些点做上强标记

}

Canopy聚类常作为更强聚类方法的初始步骤。

mahoutCanopy聚类实现，采用了两个map-reducejob

第一个Joborg.apache.mahout.clustering.canopy.CanopyDriver：

mapper:org.apache.mahout.clustering.canopy.CanopyMapper

对划分到每个mapper的点根据阈值T1，T2标记Canopy，输出在该mapper上所有Canopy的中心；

mahout实现对原算法略做改动，而避免需先保存所有的点

修改后的算法org.apache.mahout.clustering.canopy.addPointToCanopies

对于一个数据点，遍历已有Canopy{

该点到某Canopy距离<T1,则加入该Canopy；

若点到某Canopy距离<T2,则标记该点已于该Canopy强关联；

}

若该点不存在强关联的Canopy，则为其创建一个新Canopy

reducer:org.apache.mahout.clustering.canopy.CanopyReducer

整个Job就一个reduce任务,对mapper输出的所有点再次使用Canopy聚类,并输出中心点

第二个Joborg.apache.mahout.clustering.canopy.ClusterDriver

使用第一个Job输出的中心点，采用最近距离原则对原数据点进行聚类

用Canopy聚类作为其他方法的初始步骤时，通常不执行该Job

参数调整：

当T1过大时，会使许多点属于多个Canopy，可能会造成各个簇的中心点间距离较近，各簇

间区别不明显；

当T2过大时，增加强标记数据点的数量，会减少簇个个数；T2过小，会增加簇的个数，同时

增加计算时间

另外：mahout提供了几种常见距离计算的实现，均实现org.apache.mahout.common.distance.DistanceMeasure接口

CosineDistanceMeasure：计算两向量间的夹角

SquaredEuclideanDistanceMeasure：计算欧式距离的平方

EuclideanDistanceMeasure：计算欧式距离

ManhattanDistanceMeasure：马氏距离，貌似图像处理中用得比较多

TanimotoDistanceMeasure：Jaccard相似度，T(a,b)=a.b/(|a|^2+|b|^2-a.b)

以及带权重的欧式距离和马氏距离。

聚类 mahout apache

xiajlxiajl

0 关注 0 粉丝 0 动态

关注关注

一个基于Mahout与hadoop的聚类搭建

mahout是基于hadoop的数据挖掘工具，因为有了hadoop，所以进行海量数据的挖掘工作显得更为简单。但是因为算法需要支持M/R，所以不是所有常用的数据挖掘算法都会支持。这篇文章会告诉你，如何使用hadoop+mahout搭出一个简易的聚类工具。我使

Harper 2011-09-23

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 5评论 2020-11-11

转录组数据分析思路

转录组紧紧围绕基因表达量和功能分析两部分，结合生物学问题来进行数据分析。高表达基因已经研究比较透彻，应该更多关注中低表达基因。功能富集分析不应过多关注显著P值，功能通路作为一个整体，不应排除差异非显著的基因作用。根据功能来推测生物学过程，需要经验，如胞外信

Fredreck 2020-07-19

k-means聚类算法原理简析

K-means算法是最普及的聚类算法，也是一个比较简单的聚类算法。算法接受一个未标记的数据集，然后将数据聚类成不同的组，同时，k-means算法也是一种无监督学习。那么用k-means算法来解决这个问题会是怎样的呢？完全没有人为的让他进行分类的学习，也没有

horizonheart 2020-07-05

大数据分析领域模型有哪些

数据角度的模型一般指的是统计或数据挖掘、机器学习、人工智能等类型的模型，是纯粹从科学角度出发定义的。因此，我们需要降低维度数量并降低维度间共线性影响。　　数据降维也被成为数据归约或数据约减，其目的是减少参与数据计算和建模维度的数量。　　回归是研究自变量x对

swazerz 2020-06-04

K均值(K-MEANS)

Kmeans是一种简单的聚类方法，一般在数据分析前期使用，选取适当的k，将数据分类后，然后分类研究不同聚类下数据的特点。　　2 令k从2到一个固定值如10，在每个k值上重复运行数次kmeans，并计算当前k的平均轮廓系数，最后选取轮廓系数最大的值对应的k作

路漫 2020-05-30

有了K均值聚类，为什么还需要DBSCAN聚类算法？

聚类本文转载自公众号“读芯术”分析是一种无监督学习法，它将数据点分离成若干个特定的群或组，使得在某种意义上同一组中的数据点具有相似的性质，不同组中的数据点具有不同的性质。聚类分析包括基于不同距离度量的多种不同方法。2014年，DBSCAN算法在领先的数据挖

只能做防骑 2020-05-13

11.分类与监督学习，朴素贝叶斯分类算法

简述分类与聚类的联系与区别。　　　分类简单来说，就是根据文本的特征或属性，划分到已有的类别中。聚类不需要对数据进行训练和学习。有监督学习即人工给定一组数据，每个数据的属性值也给出，对于数据集中的每个样本，我们想要算法预测并给出正确答案：回归问题，分类问题

horizonheart 2020-05-09

11.分类与监督学习，朴素贝叶斯分类算法

　　　　　　聚类是将一系列点分成若干类，事先是没有类别的，常用算法是K-Means算法，是一种无监督学习。　　② 无监督学习：缺乏足够的先验知识；在数据中发现一些规律；任务是聚类和降维。利用关于心脏病患者的临床历史数据集，建立朴素贝叶斯心脏病分类模型。

wonner 2020-05-09

R语言绘图——层次聚类图及树状图添加side bar

聚类分析作图往往包含热图和树状图。热图用来展示每个样本点数值大小和聚集模式。树状图用来表示样本之间以及变量之间的距离远近。R官网目前提供了至少45个可以绘制热图的包，其中比较常见的、可以添加行列注释信息条的聚类作图包有pheatmap、gplots等等。以

NVEFLY 2020-04-19

K-均值聚类（k-means）算法

model_kmeans=KMeans #建立聚类模型对象。colors=['#4EACC5','#FF9C34','#4E9A06'] #设置不同类别的颜色。plt.scatter #展示聚类子集内的样本点。plt.plot #展示各聚类子集的

从早忙到晚的闲人 2020-04-13

Cluster Analysis in Python

Normalize a group of observations on a per feature basis.# Use the whiten() function to standardize the data. # Check mean and s

Yiyang 2020-03-03

请别再把深度学习与机器学习混为一谈了！

机器学习算法通常分为：监督和非监督两种。监督式机器学习又可以进一步被分为：分类和回归。无监督学习则可以进一步分为：聚类、关联、以及降维。它需要在两个或多个类之间进行选择，并最终为每一个类分配概率。显然，在回归和分类的机器学习算法之间有一定的重叠度。聚类问题

sayhaha 2020-02-05

数据建模（）-K-means聚类算法

K-Means算法是典型基于距离的非层次聚类算法，在最小化误差函数的基础上将数据划分为预定的类数K，采用作为相似性的评价指标，即认为2个对象的距离越近，其相似度越大。对连续属性，要先对各属性值进行零-均值规范，再进行距离计算。K-Means聚类算法中，一般

路漫 2020-01-23

机器学习——谱聚类

　　具有在任意形状的样本空间上聚类并且收敛于全局最优解的优点。　　通过对样本数据的拉普拉斯矩阵的特征向量进行聚类，从而达到对样本数据进行聚类的目的;其本质是将聚类问题转换为图的最优划分问题，是一种点对聚类算法。基于图的最优划分规则就是子图内的相似度最大，子

kingzone 2020-01-01

【机器学习】k-means算法原理自实现

from sklearn.cluster import KMeans # 导入k-means. # 获取数据的行数。# # 随机选择一行所有的数据作为一个中心。# 先初始化一个全为0 的聚类中心。# 设计列表来退出循环。# 设计一个计数器来给聚类

lixiaotao 2019-12-29

监督学习与非监督学习

是有特征和标签的，即便是没有标签的，机器也是可以通过特征和标签之间的关系，判断出标签。监督学习是通过训练让机器自己找到特征和标签之间的联系，在以后面对只有特征而没有标签的数据时可以自己判别出标签。相当于给定数据，预测标签。常见的有监督学习算法：回归分析和统

sxyhetao 2019-12-14

聚类算法总结以及python代码实现

使同一类对象的相似度尽可能地大；不同类对象之间的相似度尽可能地小。层次聚类算法实际上分为两类：自上而下或自下而上。因此，自下而上的层次聚类称为合成聚类或HAC。将两个聚类合并为具有最小平均连接的组。此外，该算法对距离度量的选择不敏感;它们的工作方式都很好，

wuxiaosi0 2019-12-06

Python使用RMF聚类分析客户价值

投资机构或电商企业等积累的客户交易数据繁杂。需要根据用户的以往消费记录分析出不同用户群体的特征与价值，再针对不同群体提供不同的营销策略。根据美国数据库营销研究所Arthur Hughes的研究，客户数据库中有三个神奇的要素，这三个要素构成了数据分析最好的指

huimor 2019-12-07

零基础的程序员们，关于大数据挖掘的知识点，都在这里了

下面是一些关于大数据挖掘的知识点，今天和大家一起来学习一下。

nimeijian 2019-12-05

安科网

mahout之1-Canopy聚类

xiajlxiajl

xiajlxiajl

相关推荐

一个基于Mahout与hadoop的聚类搭建

无监督机器学习的重要指南

转录组数据分析思路

k-means聚类算法原理简析

大数据分析领域模型有哪些

K均值(K-MEANS)

有了K均值聚类，为什么还需要DBSCAN聚类算法？

11.分类与监督学习，朴素贝叶斯分类算法

11.分类与监督学习，朴素贝叶斯分类算法

R语言绘图——层次聚类图及树状图添加side bar

K-均值聚类（k-means）算法

Cluster Analysis in Python

请别再把深度学习与机器学习混为一谈了！

数据建模（）-K-means聚类算法

机器学习——谱聚类

【机器学习】k-means算法原理自实现

监督学习与非监督学习

聚类算法总结以及python代码实现

Python使用RMF聚类分析客户价值

零基础的程序员们，关于大数据挖掘的知识点，都在这里了

xiajlxiajl