Mahout驾驭Hadoop之详解

zwjcyz

2013-09-10

众所周知,Mahout是基于Hadoop分布式系统的,要想看懂Mahout的源码,首先得明白mahout是如何使用hadoop的！

首先,在我的<<Hadoop运行原理详解>>一篇中,详细介绍了hadoop的运行机制,这里就不多说了!下面我就以Kmeans聚类算法为例,讲讲mahout如何利用hadoop实现数据挖掘算法并行化.如以下类图所示,

Mahout驾驭Hadoop之详解

该图描述了整个mahout实现Kmeans算法的架构图,首先KmeansCluster继承Cluster,在KmeansCluster中有几个比较重要的方法,首先clusterPoints()是实现Kmeans聚类算法的方法,而其中调用了runKMeansIteration()方法,该方法是单次聚类迭代方法.

尤其可见,这块算法实现和普通kmeans算法没有太大差别!在Mahout针对每个算法都有一个Driver,这个东西是干什么的啊?

我们先看看KMeansDriver源码,KmeansDriver继承了AbstractJob.我们知道Hadoop上的任务都是以Job的形式启动的!我们要使用某个算法进行一项数据挖掘工作,因此就要启动一个Job.因此,KmeansDriver就是创建一个Job,然后对Job的属性进行配置,然后运行该Job.

Mahout驾驭Hadoop之详解

上图反映了KMeansDriver工作原理。

相关阅读：

zwjcyz

0 关注 0 粉丝 0 动态

相关推荐

大数据 hadoop ------ pig 、hive、Mahout、hbase

Pig最早是雅虎公司的一个基于Hadoop的并行处理架构，后来Yahoo将Pig捐献给Apache的一个项目，由Apache来负责维护，Pig是一个基于 Hadoop的大规模数据分析平台。Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口，这一

genshengxiao 2020-02-17

hadoop spark hive storm的发展过程

5、简化map reduce的开发， hive

Yarnyogay 2017-07-25

[Mahout] 使用Mahout 对Kddcup 1999的数据进行分析 -- Naive Bayes

通常，在网上找到的mahout的naive bayes的例子跟官网的例子，都是针对20 newsgroup. 而且通常是命令行版本。虽然能得出预测、分类结果，但是对于Bayes具体是如何工作，以及如何处理自己的数据会比较茫然。在努力了差不多一个星期之后，终

GMCWXH 2014-07-19

[Mahout] 为什么mahout需要sequencefile ?

《Apache Mahout Cook》第二章的标题是：Using Sequence Files – When and Why ?看了半天也没看懂需要sequence file的原因。其实是因为我对hadoop不了解。sequence file 是had

NeboFeng 2014-07-17

大数据系列9：Mahout – 机器学习

VL-19代表这是一个cluster，n=161代表该cluster有161个点，c=[...]代表该cluster的中心向量点，r=[...]代表cluster的半径

ApachePHPMySQL 2013-10-02

Apache Mahout的Taste基于Hadoop实现协同过滤推荐引擎的代码分析

一个人的世界 2012-03-28

mahout安装配置

Collaborative Filtering User and Item based recommenders K-Means,Fuzzy K-Means clustering Mean Shift clustering Dirichlet proces

hanwentan 2011-07-27

Mahout详细安装过程

同样，修改第二个文件。集群包含三个节点：1 个 namenode，2 个 datanode，节点之间局域网连接，可以相互 ping 通。节点 IP 地址分布如下：。三台节点上均是CentOS系统，Hadoop在/root/hadoop/目录下。Enter

junzhenchen 2012-02-10

利用nutch-1.2和Lucene 搭建自己的搜索平台， Apache Mahout 构建社会化推荐引擎

Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:. 　　Nutch是基于Lucene的。Lucene为Nutch提供了文本索引和搜索的API。在这种情况下，最好的方式

繌子 2011-04-17

mahout之1-Canopy聚类

Canopy聚类是一种简单、快速、但不太准确的聚类方法。该算法需一种快速的近似距离度量方法和两个距离阈值T1>T2。Canopy聚类常作为更强聚类方法的初始步骤。对划分到每个mapper的点根据阈值T1，T2标记Canopy，输出在该mapper上所

xiajlxiajl 2010-07-01

一个基于Mahout与hadoop的聚类搭建

mahout是基于hadoop的数据挖掘工具，因为有了hadoop，所以进行海量数据的挖掘工作显得更为简单。但是因为算法需要支持M/R，所以不是所有常用的数据挖掘算法都会支持。这篇文章会告诉你，如何使用hadoop+mahout搭出一个简易的聚类工具。我使

Harper 2011-09-23

Mahout 结果目录详解

运行官网上的mahoutkmeas示例，结果文件夹有clusteredPoints，clusters-N，data，用命令mahout seqdumper仔细看了一下结果文件。clusters-N：是第N次聚类的结果，其中n为某类的样本数目，c为各类各属性

Sweeneyzuo 2018-07-11

Mahout源码目录说明

Mahout项目是由多个子项目组成的，各子项目分别位于源码的不同目录下，下面对Mahout的组成进行介绍：1、mahout-core：核心程序模块，位于/core目录下；2、mahout-math：在核心程序中使用的一些数据通用计算模块，位于/math目录

godot0 2017-04-27

Mahout源码分析：并行化FP-Growth算法

FP-Growth是一种常被用来进行关联分析，挖掘频繁项的算法。与Aprior算法相比，FP-Growth算法采用前缀树的形式来表征数据，减少了扫描事务数据库的次数，通过递归地生成条件FP-tree来挖掘频繁项。参考资料[1]详细分析了这一过程。事实上，面

danwenxuan 2016-01-26

Mahout安装测试

Mahout 是 Apache Software Foundation 旗下的一个开源项目，提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。Apache Mahout项目已经发展到了它的第三个年头，目前已经有了三

loveyy 2014-09-08

Mahout0.9 打patch使其支持 Hadoop2.2.0

引言Mahout0.9之前的版本默认不支持Hadoop2.2.0以上版本，但很多情况下，由于集群环境的Hadoop已经是2.2.0以上版本，又必须使用Mahout，此时就需要编译源码，使得Mahout支持Hadoop2了。Hadoop2.2+Mahout0

xuexi 2014-09-07

Hadoop2.2+Mahout0.9实战

首先说明下，如果使用官网提供的下载hadoop2.2.0以及mahout0.9进行调用mahout的相关算法会报错。这个是因为目前mahout只支持hadoop1 的缘故。主要就是修改pom文件，修改mahout的依赖。环境配置好了之后，需要添加mahou

shenghaomail 2014-04-09

mahout-0.7-cdh4.5.0安装

由此可见，安装mahout的服务器必须先安装hadoop。

陈先森 2014-03-21

Hadoop集群中的Mahout-distribution-0.7安装与配置

Mahout是Hadoop的一种高级应用。运行Mahout需要提前安装好Hadoop，Mahout只在Hadoop集群的NameNode节点上安装一个即可，其他数据节点上不需要安装。当然，这种方法并不准确，可以通过接下来的步骤进行验证。clusteredP

hadoop 2014-01-01

在Hadoop上跑mahout程序的问题备忘

直接使用eclipse来运行带有第三方引用的程序时，这个plugin似乎无法将第三方所需要的包上传到Hadoop中，需要动手修改这个插件，可是代码下载不下来，坑爹啊。这样由于运行的程序中没有包含mahout的包，导致这个方法出错。这样可以使用Eclipse

kbh 2012-07-11

zwjcyz

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号