MapReduce学习(五):MapReduce的执行过程及代码实战

1. MapReduce执行过程简介

MapReduce执行过程可从两个维度理解:

第一个维度:从mapreduce的作业执行过程维度理解。

第二个维度:从map,shuffle,reduce等三个mapreduce的核心任的维度理解

2. mapreduce的作业执行过程维度

MapReduce学习(五):MapReduce的执行过程及代码实战

3. mapreduce的作业执行过程介绍

(1)MR过程中核心角色介绍:

1)JobTracker: 负责接收用户提交的作业,负责启动,跟踪任务,:初始化作业,分配作业协调监控整个作业

2)JobClient::用户作业与JobTracker交互的主要接口,负责提交作业,负责启动,跟踪任务的执行,访问任务状态和日志

3)TaskTracker:定期与JobTracker通信,执行Map和Reduce任务

4)HDFS:保存作业的数据,配置,jar包,结果

(2)流程分析:

MapReduce学习(五):MapReduce的执行过程及代码实战

4. mapreduce的map、shuffle、reduce任务维度图

MapReduce学习(五):MapReduce的执行过程及代码实战

5. mapreduce的map、shuffle、reduce过程介绍

MapReduce学习(五):MapReduce的执行过程及代码实战

6. MapReduce典型案例的编写步骤:

第一步:编写代码类:WordCount(见后边的代码实例)

第二步:编译并打成jar包

第三步:上传到hadoop所在机器文件夹下。比如:放在hadoop的根目录的code文件夹下。(code是自己创建的)

第四步:在hadoop上创建输入文件夹和文件,

创建文件夹:/user/root/input. 核心命令是:hadoop fs –mkdir <文件夹>

将linux本地的文件挪动到hadoop的上述文件夹下。核心命令是:hadoop fs -put <local file > < hdfs file >

文件名师test.txt 里边的内容是:

dfdfadgdgag

Aadads

fudflcl

Fudflcl

fuck

第五步:在hadoop的bin目录下,执行以下命令:

hadoop jar ../code/hadoopst.jar com/gongyunit/hadoop/hdfsst/WordCount

7. MapReduce的典型代码实例:个数统计

MapReduce学习(五):MapReduce的执行过程及代码实战

MapReduce学习(五):MapReduce的执行过程及代码实战


MapReduce学习(五):MapReduce的执行过程及代码实战

相关推荐