MapReduce学习(五):MapReduce的执行过程及代码实战
1. MapReduce执行过程简介
MapReduce执行过程可从两个维度理解:
第一个维度:从mapreduce的作业执行过程维度理解。
第二个维度:从map,shuffle,reduce等三个mapreduce的核心任的维度理解
2. mapreduce的作业执行过程维度
3. mapreduce的作业执行过程介绍
(1)MR过程中核心角色介绍:
1)JobTracker: 负责接收用户提交的作业,负责启动,跟踪任务,:初始化作业,分配作业协调监控整个作业
2)JobClient::用户作业与JobTracker交互的主要接口,负责提交作业,负责启动,跟踪任务的执行,访问任务状态和日志
3)TaskTracker:定期与JobTracker通信,执行Map和Reduce任务
4)HDFS:保存作业的数据,配置,jar包,结果
(2)流程分析:
4. mapreduce的map、shuffle、reduce任务维度图
5. mapreduce的map、shuffle、reduce过程介绍
6. MapReduce典型案例的编写步骤:
第一步:编写代码类:WordCount(见后边的代码实例)
第二步:编译并打成jar包
第三步:上传到hadoop所在机器文件夹下。比如:放在hadoop的根目录的code文件夹下。(code是自己创建的)
第四步:在hadoop上创建输入文件夹和文件,
创建文件夹:/user/root/input. 核心命令是:hadoop fs –mkdir <文件夹>
将linux本地的文件挪动到hadoop的上述文件夹下。核心命令是:hadoop fs -put <local file > < hdfs file >
文件名师test.txt 里边的内容是:
dfdfadgdgag
Aadads
fudflcl
Fudflcl
fuck
第五步:在hadoop的bin目录下,执行以下命令:
hadoop jar ../code/hadoopst.jar com/gongyunit/hadoop/hdfsst/WordCount
7. MapReduce的典型代码实例:个数统计
相关推荐
通过实现MapReduce计算结果保存到MySql数据库过程,掌握多种方式保存计算结果的技术,加深了对MapReduce的理解;创建maven项目,项目名称hdfs,这里不再说明。红色部分为增加内容: