Hadoop学习三十四：Hadoop-MapReduce Job本地运行流程

system0

2014-03-27

一. 版本环境

以前工作的过程中，陆陆续续看过一些Hadoop1.0 MapReduce的源码，但没有形成体系。现在再次来看，顺便记录。此次学习版本的是Hadoop2.2.0 MapReduce。环境为直接在Win7下Local模式调试。MapReduce。

二. Job提交流程

从Job waitForCompletion开始

1 Job submit

1.1 JobSubmitter submitJobInternal

1.1.1 JobSubmissionFiles.getStagingDir 初始化Job系统工作目录jobStagingArea。如D:\tmp\hadoop-root\mapred\staging\rootXXXXXXXXXX\.staging。

1.1.2 获得JobID。如job_localXXXXXXXXXX_0001。

1.1.3 copyAndConfigureFiles copy Job Jar到submitJobDir = new Path(jobStagingArea, jobId.toString())。

1.1.4 writeSplits，将input划分为split，并将split数据和split元数据写入系统工作目录，最后返回split的数目。input如下 Hadoop学习三十四：Hadoop-MapReduce Job本地运行流程

1.1.4.1 调用TextInputFormat getSplits方法获得split，集群环境BlockSize为128M，所以145M的test-data.txt被划分为两个split。相关算法自己去看，提供两个数据BlockLocation[0,134217728,201slave,203slave,202slave, 134217728,18093772,201slave,203slave,202slave]，InputSplit[hdfs://192.168.1.200:9000/user/root/input/test-data.txt:0+134217728, hdfs://192.168.1.200:9000/user/root/input/test-data.txt:134217728+18093772]

1.1.4.2 JobSplitWriter.createSplitFiles将split数据和split元数据写入系统工作目录。

1.1.5 writeConf，将配置文件写到系统工作目录。此时系统工作目录如下 Hadoop学习三十四：Hadoop-MapReduce Job本地运行流程

1.1.6 LocalJobRunner submitJob

1.1.6.1 new Job

1.1.6.1.1 Job初始化

1.6.1.1.1.1 systemJobDir就是上面的submitJobDir，systemJobFile = submitJobDir\job.xml

1.1.6.1.1.2 将配置文件写入本地工作目录localJobDir\localJobFile。如D:\tmp\hadoop-root\mapred\local\localRunner\root\job_localXXXXXXXXXX_0001\job_localXXXXXXXXXX_0001.xml。此时，本地工作目录如下 Hadoop学习三十四：Hadoop-MapReduce Job本地运行流程

1.1.6.1.2 Job run

三. Job run流程

Job run方法很大，是整个Job执行的核心框架，自定义的Mapper和Reduce都会在这里被调起。我把这个方法单独拿出来说。

1 创建OutputCommitter

2 从系统工作目录split数据和元数据文件里获得split信息TaskSplitMetaInfo[]

3 根据TaskSplitMetaInfo[]创建List<MapTaskRunnable>，显然会有两个MapTaskRunnable

4 ExecutorService运行每个MapTaskRunnable

4.1创建MapTask并执行run

4.2 runNewMapper

4.2.1 反射创建自定义的Mapper mapper

4.2.2 反射创建InputFormat

4.2.3 从系统工作目录文件里获得此MapTask的split

4.2.4 反射创建RecordReader

4.2.5 反射创建RecordWriter output

4.2.6 创建MapContextImpl

4.2.7 mapper.run(mapperContext)，可能涉及到数据的spill。

4.2.8 output.close(mapperContext)，涉及到数据的sort spill combin merge。

5 等待每个MapTaskRunnable运行完。但两个MapTaskRunnable都运行完，如下图 Hadoop学习三十四：Hadoop-MapReduce Job本地运行流程

6 将Mapper的结果mv & rename到Reduce的本地工作目录，此时 Hadoop学习三十四：Hadoop-MapReduce Job本地运行流程

7 创建ReduceTask并执行run

7.1 merge & sort

7.2 runNewReducer

7.2.1 反射创建Reducer

7.2.2 反射创建RecordWriter，准备好临时目录流。参考类FileOutputFormat

/**
   * Get the default path and filename for the output format.
   * @param context the task context
   * @param extension an extension to add to the filename
   * @return a full path $output/_temporary/$taskid/part-[mr]-$id
   * @throws IOException
   */
  public Path getDefaultWorkFile(TaskAttemptContext context,
                                 String extension) throws IOException{
    FileOutputCommitter committer = 
      (FileOutputCommitter) getOutputCommitter(context);
    return new Path(committer.getWorkPath(), getUniqueFile(context, 
      getOutputName(context), extension));
  }

7.2.3 调用自己的Reduce，将结果输出到临时目录下

8 OutputCommitter将Reduce的结果mv到output下 Hadoop学习三十四：Hadoop-MapReduce Job本地运行流程

9 清理以下目录

9.1 系统工作目录systemJobFile.getParent()

9.2 本地工作目录localJobFile

四. 大流程

最后用一张图总结本文

Hadoop学习三十四：Hadoop-MapReduce Job本地运行流程

再补充一下：本地MapReduce执行时，有几个线程来运行MapTask

int maxMapThreads = job.getInt(LOCAL_MAX_MAPS, 1);

maxMapThreads = Math.min(maxMapThreads, this.numMapTasks);
maxMapThreads = Math.max(maxMapThreads, 1); // In case of no tasks.

ExecutorService executor = Executors.newFixedThreadPool(maxMapThreads, tf);

实际上就是Math.max(Math.min(maxMapThreads, this.numMapTasks), 1)

hadoop

安科网

Hadoop学习三十四：Hadoop-MapReduce Job本地运行流程

system0

system0

相关推荐

Hadoop3.2.0集群搭建常见注意事项

为什么Java仍将是未来的主流语言？

hadoop伪分布式环境搭建

_服役新节点，退役旧节点，多目录配置。+_HDFS2.x的新特性

Hadoop（一）安装

第四周练习

Hadoop小练习

hadoop框架三大组件hdfs、mapreduce、yarn 内容

Hadoop基础（三十三）：Zookeeper 分布式安装部署

Hadoop基础（二十二）：Shuffle机制（三）

hdfs、hive、hbase的搭建总结

NameNode和Zookeeper的format作用

hadoop集群的启动与停止

JStorm介绍

Hadoop2.7.7 centos7 完全分布式配置与问题随记

Hadoop Yarn工作机制 Job提交流程

【赵强老师】大数据工作流引擎Oozie

Hadoop

入门大数据---Spark开发环境搭建

hadoop创建目录

system0