Hadoop 键值对的MapReduce过程剖析

Hadoop的Mapreduce是一个分布并行处理大数据的程序框架,一个Map/Reduce 作业(job) 通常会把输入的数据集切分为若干独立的数据块,由 map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序, 然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。

MapReduce程序是通过键值对来操作数据的,其单个输入输出形式如下:

map: key1,value1 ----> list(key2,value2)

reduce: (key2,list(value2))----> key3,value3

一、Mapreduce操作的数据也是保存在文件系统HDFS上,InputFormat接口定义的就是如何读取文件和分割文件提供分片给mapper,TextInputFormat文本格式输入 是InputFormat的默认实现类

它主要负责:

1. 把输入文件切分成多个逻辑InputSplit实例, 并把每一实例分别分发给一个 Mapper.

2.提供RecordReader的实现,这个RecordReader从逻辑InputSplit中获得输入记录, 这些记录将由Mapper处理

二、在input输入的进来的(key1,value1)经过mapper处理变成list(key2,value2),可由combiner进行进行一次本地聚合,减少mapper输出的list(key2,value2)的数量

三、对于mapper的的结果,然后在经过shuffle阶段由partitioner定义如何分配(key,value)给reducer作为输入(key2,list(value2))进行最后的合并,得到输出结果(key3,value3)

四、与InputFormat对应,如何将mapreduce的结果输出是由OutputFormat接口来定义的,每个reducer将自己的输入写入自己的文件中,而RecordWriter对象将输出结果进行格式化的

摘自官方文档上的WordCount数据示例部分来分析下mapreduce中(key,value)是如果分解合并的 
文件file0:  Hello World Bye World 
  file1:  Hello Hadoop Goodbye Hadoop 
 
第一个输入,默认的采用TextInputFormat的map输入 (key:一行的字节偏移 value:就是这行的内容) 
输出是: 
< Hello, 1> 
< World, 1> 
< Bye, 1> 
< World, 1> 
第二个输入,map输出是: 
< Hello, 1> 
< Hadoop, 1> 
< Goodbye, 1> 
< Hadoop, 1> 
 
Map运行之后,会对输出按照key进行排序,然后把输出传递给本地的combiner(按照作业的配置与Reducer一样),进行本地聚合,数据不会在节点上传输的 
所以第一个map的输出会变成: 
< Bye, 1> 
< Hello, 1> 
< World, 2> 
第二个map的输出会变成: 
< Goodbye, 1> 
< Hadoop, 2> 
< Hello, 1> 
然后在经过shuffle阶段把map的结果传给Reducer,将每个key(本例中就是单词)出现的次数求和,节点间的 
数据交换就是在shuffle阶段的,至于每个(key,value)是如何分配给不同的reduce是通过Partitioner指定的,默认采用的是HashPartitioner。 
最后这个作业的输出就是: 
< Bye, 1> 
< Goodbye, 1> 
< Hadoop, 2> 
< Hello, 2> 
< World, 2> 

相关推荐