Hadoop 键值对的MapReduce过程剖析

surpassli

2012-10-22

Hadoop的Mapreduce是一个分布并行处理大数据的程序框架，一个Map/Reduce 作业（job）通常会把输入的数据集切分为若干独立的数据块，由 map任务（task）以完全并行的方式处理它们。框架会对map的输出先进行排序，然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。

MapReduce程序是通过键值对来操作数据的，其单个输入输出形式如下：

map: key1,value1 ----> list(key2,value2)

reduce: (key2,list(value2))----> key3,value3

一、Mapreduce操作的数据也是保存在文件系统HDFS上，InputFormat接口定义的就是如何读取文件和分割文件提供分片给mapper，TextInputFormat文本格式输入是InputFormat的默认实现类

它主要负责：

1. 把输入文件切分成多个逻辑InputSplit实例，并把每一实例分别分发给一个 Mapper.

2.提供RecordReader的实现，这个RecordReader从逻辑InputSplit中获得输入记录，这些记录将由Mapper处理

二、在input输入的进来的(key1,value1)经过mapper处理变成list(key2,value2)，可由combiner进行进行一次本地聚合，减少mapper输出的list(key2,value2)的数量

三、对于mapper的的结果，然后在经过shuffle阶段由partitioner定义如何分配(key,value)给reducer作为输入(key2,list(value2))进行最后的合并，得到输出结果(key3,value3)

四、与InputFormat对应，如何将mapreduce的结果输出是由OutputFormat接口来定义的，每个reducer将自己的输入写入自己的文件中，而RecordWriter对象将输出结果进行格式化的

摘自官方文档上的WordCount数据示例部分来分析下mapreduce中(key,value)是如果分解合并的
文件file0: Hello World Bye World
file1: Hello Hadoop Goodbye Hadoop

第一个输入，默认的采用TextInputFormat的map输入（key:一行的字节偏移 value：就是这行的内容）
输出是：
< Hello, 1>
< World, 1>
< Bye, 1>
< World, 1>
第二个输入，map输出是：
< Hello, 1>
< Hadoop, 1>
< Goodbye, 1>
< Hadoop, 1>

Map运行之后，会对输出按照key进行排序，然后把输出传递给本地的combiner（按照作业的配置与Reducer一样），进行本地聚合，数据不会在节点上传输的
所以第一个map的输出会变成：
< Bye, 1>
< Hello, 1>
< World, 2>
第二个map的输出会变成：
< Goodbye, 1>
< Hadoop, 2>
< Hello, 1>
然后在经过shuffle阶段把map的结果传给Reducer，将每个key（本例中就是单词）出现的次数求和，节点间的
数据交换就是在shuffle阶段的，至于每个(key,value)是如何分配给不同的reduce是通过Partitioner指定的，默认采用的是HashPartitioner。
最后这个作业的输出就是：
< Bye, 1>
< Goodbye, 1>
< Hadoop, 2>
< Hello, 2>
< World, 2>

mapreduce hadoop mapreduce实例数据处理 mapper

安科网

Hadoop 键值对的MapReduce过程剖析

surpassli

surpassli

相关推荐

hadoop框架三大组件hdfs、mapreduce、yarn 内容

JStorm介绍

Hadoop大实验——MapReduce的操作

实验6：Mapreduce实例——WordCount

动手写的第一个MapReduce程序--wordcount

hadoop 学习笔记：mapreduce框架详解

mapreduce求topN

HBase与MapReduce交互

分布式计算框架——MapReduce

Hadoop之MapReduce学习(三)之ip去重、MaxScore示例、TotalScoreMapper示例

HBase和MapReduce

MapReduce(分布式计算)_01

MapReduce编程模型

bitmap、Trie、数据库索引、倒排索引、外排序、Mapreduce

MapReduce的使用

Hadoop基础---MapReduce对数据进行排序

Hadoop——MapReduce介绍

Hadoop架构及集群

MapReduce编程实战（2）-词频统计结果存入mysql数据库

MapReduce和Hive学习文档链接学习顺序

surpassli