Hadoop MapReduce数据流

shenhongdb

2012-02-17

Hadoop的核心组件在一起工作时如下图所示：

Hadoop MapReduce数据流

图4.4高层MapReduce工作流水线

MapReduce的输入一般来自HDFS中的文件，这些文件分布存储在集群内的节点上。运行一个MapReduce程序会在集群的许多节点甚至所有节点上运行mapping任务，每一个mapping任务都是平等的：mappers没有特定“标识物”与其关联。因此，任意的mapper都可以处理任意的输入文件。每一个mapper会加载一些存储在运行节点本地的文件集来进行处理（译注：这是移动计算，把计算移动到数据所在节点，可以避免额外的数据传输开销）。

　　当mapping阶段完成后，这阶段所生成的中间键值对数据必须在节点间进行交换，把具有相同键的数值发送到同一个reducer那里。Reduce任务在集群内的分布节点同mappers的一样。这是MapReduce中唯一的任务节点间的通信过程。map任务间不会进行任何的信息交换，也不会去关心别的map任务的存在。相似的，不同的reduce任务之间也不会有通信。用户不能显式的从一台机器封送信息到另外一台机器；所有数据传送都是由Hadoop MapReduce平台自身去做的，这些是通过关联到数值上的不同键来隐式引导的。这是Hadoop MapReduce的可靠性的基础元素。如果集群中的节点失效了，任务必须可以被重新启动。如果任务已经执行了有副作用（side-effect）的操作，比如说，跟外面进行通信，那共享状态必须存在可以重启的任务上。消除了通信和副作用问题，那重启就可以做得更优雅些。

近距离观察

　　在上一图中，描述了Hadoop MapReduce的高层视图。从那个图你可以看到mapper和reducer组件是如何用到词频统计程序中的，它们是如何完成它们的目标的。接下来，我们要近距离的来来看看这个系统以获取更多的细节。

Hadoop MapReduce数据流

图4.5细节化的Hadoop MapReduce数据流

　　图4.5展示了流线水中的更多机制。虽然只有2个节点，但相同的流水线可以复制到跨越大量节点的系统上。下去的几个段落会详细讲述MapReduce程序的各个阶段。

Hadoop MapReduce数据流

font-family mapreduce sans hadoop

安科网

Hadoop MapReduce数据流

shenhongdb

shenhongdb

相关推荐

Ubuntu 安装Docker

性能测试综述

Nginx+Tomcat+Terracotta的Web服务器集群实做

Linux解压文件

如何根据云服务中提取的数据来推断出用户的位置？

jackson gson

让数据处理更简单？百度EasyData推出首个高级智能数据清洗功能

几维安全用代码虚拟化技术解决IOT安全核心痛点，让万物互联更安全

小白也可以玩转的炫酷大屏！

数据科学家、开发者的新神器 Amazon SageMaker正式上线中国区

安卓移动应用代码安全加固系统设计及实现

批量服务器管理软件批量管理服务器

css之font

css备份

关于ie6不支持png的解决方法（记录）

myeclipse 无法复制粘贴代码解决方法

Chrome 浏览器中很酷的实验性功能

rails常用命令

浏览器缓存机制

reset 移动端

shenhongdb