大数据时代之hadoop：了解hadoop数据流（生命周期）

端茶倒水个体户

2014-11-11

了解hadoop，首先就需要先了解hadoop的数据流，就像了解servlet的生命周期似的。hadoop是一个分布式存储（hdfs）和分布式计算框架（mapreduce），但是hadoop也有一个很重要的特性：hadoop会将mapreduce计算移动到存储有部分数据的各台机器上。

术语

MapReduce 作业（job）是客户端需要执行的一个工作单元：它包括输入数据、mapreduce程序和配置信息。hadoop将作业分成若干个小任务（task）来执行，其中包括两类任务：map任务和reduce任务。

有两类节点控制着作业执行过程：一个jobtracker及一系列tasktracker。 jobtracker通过调度tasktracker上运行的任务，来协调所有运行在系统上的作业。tasktracker在运行任务的同时将运行进度报告发送给jobtracker，jobtracker由此记录每项作业任务的整体进度情况。如果其中一个任务失败，jobtracker可以在另外一个 tasktracker节点上重新调度该任务。

输入

hadoop将mapreduce的输入数据划分成等长的小数据块，称为输入分片（input split）或简称分片。hadoop为每个分片构建一个map任务，并由该任务来运行用户自定义的map函数从而处理分片中的每条记录。对于大多数作业来说，一个合理的分片大小趋向于HDFS的一个块的大小，默认是64M，不过可以针对集群调整这个默认值。分片的大小一定要根据运行的任务来定，如果分片过小，那么管理分片的总时间和构建map任务的总时间将决定着作业的整个执行时间。

hadoop在存储有输入数据的节点上运行map任务，可以获得最佳性能，这就是所谓的数据本地化优化。因为块是hdfs存储数据的最小单元，每个块可以在多个节点上同时存在（备份），一个文件被分成的各个块被随机分部在多个节点上，因此如果一个map任务的输入分片跨越多个数据块，那么基本上没有一个节点能够恰好同时存在这几个连续的数据块，那么map任务就需要首先通过网络将不存在于此节点上的数据块远程复制到本节点上再运行map函数，那么这种任务显然效率非常低。

输出

map任务将其输出写入到本地磁盘，而非HDFS。这是因为map的输出是中间结果：该中间结果有reduce任务处理后才产生最终结果（保存在hdfs中）。而一旦作业完成，map的输出结果可以被删除。

reduce任务并不具备数据本地化优势：单个reduce任务的输入通常来自于所有的mapper任务的输出。reduce任务的输出通常存储于HDFS中以实现可靠存储。

数据流

作业根据设置的reduce任务的个数不同，数据流也不同，但大同小异。reduce任务的数量并非由输入数据的大小决定的，而是可以通过手动配置指定的。

hadoop hdfs 数据处理

安科网

大数据时代之hadoop：了解hadoop数据流（生命周期）

端茶倒水个体户

端茶倒水个体户

相关推荐

hadoop伪分布式环境搭建

hadoop框架三大组件hdfs、mapreduce、yarn 内容

hdfs、hive、hbase的搭建总结

hadoop集群的启动与停止

hadoop创建目录

[AWS][大数据][Hadoop] 使用EMR做大数据分析

Hadoop

大数据期末复习重点

Hadoop之hadoop fs和hdfs dfs、hdfs fs三者区别

hadoop两个namenode都是standby问题

Hadoop之HDFS入门实战

hadoop 数据处理总结

Hadoop简介

hadoop hdfs csv导入hive表

想了解大数据的鼻祖Hadoop技术栈，这里有一份优质书单推荐！

Hive安装，以及一些问题处理

Hadoop3.2.0集群搭建常见注意事项

为什么Java仍将是未来的主流语言？

_服役新节点，退役旧节点，多目录配置。+_HDFS2.x的新特性

Hadoop（一）安装

端茶倒水个体户