Hadoop2.0学习(一)
Hadoop版本衍化
第一代Hadoop:Hadoop1.0
包含三大版本:0.20.x 0.21.x 0.22.x CDH3
0.20.x最后演化成1.0.x,变成稳定版
0.21.x和0.22.x增加了NameNode HA等新的重大特性
第二代Hadoop:Hadoop2.0
包含Hadoop0.23.x 2.x 和CDH4,均包含HDFS Federation和YARN两个系统
HDFS Federation:将多个NameNode组成联盟
YARN:资源的统一管理及调度的模块
2.x增加了NameNode HA 和wire-compatibility两个重大特性
Apache软件发布方式:根据新增特性延伸新版本
独立产生Hadoop版本的重大特性
(1) Append
支持文件追加功能
(2) RAID
构建DRFS,在保证数据可靠的前提下,通过引入校验码减少数据块数目
(3) Symlink
支持HDFS文件链接
(4) Security
安全认证和授权机制
(5) MPV1
应用于第一代的MapReduce
(6) MPv2/YARN
YARN资源管理,帮助MapReduce做资源管理
(7) NameNode HA
NameNode的高可用
(8) HDFS Federation
HDFS的联邦
Apache Hadoop的四大分支构成了三个系列的Hadoop版本
0.20.x
Append和Security
0.21.x/0.22.x
Common模块
HDFS模块
MapReduce模块
0.23.x
Common HDFS MapReduce YARN
2.x
0.23.x相比,2.x增加了NameNode和Wire-compatibility
Hadoop2.0版本号
Apache Hadoop
(1)、0.23.x
(2)、2.x.x
CDH4