Hadoop
一、概述
1.Hadoop 是 Apache提供的开源的、可靠的、可扩展的,用于分布式计算的框架
2.Hadoop 除了官网提供的发行版本以外,各大厂商也提供了发行版:Cloudera的CDH、华为的HDP
二、发展
1.创始人:Doug Cutting和Mike Cafarella
2.在2002年,Doug和Mike为了实现搜索引擎Nutch爬取了全网的10亿个网页的数据
3.在2003年,Google发表了《The Google FileSystem》(GFS)阐述了google分布式存储的原理,但是并没有公开这个框架
4.在2004年,Doug和Mike根据google论文设计实现的NDFS - Nutch Distributed FileSystem,解决了海量数据的存储
5.在2004年,Google发表了一篇关于Google的分布式计算的思想,同样这篇论文也没有公开框架的使用
6.Doug和Mike又根据这篇论文设计实现了用于Nutch的MapReduce
7.在Nutch0.8版本,Doug和NDFS和MapReduce从Nutch中分离出来组成了Hadoop,同时将NDFS改为HDFS
8.在2008年,Doug加入了Yahoo,开源了Hadoop,在Yahoo期间设计实现了Pig、HBase等框架
9.Yahoo将Hadoop、Pig、HBase等全部贡献了Apache
三、Hadoop模块
1.Hadoop Common:基本模块,用于支持其他模块
2.Hadoop Distributed FileSystem:分布式文件系统,用于存储数据
3.Hadoop Yarn:用于进行任务调度和资源管理
4.Hadoop MapReduce:基于Yarn进行并行计算的框架
5.Hadoop Ozone:用于进行对象存储 - 基于HDFS
6.Hadoop Submarine:用于机器学习的引擎
四、版本
1.Hadoop1.0:包含来的HDFS以及MapReduce
2.Hadoop2.0:包含来的HDFS、MapReduce以及Yarn。Hadoop2.0和Hadoop1.0完全不兼容,在Hadoop2.0的高版本中也支持Ozone
3.Hadoop3.0:包含了Hadoop所有的模块 - 2017.12
五、安装
1.单机:安装包解压之后就能使用,此时就是单机模式,在单机模式下,只能使用其中的MapReduce组件,其他组件不生效,此时数据默认是存储在本机文件系统中
2.伪分布式:利用一个节点来模拟集群环境,在一个节点上去启动集群中所有需要的进程 - 优势在于可以使用hadoop的所有组件
3.完全分布式:利用集群来部署Hadoop