初识Hadoop
一、Hadoop概述
1、Hadoop名字是由Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名,Hadoop是Apache开源的分布式存储+分布式计算平台。Hadoop能搭建大型数据仓库、PB级数据的存储、处理、分析、统计等业务,如搜索引擎、日志分析、商业智能、数据挖掘
2、狭义Hadoop:是一个适合大数据分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)的平台
3、广义Hadoop:指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,hadoop是其中最重要最基础的一个部分;生态系统中每一个子系统只解决某一个特定的问题域(甚至可能很窄),不搞统一型的全能系统,而是小而精的多个小系统
二、Hadoop核心组件
1、Hadoop核心组件之分布式文件系统HDFS
源自于Google的GFS论文,论文发表于2003年10月
HDFS是GFS的克隆版
HDFS特点:扩展性&容错性&海量数据存储
将文件切分成指定大小的数据块并以多副本的存储在多个机器上
数据切分、多副本、容错等操作对用户是透明的
2、Hadoop核心组件之资源调度系统YARN(Yet Another Resource Negotiator)
负责整个集群资源的管理和调度
特点:扩展性&容错性&多框架资源统一调度
3、Hadoop核心组件之分布式计算框架MapReduce
源自于Google的MapReduce论文,论文发表于2004年12月
MapReduce是Google MapReduce的克隆版
特点:扩展性&容错性&海量数据离线处理
三、Hadoop优势
1、Hadoop优势之高可靠性
数据存储:数据块多副本
数据计算:重新调度作业计算
2、Hadoop优势之高扩展性
存储/计算资源不够时,可以横向的线性扩展机器
一个集群中可以包含数以千计的节点
3、Hadoop优势之其他
存储在廉价机器上,降低成本
成熟的生态圈
四、Hadoop发展史
参考:https://www.infoq.cn/article/hadoop-ten-years-interpretation-and-development-forecast
五、Hadoop生态系统
Hadoop生态系统的特点
1、开源、社区活跃
2、囊括了大数据处理的方方面面
3、成熟的生态圈
六、Hadoop发行版的选择
1、Apache Hadoop
2、CDH:Cloudera Distributed Hadoop
3、HDP:Hortonworks Data Platform
CDH下载地址,拷贝以下地址到浏览器访问:archive.cloudera.com/cdh5/cdh/5/