使用Ambari快速部署Hadoop大数据环境

NA

2014-05-10

前言

做大数据相关的后端开发工作一年多来,随着Hadoop社区的不断发展,也在不断尝试新的东西,本文着重来讲解下Ambari,这个新的Apache的项目,旨在让大家能够方便快速的配置和部署Hadoop生态圈相关的组件的环境,并提供维护和监控的功能.

作为新手,我讲讲我自己的学习经历,刚刚开始学习的时候,当然最简单的 Google 下Hadoop ,然后下载相关的包,在自己的虚拟机(CentOS 6.3) 上安装一个单机的Hadoop版本用来做测试,写几个测试类,然后做下CRUD测试之类的,跑跑Map/Reduce的测试,当然这个时候对于Hadoop还不是很了解,不断的看别人的文章,了解下整体的架构,自己所做的就是修改conf下的几个配置文件,让Hadoop能够正常的跑起来,这个时候几种在修改配置上,这个阶段之后,又用到了HBase,这个Hadoop生态圈的另外一个产品,当然还是修改配置,然后 start-all.sh , start-hbase.sh 把服务起起来,然后就是修改自己的程序,做测试,随着用Hbase 学了下 Zookeeper 和Hive等, 接着过了这个操作阶段了之后,开始研究Hadoop2.0, 算是对Hadoop的生态圈整体有一些了解,介于自己在公司所承担的开发所涉及到相关的技术仅仅就这些.但是作为一个爱好探索的人,是否想多了解下呢,它的性能怎么样? 它是具体如何运作的? 看大公司的那些PPT,人家(淘宝等大公司)动不动就是几十个,几百个,乃至几千个节点,人家是如何管理的,性能是怎么样的?看着PPT里面的那些性能测试的曲线,你是否也能够详细的了解,并且对自己的项目进行性能调优呢? 我貌似找到答案了,那就是 Ambari , 由 HortonWorks 开发的一个Hadoop相关的项目,具体可以上官方去了解.

--------------------------------------分割线 --------------------------------------

相关阅读：

--------------------------------------分割线 --------------------------------------

了解Hadoop生态圈

现在我们经常看到的一些关键字有: HDFS,MapReduce,HBase,Hive,ZooKeeper,Pig,Sqoop,Oozie,Ganglia,Nagios,CDH3,CDH4,Flume,Scribe,Fluented,HttpFS等等,其实应该还有更多,Hadoop生态圈现在发展算是相当繁荣了,而在这些繁荣的背后又是谁在推动的呢? 读过Hadoop历史的朋友可能知道,Hadoop最早是始于Yahoo,但是现在主要是由 HortonWorks 使用Ambari快速部署Hadoop大数据环境和 Cloudera 这2家公司在维护者,大部分的commiter 都属于这2家公司,所以现在市面上看到的主要有2个版本,CDH系列,和社区版, 我最早用的是社区版本,后来换到CDH3,现在又换回社区版,因为有Ambari.当然,用什么和不用什么,只要自己的技术到家,还是都能修改的跑的正常的.这里就不多说了. 讲了这么多废话了,开始讲 Ambari安装吧.

开始部署

首先了解下Ambari, 项目地址在:http://incubator.apache.org/ambari/

安装文档在: http://incubator.apache.org/ambari/1.2.2/installing-hadoop-using-ambari/content/index.html

以下说说我自己的安装过程.

机器准备:

我的测试环境采用 9 台 HP 的烂机器,分别是 cloud100 - cloud108 , cloud108做为管理节点.

Ambari安装的环境路径:

各台机器的安装目录:

/usr/lib/hadoop

/usr/lib/hbase

/usr/lib/zookeeper

/usr/lib/hcatalog

/usr/lib/hive

Log路径, 这里需要看出错信息都可以在目录下找到相关的日志

/var/log/hadoop

/var/log/hbase

配置文件的路径

/etc/hadoop

/etc/hbase

/etc/hive

HDFS的存储路径

/hadoop/hdfs

安装过程需要注意的点:

2, 如果你的机器之前安装过 Hadoop的相关服务,特别是Hbase 里面配置了 HBASE_HOME 的环境变量,需要 unset掉, 这个环境变量会影响,因为我之前把这些路径放到 /etc/profile 里面导致影响了HBase,因为Ambari安装的路径和你之前安装的可能不一样.

3,在服务选择页面的时候, NameNode 和 SNameNode 需要布置在一起, 我之前尝试做 HA 而把他们分开,但是SNameNode一直起不来,导致整个启动失败,接下来时间需要花在HA上.

使用Ambari快速部署Hadoop大数据环境

4. JobTrakcer 不和Namenode在一起也会导致启动不起来.

5. Datanode的节点不能少于 Block replication 中数, 基本都是需要 >= 3.

使用Ambari快速部署Hadoop大数据环境

6. Confirm Hosts 的时候,需要注意里面的 Warning 信息,把相关的Warning都处理掉,有一些Warning会导致安装出错.

7. 记住安装中所新建的用户,接下来需要用到这些用户.

使用Ambari快速部署Hadoop大数据环境

8. Hive和HBase Master 部署在同一个节点,这里当然你也可以分开. 设置好后就开始安装了.

使用Ambari快速部署Hadoop大数据环境

ambari hadoop 大数据

安科网

使用Ambari快速部署Hadoop大数据环境

NA

前言

了解Hadoop生态圈

开始部署

NA

相关推荐

ambari hdp ssh链接错误

docker基础命令

清理ambari安装的hadoop集群

ambari是什么

Hadoop 管理监控工具 Apache Ambari

CentOS 6.5下安装Ambari 详解

Ambari Hive 无法正常查询的解决

基于Ambari构建自己的大数据平台产品

使用Docker部署Ambari的若干要点

CentOS 6.5下安装配置Hudson

Apache Ambari 信息泄露漏洞(CVE-2016-4976)

Apache Ambari 任意代码执行漏洞(CVE-2014-3582)

CentOS 7.2 安装 Ambari 2.2.2 + HDP 2.4.2 搭建Hadoop集群

Linux下Ambari的安装教程

Ambari——大数据平台的搭建利器

Apache Ambari File Browser View信息泄露漏洞(CVE-2016-0731)

Apache Ambari信息泄露漏洞(CVE-2016-0707)

Apache Ambari服务器端请求伪造漏洞(CVE-2015-1775)

Apache Ambari 开放重定向漏洞(CVE-2015-5210)

CentOS 6.5下使用Ambari安装Hadoop集群

NA