CentOS 7 安装Hadoop-cdh-2.6

CentOS

2015-11-07

1.Hadoop介绍　

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统（HDFS，Hadoop Distributed Filesystem）和MapReduce（Google MapReduce的开源实现）为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。

对于Hadoop的集群来讲，可以分成两大类角色：Master和Salve。一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器，管理文件系统的命名空间和客户端对文件系统的访问操作；集群中的DataNode管理存储的数据。MapReduce框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点的TaskTracker共同组成的。主节点负责调度构成一个作业的所有任务，这些任务分布在不同的从节点上。主节点监控它们的执行情况，并且重新执行之前的失败任务；从节点仅负责由主节点指派的任务。当一个Job被提交时，JobTracker接收到提交作业和配置信息之后，就会将配置信息等分发给从节点，同时调度任务并监控TaskTracker的执行。

从上面的介绍可以看出，HDFS和MapReduce共同组成了Hadoop分布式系统体系结构的核心。HDFS在集群上实现分布式文件系统，MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持，MapReduce在HDFS的基础上实现了任务的分发、跟踪、执行等工作，并收集结果，二者相互作用，完成了Hadoop分布式集群的主要任务。

1.2环境说明

master 192.168.0.201

slave 192.168.0.220

两个节点都是CentOS 7

1.3环境准备

永久关闭防火墙和selinux

systemctl disable firewalld
systemctl stop firewalld
setenforce 0

1.4网络配置

两台修改主机名:master/salve

设置hosts，能互相解析

1.5配置ssh互信

master
yum -y install sshpass
ssh-keygen 一路回车
ssh-copy-id -i ~/.ssh/id_rsa.pub [email protected]
slave
yum -y install sshpass
ssh-keygen 一路回车
ssh-copy-id -i ~/.ssh/id_rsa.pub [email protected]
测试ssh对方主机，不提示输入密码则OK

2.安装JDK

两台机器都装

tar zxvf jdk-8u65-linux-x64.tar.gz
mv jdk1.8.0_65 /usr/jdk

2.1设置环境变量

两台机器都设置

export JAVA_HOME=/usr/jdk
export JRE_HOME=/usr/jdk/jre
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JRE_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
执行 source /etc/profile

3.测试JDK

java -version

3.1安装Hadoop

官方网站下载CDH-2.6-hadoop:archive.cloudera.com/cdh5

tar zxvf hadoop-2.6.0-cdh5.4.8.tar.gz
mv hadoop-2.6.0-cdh5.4.8 /usr/hadoop
cd /usr/hadoop
mkdir -p dfs/name
mkdir -p dfs/data
mkdir -p tmp

3.2添加slave

cd /usr/hadoop/etc/hadoop
vim slaves
192.168.0.220 #添加slaveIP

3.3修改hadoop-env.sh和yarn.env.sh

vim hadoop-env.sh / vim yarn-env.sh
export export JAVA_HOME=/usr/jdk #加入java变量

3.4修改core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://192.168.0.201:9000</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131702</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/hadoop/tmp</value>
</property>
<property>
<name>hadoop.proxyuser.hadoop.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hadoop.groups</name>
<value>*</value>
</property>
</configuration>

3.5修改hdfs-site.xml

<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>:/usr/hadoopdfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>:/sur/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>192.168.0.201:9001</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>

3.6修改mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>192.168.0.201:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>192.168.0.201:19888</value>
</property>
</configuration>

3.7修改yarn-site.xml

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>192.168.0.201:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>192.168.0.201:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>192.168.0.201:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>192.168.0.201:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>192.168.0.201:8088</value>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>768</value>
</property>
</configuration>

4.把配置文件拷贝到slave端

scp -r /usr/hadoop [email protected]:/usr/

5.格式化nanenode

./bin/hdfs namenode -format

5.1启动hdfs

./sbin/start-dfs.sh$ ./sbin/start-yarn.sh

5.2检查启动情况

输入192.168.0.201:8088

CentOS 7 安装Hadoop-cdh-2.6

输入网址:192.168.0.201:9001

CentOS 7 安装Hadoop-cdh-2.6

下面关于Hadoop的文章您也可能喜欢，不妨看看：

hadoop centos hdfs jdk 数据处理

安科网

CentOS 7 安装Hadoop-cdh-2.6

CentOS

CentOS

相关推荐

hadoop伪分布式环境搭建

hadoop框架三大组件hdfs、mapreduce、yarn 内容

hdfs、hive、hbase的搭建总结

hadoop集群的启动与停止

hadoop创建目录

[AWS][大数据][Hadoop] 使用EMR做大数据分析

Hadoop

大数据期末复习重点

Hadoop之hadoop fs和hdfs dfs、hdfs fs三者区别

hadoop两个namenode都是standby问题

Hadoop之HDFS入门实战

hadoop 数据处理总结

Hadoop简介

hadoop hdfs csv导入hive表

想了解大数据的鼻祖Hadoop技术栈，这里有一份优质书单推荐！

Hive安装，以及一些问题处理

Hadoop3.2.0集群搭建常见注意事项

为什么Java仍将是未来的主流语言？

_服役新节点，退役旧节点，多目录配置。+_HDFS2.x的新特性

Hadoop（一）安装

CentOS