CentOS7.2下Hadoop2.7.2集群搭建

hadoop

2016-07-27

CentOS7.2下Hadoop2.7.2的集群搭建

1.基本环境：
操作系统：
Centos 7.2.1511
三台虚机：
192.168.163.224 master
192.168.163.225 node1
192.168.163.226 node2
软件包
hadoop-2.7.2.tar.gz
jdk-7u79-linux-x64.tar.gz

修改hostname
192.168.163.224主机：
echo "master" > /etc/hostname

192.168.163.225主机：
echo "node1" > /etc/hostname

192.168.163.226主机：
echo "node2" > /etc/hostname

master上修改hosts文件
echo "192.168.163.224 master" >>/etc/hosts
echo "192.168.163.225 node1" >>/etc/hosts
echo "192.168.163.225 node2" >>/etc/hosts

同步到node1，node2上的主机
scp /etc/hosts node1:/etc/
scp /etc/hosts node2:/etc/

各台主机上相互ping，测试是否可以通过host连通
ping master
ping node1
ping node2

master，node1，node2上关闭防火墙
systemctl stop firewalld
systemctl disable firewalld

3.配置hadoop环境
master，node1，node2上安装jdk
rpm -qa|grep openjdk #检查openjdk，存在则删除

yum remove *-openjdk-* ####删除openjdk#####

安装sunjdk

###yum install glibc.i686(64位系统安装32位包，需要安装)
tar -zxvf jdk-7u79-linux-x64.tar.gz
mv ./jdk1.7.0_79 /usr/

master，node1，node2上创建hadoop用户

useradd hadoop #增加hadoop用户，用户组、home目录、终端使用默认
passwd hadoop #修改密码
建议在学习阶段将hadoop用户加入sudo权限管理，简单方法如下
1.执行visudo命令
2.在root ALL=(ALL) ALL 后加入
hadoop ALL=(ALL) ALL
master，node1，node2上进入hadoop用户：
su - hadoop

master，node1，node2上无密钥连接：
master上的hadoop用户通过rsa算法生成非对称密钥对：
ssh-keygen -t rsa
cd /home/hadoop/.ssh/
cp id_rsa.pub authorized_keys
chmod go-wx authorized_keys

master上的公钥authorized_keys拷贝到node1，node2上的hadoop用户
scp authorized_keys node1:/home/hadoop/.ssh/
scp authorized_keys node2:/home/hadoop/.ssh/

可通过如下命令测试
ssh node1
ssh node2
为方便node1，node2中hadoop用户可以同时登录master，这里我们集群中的所有用户共用一个密钥
scp ~/.ssh/id_rsa node1:/home/hadoop/.ssh/
scp ~/.ssh/id_rsa node2:/home/hadoop/.ssh/

master，node1，node2上修改环境变量
vi /etc/profile
JAVA_HOME=/usr/jdk1.7.0_79
HADOOP_HOME=/usr/local/hadoop
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/bin:$PATH
su - hadoop #重新读取环境变量

master，node1，node2上创建相关目录
sudo mkdir -p /usr/local/hadoop
sudo chown -R hadoop:hadoop /usr/local/hadoop
sudo mkdir -p /data/hadoop/ #创建 hadoop 数据目录结构
sudo chown -R hadoop:hadoop /data/hadoop/
mkdir -p /data/hadoop/tmp/ #创建 tmp
mkdir -p /data/hadoop/hdfs/ #创建hdfs
mkdir -p /data/hadoop/hdfs/data #创建datanode目录
mkdir -p /data/hadoop/hdfs/name #创建namenode目录
mkdir -p /data/hadoop/hdfs/namesecondary

安装hadoop
wget http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz
tar -zxvf hadoop-2.7.2.tar.gz
mv hadoop-2.7.2 /usr/local/hadoop
chown -R hadoop:hadoop /usr/local/hadoop/

4.修改配置文件
配置文件相关变量详细解释可查看官网：
http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/
cd $HADOOP_HOME/etc/hadoop

4.1 vi hadoop-env.sh
export HADOOP_HEAPSIZE=128 #默认为1000M，这里我们修改为128M

4.2 vi core-site.xml #全局配置
<configuration>

<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>

</property>

<property>
<name>dfs.namenode.checkpoint.period</name>
<value>1800</value>

</property>

</property>
<property>
<name>fs.checkpoint.size</name>
<value>67108864</value>
</property>

<property>
<name>fs.trash.interval</name>
<value>1440</value>

</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/data/hadoop/tmp</value>

</property>

<property>
<name>io.file.buffer.size</name>
<value>131702</value>

</property>

</configuration>

4.3 vi hdfs-site.xml #hdfs中NameNode,DataNode局部配置
<configuration>

<property>
<name>dfs.namenode.name.dir</name>
<value>/data/hadoop/hdfs/name</value>

<description> </description>
</property>

<property>
<name>dfs.datanode.data.dir</name>
<value>/data/hadoop/hdfs/data</value>

<description> </description>
</property>

<property>
<name>dfs.namenode.http-address</name>
<value>master:50070</value>

</property>

<property>
<name>dfs.namenode.secondary.http-address</name>
<value>node1:50090</value>

</property>

<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>

<property>
<name>dfs.replication</name>
<value>3</value>

</property>

<property>
<name>dfs.datanode.du.reserved</name>
<value>1073741824</value>

</property>

<property>
<name>dfs.block.size</name>
<value>134217728</value>

</property>

<property>
<name>dfs.permissions.enabled</name>
<value>false</value>

</property>

</configuration>

4.4 vi etc/hadoop/mapred-site.xml #配置MapReduce，使用yarn框架、jobhistory使用地址以及web地址
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobtracker.http.address</name>
<value>master:50030</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>http://master:9001</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
</configuration>
cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

4.5 vi etc/hadoop/yarn-site.xml 配置yarn-site.xml文件
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>
</configuration>

4.6 vi hadoop-env.sh及vi yarn-env.sh
将其中的${JAVA_HOME}用/usr/jdk1.7.0_79代替

5.检查单机版Hadoop

测试hdfs中的namenode与datanode：
hadoop-daemon.sh start namenode
chmod go-w /data/hadoop/hdfs/data/
hadoop-daemon.sh start datanode

测试resourcemanager：
yarn-daemon.sh start resourcemanager

测试nodemanager：
yarn-daemon.sh start nodemanager

测试historyserver：
mr-jobhistory-daemon.sh start historyserver

执行jps：
99297 Jps
99244 DataNode
98956 JobHistoryServer
98820 NodeManager
98118 NameNode
98555 ResourceManager

上述表明单机版hadoop安装成功

6.集群搭建
scp -r $HADOOP_HOME/ node1:/usr/local/
scp -r $HADOOP_HOME/ node2:/usr/local/

在master上进行配置
vi $HADOOP_HOME/etc/hadoop/slaves
删除localhost
添加
node1
node2
vi $HADOOP_HOME/etc/hadoop/masters
删除localhost
添加
node1 #目的是为了在node1节点上存放secondnamenode

7.测试集群是否搭建成功
$HADOOP_HOME/bin/hdfs namenode -format
master上
开启所有节点：start-all.sh(或start-dfs及start-yarn.sh代替)
各节点执行jps
master：
98956 JobHistoryServer
98820 NodeManager
118806 Jps
118176 NameNode
118540 ResourceManager

node1：
106408 SecondaryNameNode
106602 Jps
106301 DataNode
106496 NodeManager

1234 node2：
105932 Jps
105812 NodeManager
105700 DataNode

存在上述状态，说明集群搭建成功
关闭所有节点：stop-all.sh(或stop-dfs.sh及stop-yarn.sh代替)

同时可以访问网页进行查看：
http://master:50070/
http://master:8088/

下面关于Hadoop的文章您也可能喜欢，不妨看看：

hadoop hosts hadoop集群搭建

安科网

CentOS7.2下Hadoop2.7.2集群搭建

hadoop

hadoop

相关推荐

Hadoop3.2.0集群搭建常见注意事项

hadoop伪分布式环境搭建

hadoop 3.2.x 高可用集群搭建

为什么Java仍将是未来的主流语言？

_服役新节点，退役旧节点，多目录配置。+_HDFS2.x的新特性

Hadoop（一）安装

第四周练习

Hadoop小练习

hadoop框架三大组件hdfs、mapreduce、yarn 内容

Hadoop基础（三十三）：Zookeeper 分布式安装部署

Hadoop基础（二十二）：Shuffle机制（三）

hdfs、hive、hbase的搭建总结

NameNode和Zookeeper的format作用

hadoop集群的启动与停止

JStorm介绍

Hadoop2.7.7 centos7 完全分布式配置与问题随记

Hadoop Yarn工作机制 Job提交流程

【赵强老师】大数据工作流引擎Oozie

Hadoop

入门大数据---Spark开发环境搭建

hadoop