64位CentOS 6.5下配置Hadoop 2.5.1伪分布式环境

khxu

2014-10-07

关注关注

最近在搞Hadoop，感觉有这个必要把一些琐碎的心得分享，而且正好国庆假期使时间上有了可能。首先感谢下面两篇文章给出的指导，本文是两者技术路线在CentOS 6.5 64位版本下对Hadoop 2.5.1伪分布式环境的一个实践。

CentOS 6.5集群安装64位Hadoop2.2.0 http://www.linuxidc.com/Linux/2014-06/102665.htm
Hadoop集群（第5期）_Hadoop安装配置 http://www.linuxidc.com/Linux/2012-12/76694p11.htm

至于为什么写这篇文章，主要是Hadoop 2.3之后从框架上做出了质变，所以配置与运行方式发生了很多改变。

概要与介绍上文都有介绍，这里不再赘述，直奔主题：

总体的流程如下：
1、实现ssh无密码验证配置
2、安装jdk，并配好环境变量
3、安装与配置Hadoop
4、格式化与启动
5、验证是否启动
下面开始：

一. SSH无密码验证配置
Hadoop 需要使用SSH 协议，namenode 使用SSH 协议启动 namenode 和datanode 进程，伪分布式模式数据节点和名称节点均是本身，必须配置 SSH localhost无密码验证。
以下用root用户登录仅为了方便起见。登录后，执行命令：ssh-keygen -t rsa

[root@master ~]# ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/root/.ssh/id_rsa): & 按回车默认路径 &
Created directory '/root/.ssh'. &创建/root/.ssh目录&
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.

通过以上命令将在/root/.ssh/ 目录下生成id_rsa私钥和id_rsa.pub公钥。进入/root/.ssh目录在namenode节点下做如下配置：

[root@master .ssh]# cat id_rsa.pub > authorized_keys
将id_rsa.pub写入authorized_keys，配置完毕，可通过ssh 本机IP 测试是否需要密码登录：ssh localhost

二. 环境搭建
搭建测试环境所需的软件包括：

1. JDK 1.8.2，安装文件 jdk-8u20-linux-x64.rpm (http://www.Oracle.com/technetwork/java/javase/index.html)

执行rpm -i jdk-8u20-linux-x64.rpm安装JDK

然后设置JAVA_HOME等环境变量：vim /etc/profile，在其末尾增加一段：

#set java home
export JAVA_HOME=/usr/java/latest
export JRE_HOME=/usr/java/latest/jre
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JRE_HOME/lib
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

这里给出的目录/usr/java/latest是CentOS 6.5下用rpm安装JDK自动生成的，如果是其他安装办法，如手动安装，则制定实际安装的目录即可。

在vim编辑器增加以上内容后保存退出(:wq)，并执行以下命令使配置生效
chmod +x /etc/profile #增加执行权限
source /etc/profile #使其生效
配置完毕后，在命令行中输入java -version与echo $JAVA_HOME，根据提示信息可知是否设置成功。

然后vim hadoop/etc/hadoop/hadoop-env.sh 与 vim hadoop/etc/hadoop/yarn-env.sh来配置两个文件里的JAVA_HOME，后者是新版本Hadoop特有的。

2.Hadoop 2.5.1，安装文件 hadoop-2.5.1.tar.gz (http://hadoop.apache.org/common/releases.html)

下载 hadoop-2.5.1.tar.gz，将其下载或者复制到/usr/目录下，然后使用如下命令:

cd /usr #进入"/usr"目录
tar –zxvf hadoop-2.5.1.tar.gz #解压hadoop-2.5.1.tar.gz安装包
mv hadoop-2.5.1 hadoop #将hadoop-2.5.1文件夹重命名hadoop
rm –rf hadoop-2.5.1.tar.gz #删除安装包

然后把Hadoop的安装路径添加到"/etc/profile"中，将以下语句添加到末尾，并使其有效：

# set hadoop path
export HADOOP_HOME=/usr/hadoop
export PATH=$PATH :$HADOOP_HOME/bin

--------------------------------------分割线 --------------------------------------

安装完之后进行配置，首先所有的配置文件从上一版本的hadoop/conf换成了hadoop/etc/hadoop，在hadoop目录下，执行vim etc/hadoop/core-site.xml，将其配置为：

<name>hadoop.tmp.dir</name>

<value>/usr/hadoop/tmp</value>

<description>A base for other temporary directories.</description>

</property>

<name>fs.defaultFS</name>

</property>

</configuration>

然后执行vim etc/hadoop/hdfs-site.xml进行第二项配置：

<name>dfs.namenode.name.dir</name>

<value>/usr/hadoop/hdfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>/usr/hadoop/hdfs/data</value>

</property>

<name>dfs.replication</name>

</property>

</configuration>

请注意上述路径都需要自己手动用mkdir创建，具体位置也可以自己选择，其中dfs.replication的值建议配置为与分布式 cluster 中实际的 DataNode 主机数一致，在这里由于是伪分布式环境所以设置其为1。

hadoop centos ssh root

安科网

64位CentOS 6.5下配置Hadoop 2.5.1伪分布式环境

khxu

khxu

相关推荐

hadoop 3.2.x 高可用集群搭建

hadoop安装教程

Hadoop3.2.0集群搭建常见注意事项

为什么Java仍将是未来的主流语言？

hadoop伪分布式环境搭建

_服役新节点，退役旧节点，多目录配置。+_HDFS2.x的新特性

Hadoop（一）安装

第四周练习

Hadoop小练习

hadoop框架三大组件hdfs、mapreduce、yarn 内容

Hadoop基础（三十三）：Zookeeper 分布式安装部署

Hadoop基础（二十二）：Shuffle机制（三）

hdfs、hive、hbase的搭建总结

NameNode和Zookeeper的format作用

hadoop集群的启动与停止

JStorm介绍

Hadoop2.7.7 centos7 完全分布式配置与问题随记

Hadoop Yarn工作机制 Job提交流程

【赵强老师】大数据工作流引擎Oozie

Hadoop

khxu