Hadoop分布式部署

khxu

2014-07-28

关注关注

Hadoop分布式部署

1.硬件环境

共有 3 台机器,均使用的 linux 系统,Java 使用的是 jdk1.6.0。配置如下:

Hadoop1.example.com:192.168.2.1(NameNode)

hadoop2.example.com:192.168.2.2(DataNode)

hadoop3.example.com:192.168.2.3 (DataNode)

hadoop4.example.com:192.168.2.4

主机与IP之间有正确解析

对于 Hadoop 来说,在 HDFS 看来,节点分为 Namenode 和 Datanode,其中Namenode 只有一个, Datanode 可以是很多;在 MapReduce 看来,节点又分为Jobtracker 和 Tasktracker,其中 Jobtracker 只有一个,Tasktracker 可以是很多。我是将 namenode 和 jobtracker 部署在 hadoop1 上, hadoop2, hadoop3 作为 datanode和 tasktracker 。当然你也可以将 namenode ,datanode ,jobtracker,tasktracker 全部部署在一台机器上（这样就是伪分布式）。

2.目录结构

由于 Hadoop 要求所有机器上 hadoop 的部署目录结构要相同,并且都有一个相同的用户名的帐户。

我的三台机器上是这样的 : 都有一个 hadoop 的帐户 , 主目录是/home/hadoop。

添加用户hadoop

#userad -u 800 hadoop

下载hadop-1.2.1.tar.gz

解压 #tar zxf hadop-1.2.1.tar.gz

#ln -s hadoop-1.2.1 hadoop

#mv hadoop-1.2.1 /home/hadoop/

#cd /home/hadoop

#chown -R hadoop.hadoop hadoop-1.2.1/

#passwd hadoop 给用户hadoop创建密码

下载jdk-6u32-linux-x64.bin

sh jdk-6u32-linux-x64.bin

cd ~

mv jdk1.6.0_32 hadoop-1.2.1/

cd hadoop-1.2.1/

创建软链接，以便与日后的更新、升级

ln -s jdk jdk1.6.0_32

--------------------------------------分割线 --------------------------------------

3.SSH设置

在 Hadoop 启动以后,Namenode 是通过 SSH(Secure Shell)来启动和停止各个节点上的各种守护进程的,这就需要在节点之间执行指令的时候是不需要输入密码的方式,故我们需要配置 SSH 使用无密码公钥认证的方式。

首先要保证每台机器上都装了 SSH 服务器,且都正常启动。实际中我们用的都是 OpenSSH,这是 SSH 协议的一个免费开源实现。

以本文中的 3 台机器为例,现在 hadoop1 是主节点,它需要主动发起 SSH连接到 hadoop2 ,对于 SSH 服务来说, hadoop1 就是 SSH 客户端,而hadoop2,hadoop3 则是 SSH 服务端,因此在 hadoop2,hadoop3 上需要确定 sshd 服务已经启动。简单的说,在 hadoop1 上需要生成一个密钥对,即一个私钥,一个公钥。将公钥拷贝到 hadoop2 上,这样,比如当 hadoop1 向 hadoop2 发起 ssh 连接的时候,hadoop2 上就会生成一个随机数并用 hadoop1 的公钥对这个随机数进行加密并发送给 hadoop1,hadoop1 收到这个加密的数以后用私钥进行解密,并将解密后的数发送回hadoop2,hadoop2 确认解密的数无误后就允许 hadoop1 进行连接了。这就完成了一次公钥认证过程。

对于本文中的 3 台机器,首先在 hadoop1 上生成密钥对:

#su - hadoop

$ssh-keygen

这个命令将为 hadoop1 上的用户 hadoop 生成其密钥对。生成的密钥对id_rsa,id_rsa.pub,在/home/hadoop/.ssh 目录下。

$ssh-copy-id localhost

$ssh-copy-id 192.168.2.2

$ssh-copy-id 192.168.2.3

发布密钥到你本地和hadoop2、hadoop3

试着登录本地和hadoop2、hadoop3看是否有密码验证，无密码即验证成功

下载jdk-6u32-linux-x64.bin

sh jdk-6u32-linux-x64.bin

cd ~

mv jdk1.6.0_32 hadoop-1.2.1/

cd hadoop-1.2.1/

创建软链接

ln -s jdk jdk1.6.0_32

4.环境变量

在～/hadoop-1.2.1/conf/ 目录下的 hadoop-env.sh 中设置Hadoop 需要的环境变量 , 其中 JAVA_HOME 是必须设定的变量。HADOOP_HOME 变量可以设定也可以不设定,如果不设定, HADOOP_HOME默认的是 bin 目录的父目录,即本文中的/home/hadoop/hadoop。

vim～/hadoop-1.2.1/conf/hadoop-env.sh

export JAVA_HOME=/home/hadoop/hadoop/jdk

先进行简单测试：

$cd /home/hadoop/hadoop/

$mkdir input

$cp conf/* input/

$bin/hadoop jar hadoop-examples-1.2.1.jar

$bin/hadoop jar hadoop-examples-1.2.1.jar grep input output 'dfs[a-z.]+'

$cd output

$cat *

统计文件中的单词：

$bin/hadoop jar hadoop-examples-1.2.1.jar

$bin/hadoop jar hadoop-examples-1.2.1.jar wordcount input test

$cd test/

$cat *

5.hadoop配置文件

$cd /home/hadoop/hadoop/conf

conf/core-site.xml:

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://hadoop1.example.com:9000</value>
</property></configuration>

conf/hdfs-site.xml:

<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property></configuration>

conf/mapred-site.xml:

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>hadoop1.example.com:9001</value>
</property></configuration>

伪分布式测试：

$mkdir ～/bin

$ln -s /home/hadoop/hadoop/jdk/bin/jps ~/bin/

$cd /home/hadoop/hadoop/

$bin/hadoop namenode -format 先进行初始化

$bin/start-all.sh

web测试192.168.2.1：50070

192.168.2.1：50030

$rm -fr input/ output/ test/

$bin/hadoop fs -mkdir input

$bin/hadoop fs -put conf input

$bin/hadoop fs -lsr

192.168.2.1：50075下查看/usr/hadoop/input是否有变化

hadoop 分布式部署 ssh

安科网

Hadoop分布式部署

khxu

khxu

相关推荐

Hadoop基础（三十三）：Zookeeper 分布式安装部署

hadoop 伪分布式单机部署练习hive

hadoop 3.2.x 高可用集群搭建

hadoop安装教程

Hadoop3.2.0集群搭建常见注意事项

为什么Java仍将是未来的主流语言？

hadoop伪分布式环境搭建

_服役新节点，退役旧节点，多目录配置。+_HDFS2.x的新特性

Hadoop（一）安装

第四周练习

Hadoop小练习

hadoop框架三大组件hdfs、mapreduce、yarn 内容

Hadoop基础（二十二）：Shuffle机制（三）

hdfs、hive、hbase的搭建总结

NameNode和Zookeeper的format作用

hadoop集群的启动与停止

JStorm介绍

Hadoop2.7.7 centos7 完全分布式配置与问题随记

Hadoop Yarn工作机制 Job提交流程

【赵强老师】大数据工作流引擎Oozie

khxu