Ubuntu14.04下Hadoop2.4.1单机/伪分布式安装配置教程

SunWuKongHadoop

2015-02-15

关注关注

环境

系统： Ubuntu 14.04 64bit
Hadoop版本： Hadoop 2.4.1 (stable)
JDK版本： OpenJDK 7

本教程基于 Hadoop 2.4.1，但对于 Hadoop 2.x 版本应该都是适用的。

创建hadoop用户

如果你安装Ubuntu的时候不是用的hadoop用户，那么需要增加一个名为hadoop的用户，并将密码设置为hadoop。

创建用户

sudo useradd hadoop

修改密码为hadoop，按提示输入两次密码

sudo passwd hadoop

给hadoop用户创建目录，方可登陆

sudo mkdir /home/hadoop
sudo chown hadoop /home/hadoop

可考虑为 hadoop 用户增加管理员权限，方便部署，避免一些权限不足的问题：

sudo adduser hadoop sudo

最后注销当前用户，使用hadoop用户进行登陆。

安装SSH server、配置SSH无密码登陆

Ubuntu默认安装了SSH client，还需要安装SSH server。

sudo apt-get install openssh-server

集群、单节点模式都需要用到SSH无密码登陆，首先设置SSH无密码登陆本机。

输入命令

ssh localhost

会有如下提示(SSH首次登陆提示)，输入yes。

Ubuntu14.04下Hadoop2.4.1单机/伪分布式安装配置教程 SSH首次登陆提示

然后按提示输入密码hadoop，这样就登陆到本机了。但这样的登陆是需要密码的，需要配置成无密码登陆。

先退出刚才的ssh，然后生成ssh证书：

exit                           # 退出 ssh localhost
cd ~/.ssh                      # 如果没有该目录，先执行一次ssh localhost
ssh-keygen -t rsa              # 一直按回车就可以
cp id_rsa.pub authorized_keys

此时再用ssh localhost命令，就可以直接登陆了，如下图所示。

Ubuntu14.04下Hadoop2.4.1单机/伪分布式安装配置教程

SSH无密码登陆

安装Java环境

以前的教程都是建议安装Oracle的JDK，不建议使用OpenJDK，不过按http://wiki.apache.org/hadoop/HadoopJavaVersions中说的，新版本在OpenJDK 1.7下是没问题的。通过命令安装OpenJDK 7。

sudo apt-get install openjdk-7-jre openjdk-7-jdk

默认的安装位置为: /usr/lib/jvm/java-7-openjdk-amd64 (可以通过命令dpkg -L openjdk-7-jdk看到)。安装完后就可以使用了，可以用java -version检查一下。

需要配置一下 JAVA_HOME 环境变量，这个环境变量很多地方都会用到，在 /etc/environment 中配置：

sudo vim /etc/environment

在文件末尾添加一行：

JAVA_HOME="/usr/lib/jvm/java-7-openjdk-amd64"

保存，最后需要注销然后再次登陆，或重启一下，才能保证 JAVA_HOME 在新打开的终端窗口中都能使用（注销、重启后，新打开一个终端窗口，输入 echo $JAVA_HOME 检验）。

安装Hadoop 2.4.1

2.4.1的下载地址为: http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-2.4.1/hadoop-2.4.1.tar.gz，安装教程主要参考了官方教程http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/SingleCluster.html。

下载后,解压到/usr/local/中。

sudo tar -zxvf ~/下载/hadoop-2.4.1.tar.gz -C /usr/local   # 解压到/usr/local中
sudo mv /usr/local/hadoop-2.4.1/ /usr/local/hadoop      # 将文件名改为hadoop
sudo chown -R hadoop:hadoop /usr/local/hadoop       # 修改文件权限

Hadoop解压后即可使用。输入如下命令Hadoop检查是否可用，成功则会显示命令行的用法：

/usr/local/hadoop/bin/hadoop

Hadoop单机配置

Hadoop默认配置是以非分布式模式运行，即单Java进程，方便进行调试。可以执行附带的例子WordCount来感受下Hadoop的运行。例子将Hadoop的配置文件作为输入文件，统计符合正则表达式dfs[a-z.]+的单词的出现次数。

cd /usr/local/hadoop
mkdir input
cp etc/hadoop/*.xml input
bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.4.1.jar grep input output 'dfs[a-z.]+'
cat ./output/*

执行成功后如下所示，输出了作业的相关信息，输出的结果是符合正则的单词dfsadmin出现了1次

Ubuntu14.04下Hadoop2.4.1单机/伪分布式安装配置教程 Hadoop单机WordCount输出结果

再次运行会提示出错，需要将./output删除。

rm -R ./output

Hadoop伪分布式配置

Hadoop可以在单节点上以伪分布式的方式运行，Hadoop进程以分离的Java进程来运行，节点即是NameNode也是DataNode。需要修改2个配置文件etc/hadoop/core-site.xml和etc/hadoop/hdfs-site.xml。Hadoop的配置文件是xml格式，声明property的name和value。

修改配置文件etc/hadoop/core-site.xml，将

<configuration>
</configuration>

修改为下面配置：

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

修改配置文件etc/hadoop/hdfs-site.xml为

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/data</value>
    </property>
</configuration>

关于配置的一点说明：上面只要配置 fs.defaultFS 和 dfs.replication 就可以运行，不过有个说法是如没有配置 hadoop.tmp.dir 参数，此时 Hadoop 默认的使用的临时目录为 /tmp/hadoo-hadoop，而这个目录在每次重启后都会被干掉，必须重新执行 format 才行（未验证），所以伪分布式配置中最好还是设置一下。此外也需要显式指定 dfs.namenode.name.dir 和 dfs.datanode.data.dir，否则下一步可能会出错。

配置完成后，首先初始化文件系统 HDFS:

bin/hdfs namenode -format

成功的话，最后的提示如下，Exitting with status 0 表示成功，Exitting with status 1: 则是出错。若出错，可试着加上 sudo, 既 sudo bin/hdfs namenode -format 试试看。

Ubuntu14.04下Hadoop2.4.1单机/伪分布式安装配置教程初始化HDFS文件系统

接着开启NaneNode和DataNode守护进程。

sbin/start-dfs.sh

若出现下面SSH的提示，输入yes即可。

Ubuntu14.04下Hadoop2.4.1单机/伪分布式安装配置教程启动Hadoop时的SSH提示

有可能会出现如下很多的warn提示，下面的步骤中也会出现，特别是native-hadoop library这个提示，可以忽略，并不会影响hadoop的功能。想解决这些提示可以看后面的附加教程(最好还是解决下，不困难，省得看这么多无用提示)。

Ubuntu14.04下Hadoop2.4.1单机/伪分布式安装配置教程启动Hadoop时的warn提示

成功启动后，可以通过命令jps看到启动了如下进程NameNode、DataNode和SecondaryNameNode。

通过查看启动日志分析启动失败原因

有时Hadoop无法正确启动，如 NameNode 进程没有顺利启动，这时可以查看启动日志来排查原因，不过新手可能需要注意几点：

启动时会提示形如 “Master: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-Master.out”，其中 Master 对应你的机器名，但其实启动日志信息是记录在 /usr/local/hadoop/logs/hadoop-hadoop-namenode-Master.log 中，所以应该查看这个 .log 的文件；
每一次的启动日志都是追加在日志文件之后，所以得拉到最后面看，这个看下记录的时间就知道了。
一般出错的提示在最后面，也就是写着 Fatal、Error 或者 Java Exception 的地方。

Ubuntu14.04下Hadoop2.4.1单机/伪分布式安装配置教程通过jps查看启动的Hadoop进程

此时可以访问Web界面http://localhost:50070来查看Hadoop的信息。

Ubuntu14.04下Hadoop2.4.1单机/伪分布式安装配置教程

Hadoop的Web界面

ssh hadoop 分布式部署 sudo

安科网

Ubuntu14.04下Hadoop2.4.1单机/伪分布式安装配置教程

SunWuKongHadoop

环境

创建hadoop用户

安装SSH server、配置SSH无密码登陆

安装Java环境

安装Hadoop 2.4.1

Hadoop单机配置

Hadoop伪分布式配置

SunWuKongHadoop

相关推荐

hadoop 3.2.x 高可用集群搭建

hadoop安装教程

在Ubuntu上开启SSH服务并查看IP地址

Terminus 远程连接 WSL2

Navicat如何远程连接云服务器数据库

用docker运行postgreSQL的方法步骤

Linux ssh服务器配置代码实例

我用过的几款SSH客户端工具

SSH只能用于远程Linux主机？那说明你见识太小了！

SSH只能用于远程Linux主机？那说明你见识太小了！

学会这5招，让Linux排障更简单

win10下用ssh做端口转发时因为localhost解析引起的失败

使用VSCode的Remote-SSH连接Linux进行远程开发

解决VScode配置远程调试Linux程序的问题

CodeReview实践-Gerrit自动触发JenkinsCI

Git配置及使用(使用云服务器）

Ubuntu 20.04 Install SSH, Change SSH Port, Enable root

ssh免密登陆相关配置

ssh无法启动 (code=exited, status=255)

记录：部署Ansible，Ansible ad-hoc应用(1

SunWuKongHadoop