Ubuntu 18.04.1上安装Hadoop 3.1.1集群详解

wangzy0

2019-07-28

关注关注

本文将介绍如何在基于Ubuntu的系统上安装多节点Hadoop 3.1.1集群，作者将在Ubuntu 18.04.1上安装一个包含HDFS的三节点Hadoop集群。

首先，我们需要为集群创建三个虚拟机，创建一个具有4个vCPU，4 GB内存和40 GB硬盘空间的Hadoop Master服务器；为每个节点创建两个带有4个vCPU，8 GB内存和40 GB硬盘空间的Hadoop节点。

本文的三台服务器安装了Ubuntu Server 18.04.1，安装了所有更新并重新启动，一定要确保使用静态IP地址和内部DNS解析配置每个服务器，或将每个服务器添加到/ etc / hosts文件。

准备运行Hadoop服务器

首先，我们需要安装Oracle Java 8，因为从Ubuntu 18.04.1开始，Java 8不再可用。

# add-apt-repository ppa:webupd8team/java
# apt update
# apt install -y oracle-java8-set-default

接受许可条款，并下载Hadoop二进制文件

# wget http://apache.claz.org/hadoop/common/hadoop-3.1.1/hadoop-3.1.1.tar.gz

解压缩归档并将其移至/ usr / local /

# tar -xzvf hadoop-3.1.1.tar.gz
# mv hadoop-3.1.1 /usr/local/hadoop

更新默认环境变量以包含JAVA_HOME和Hadoop二进制目录。

首先，我们需要知道Java的安装位置，运行以下命令查找。

# update-alternatives --display java
java - manual mode
link best version is /usr/lib/jvm/java-8-oracle/jre/bin/java
link currently points to /usr/lib/jvm/java-8-oracle/jre/bin/java
link java is /usr/bin/java
slave java.1.gz is /usr/share/man/man1/java.1.gz
/usr/lib/jvm/java-8-oracle/jre/bin/java - priority 1081
slave java.1.gz: /usr/lib/jvm/java-8-oracle/man/man1/java.1.gz

如上所示，JAVA_HOME应设置为/ usr / lib / jvm / java-8-oracle / jre。

打开/etc/environment并更新PATH行以包含Hadoop二进制目录。

PATH="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/usr/local/hadoop/bin:/usr/local/hadoop/sbin"

为JAVA_HOME变量和YARN_RESOURCEMANAGER_OPTS变量添加一行。

vim
YARN_RESOURCEMANAGER_OPTS="--add-modules=ALL-SYSTEM"

确保该目录与上面的update-alternatives选项减去bin/java部分的输出相匹配。

接下来，我们将添加一个hadoop用户并为他们提供正确的权限。

# adduser hadoop
# usermod -aG hadoop hadoop
# chown hadoop:root -R /usr/local/hadoop
# chmod g+rwx -R /usr/local/hadoop

以hadoop用户身份登录并生成SSH密钥，只需要在Hadoop Master上完成此步骤。

# su - hadoop
# ssh-keygen -t rsa

接受ssh-keygen的所有默认值。

现在以hadoop用户身份登录并将SSH密钥复制到所有Hadoop节点。同样，只需要在Hadoop Master上完成此步骤。

# su - hadoop
$ ssh-copy-id hadoop@hadoop1.admintome.lab
$ ssh-copy-id hadoop@hadoop2.admintome.lab
$ ssh-copy-id hadoop@hadoop3.admintome.lab

配置Hadoop主服务器

打开/usr/local/hadoop/etc/hadoop/core-site.xml文件并输入以下内容：

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://hadoop1.admintome.lab:9000</value>
</property>
</configuration>

保存并退出。

接下来，打开/usr/local/hadoop/etc/hadoop/hdfs-site.xml文件并添加以下内容：

<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/usr/local/hadoop/data/nameNode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/usr/local/hadoop/data/dataNode</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>

保存并退出。

打开/usr/local/hadoop/etc/hadoop/workers文件并添加以下两行（每个Hadoop节点一行）

hadoop2.admintome.lab
hadoop3.admintome.lab

保存并退出。

将配置文件从Hadoop Master复制到每个Hadoop节点。

# scp /usr/local/hadoop/etc/hadoop/* hadoop2.admintome.lab:/usr/local/hadoop/etc/hadoop/
# scp /usr/local/hadoop/etc/hadoop/* hadoop3.admintome.lab:/usr/local/hadoop/etc/hadoop/

格式化HDFS文件系统

$ source /etc/environmnet
$ hdfs namenode -format

现在可以启动HDFS：

hadoop@hadoop1:~$ start-dfs.sh
Starting namenodes on [hadoop1.admintome.lab]
Starting datanodes
Starting secondary namenodes [hadoop1]
hadoop@hadoop1:~$

通过在所有Hadoop服务器上以Hadoop用户身份运行jps命令来验证所有内容是否正确启动。

在Hadoop Master上你应该可以看到如下结果：

hadoop@hadoop1:~$ jps
13634 Jps
13478 SecondaryNameNode
13174 NameNode

在每个Hadoop节点上，你应该可以看到：

hadoop@hadoop2:~$ jps
8672 Jps
8579 DataNode
HDFS Web UI

HDFS Web UI

现在，我们可以通过浏览到Hadoop主服务器端口9870来访问HDFS Web UI。

http://hadoop1.admintome.lab:9870

可以看到如下UI：

Ubuntu 18.04.1上安装Hadoop 3.1.1集群详解

如上所示，我们的HDFS文件系统上有近60 GB的空闲空间。

开始运行Yarn

现在HDFS正在运行，我们已准备好启动Yarn调度程序。

Hadoop本身需要运行任务，因此我们需要Yarn以在Hadoop集群上合理安排任务。

export HADOOP_HOME="/usr/local/hadoop"
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME

运行以下命令以启动Yarn：

$ start-yarn.sh
Starting resourcemanager
Starting nodemanagers

我们可以通过以下命令来验证是否可以正确启动：

$ yarn node -list
2018-08-15 04:40:26,688 INFO client.RMProxy: Connecting to ResourceManager at hadoop1.admintome.lab/192.168.1.35:8032
Total Nodes:2
Node-Id Node-State Node-Http-Address Number-of-Running-Containers
hadoop3.admintome.lab:35337 RUNNING hadoop3.admintome.lab:8042 0
hadoop2.admintome.lab:38135 RUNNING hadoop2.admintome.lab:8042 0

没有任何正在运行的容器，因为我们还没有开始任何工作。

Hadoop Web UI

我们可以通过以下URL来查看Hadoop Web UI：

http://hadoop1.admintome.lab:8088/cluster

替换Hadoop Master主机名：

Ubuntu 18.04.1上安装Hadoop 3.1.1集群详解

运行Hadoop任务示例

我们现在可以运行Hadoop任务示例并在集群上安排它，我们将运行的示例是使用MapReduce来计算PI。

运行以下命令来运行作业：

yarn jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.1.jar pi 16 1000

完成整个过程将需要几分钟的时间。完成后，应该可以看到它已经开始计算PI：

Job Finished in 72.973 seconds
Estimated value of Pi is 3.1425000000000000000

hadoop 集群服务器 bin

安科网

Ubuntu 18.04.1上安装Hadoop 3.1.1集群详解

wangzy0

wangzy0

相关推荐

hadoop 3.2.x 高可用集群搭建

Hadoop3.2.0集群搭建常见注意事项

为什么Java仍将是未来的主流语言？

hadoop伪分布式环境搭建

_服役新节点，退役旧节点，多目录配置。+_HDFS2.x的新特性

Hadoop（一）安装

第四周练习

Hadoop小练习

hadoop框架三大组件hdfs、mapreduce、yarn 内容

Hadoop基础（三十三）：Zookeeper 分布式安装部署

Hadoop基础（二十二）：Shuffle机制（三）

hdfs、hive、hbase的搭建总结

NameNode和Zookeeper的format作用

hadoop集群的启动与停止

JStorm介绍

Hadoop2.7.7 centos7 完全分布式配置与问题随记

Hadoop Yarn工作机制 Job提交流程

【赵强老师】大数据工作流引擎Oozie

Hadoop

入门大数据---Spark开发环境搭建

wangzy0