Hadoop 2.7.3 集群搭建及配置

ochangbluce

2019-06-21

关注关注

全程不推荐使用 root 操作,我采用的用户名是 junbaor

环境

OpenJDK-1.8
Hadoop 2.7.3
Ubuntu Server 17.04 (三台)

环境准备

安装 VMware Workstation
下载 Ubuntu Server 镜像
地址： https://mirrors.aliyun.com/ub...
安装过程自行解决,注意网络连接方式选择桥接, 不要复制物理主机网络
安装完成后克隆出另外两台, 选择完全克隆
分别修改每台虚拟机的主机名, 编辑 /etc/hostname ,完成后重启生效
修改所有主机的 /etc/hosts 文件, 不需要动 ipv6 部分

例如：

127.0.0.1       localhost

192.168.31.129  server-1
192.168.31.246  server-2
192.168.31.51   server-3

安装 jdk

sudo apt install openjdk-8-jdk -y

执行 java -version 可以看到版本号,
安装目录在/usr/lib/jvm/java-8-openjdk-amd64, 记下待会儿会用到

下载 Hadoop

wget http://mirrors.ustc.edu.cn/apache/hadoop/common/stable2/hadoop-2.7.3.tar.gz
tar zxvf hadoop-2.7.3.tar.gz
cd hadoop-2.7.3

配置免密码登录

cd ~/.ssh
ssh-keygen -t rsa

一直按回车,目录会生成 id_rsa 和 id_rsa.pub 文件

cat id_rsa.pub >> ./authorized_keys

需要把 id_rsa 和 authorized_keys 复制到其他子节点, 我们使用 scp 命令同步

scp id_rsa server-2:~/.ssh/
scp id_rsa server-3:~/.ssh/

scp authorized_keys server-2:~/.ssh/
scp authorized_keys server-3:~/.ssh/

分别在每台主机上连接其他主机

例如在 server-1 上

ssh server-2

询问授权时输入Y, 如果能连入, 使用 exit 命令退出, 继续尝试其他主机，直到集群中的所有主机可以两两相通

2017年6月20日补充：可以修改 ssh 的 StrictHostKeyChecking no 配置达到连接新主机不需要输入 Y 验证的目的.

配置 Hadoop

配置 JAVA_HOME

进入到 hadoop-2.7.3 的 /etc/hadoop/ 目录, 编辑 hadoop-env.sh 文件
找到 JAVA_HOME 改为 JDK 的安装目录

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

修改 slaves

将 localhost 删除, 填入两个从节点的主机名

server-2
server-3

修改 core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://server-1:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/home/junbaor/hadoop/tmp</value>
    </property>
</configuration>

修改 hdfs-site.xml

<configuration>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>server-1:50090</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/home/junbaor/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/home/junbaor/tmp/dfs/data</value>
    </property>
</configuration>

编辑 mapred-site.xml

目录下么没有这个文件,这有一个模板,我们需要先拷贝一份

cp  mapred-site.xml.template mapred-site.xml

然后编辑

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>server-1:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>server-1:19888</value>
    </property>
</configuration>

修改 yarn-site.xml

<configuration>
    
    <!-- Site specific YARN configuration properties -->
    
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>server-1</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

复制到从节点

将 hadoop-2.7.3 文件夹重打包后复制到其他子节点

tar zcvf hadoop.tar.gz hadoop-2.7.3
scp hadoop.tar.gz server-2:/home/junbaor/
scp hadoop.tar.gz server-3:/home/junbaor/

然后在各子节点解压, 推荐集群中所有的文件目录结构保持一致

启动

启动停止操作只在主节点执行即可

首次启动需要先在 Master 节点执行 NameNode 的格式化：
cd 到 hadoop-2.7.3/bin 目录下,执行 ./hdfs namenode -format

然后就可以启动 hadoop
cd 到 hadoop-2.7.3/sbin 目录

./start-dfs.sh
./start-yarn.sh
./mr-jobhistory-daemon.sh start historyserver

查询状态

可以通过 jps 命令查看 java 进程, 缺少以下任一进程都表示出错

#主节点执行结果：  
NameNode、ResourceManager、SecondrryNameNode、JobHistoryServer

#从节点执行结果：
DataNode、NodeManager

如果主机点缺少 NameNode 请检查是否执行了 NameNode 的格式化或者检查各节点的 NameNode 日志

另外还需要在主节点上通过 bin 下的 ./hdfs dfsadmin -report命令查看 DataNode 是否正常启动，如果 Live datanodes 不为 0 ，则说明集群启动成功

也可以通过 Web 页面看到查看 DataNode 和 NameNode 的状态：http://server-1:50070
或者通过 http://server-1:8088 查看集群状态

参考资料

http://www.powerxing.com/inst...

ssh hadoop hadoop集群搭建

ochangbluce

0 关注 0 粉丝 0 动态

关注关注

hadoop 3.2.x 高可用集群搭建

配置 hadoop 高可用集群的原因：如果集群只有一个 NameNode，若NameNode 节点出现故障，那么整个集群都无法使用，也就是存在单点故障的隐患，hadoop 高可用集群能够实现 standby NameNode 自动切换为 active。HA

飞鸿踏雪0 2020-06-12

hadoop安装教程

sudo vi /etc/hostname #修改主机名。安装openssh-server，所以需要自己安装一下服务端。输入 cd .ssh目录下，如果没有.ssh文件输入 ssh localhost生成。chmod 600 authorized_k

Elmo 2020-06-11

Navicat如何远程连接云服务器数据库

本来没有开启秘钥的远程服务器端数据库连接非常方便，就在新建连接上填入数据就ok了，但是开启SSH秘钥后的服务器连接有一个大坑，下面来详细讲讲。这里的SSH部分就好了，千万别急着测试。对了最后还要说一句，测试成功之后按确定之后，当你双击数据库的时候，有一件很

projava 2020-11-14

用docker运行postgreSQL的方法步骤

drwx------ 19 polkitd ssh_keys 4096 Jan 14 08:40 .drwxr-xr-x 3 root root 4096 Jan 14 08:33 ..drwx------ 5 polkitd ssh_keys 40

WanKaShing 2020-11-12

Linux ssh服务器配置代码实例

使用如下终端命令可以在 Linux 主机中安装 ssh服务器sudo apt-get install openssh-server. 1 upgraded, 5 newly installed, 0 to remove and 438 not upgrad

airfish000 2020-09-11

我用过的几款SSH客户端工具

最开始接触电脑的时候，是因为网络游戏，那时候就是只会用开关机和玩游戏，后来自学转行到IT界之后，就慢慢的接触到了Linux系统了。要远程操作Linux的话还是得靠SSH工具，一般来说，Linux是打开了默认22端口的SSH的服务端，如果我们要远程它的话，就

tryfind 2020-09-14

SSH只能用于远程Linux主机？那说明你见识太小了！

今天为大家分享一篇关于SSH 的介绍和使用方法的文章。本文从SSH是什么出发，讲述了SSH的基本用法，之后在远程登录、端口转发等多种场景下进行独立的讲述，希望能对大家有所帮助。SSH是一种网络协议，用于计算机之间的加密登录。最早的时候，互联网通信都是明文通

yegen00 2020-09-10

SSH只能用于远程Linux主机？那说明你见识太小了！

kkaazz 2020-09-03

学会这5招，让Linux排障更简单

Linux排障技巧在数据中心十分受人重视。数据中心专家对此提供了一些Linux服务器排障相关的性能问题、优化和便利工具参考。这些仅仅是大量Linux性能工具中的其中几个，可以利用这些工具来观察带宽、性能状态并进行动态追踪。这些工具听起来可能不起眼，但实施得

风语者 2020-09-02

win10下用ssh做端口转发时因为localhost解析引起的失败

这个命令在win7下面跑没有问题，但是win10下面跑，就总是不能成功。加上-v -v -v参数查看ssh的输出日志，发现存在read failed, write failed等日志。后面通过网络搜索得到提示，是不是localhost的解析不对。执行 pi

BraveWangDev 2020-08-19

使用VSCode的Remote-SSH连接Linux进行远程开发

首先打开你的VSCode，找到Extensions，搜索Remote，下载Remote-Developoment插件，会自动安装其他的Remote插件，其中会包含Remote-SSH：。进入设置，搜索ssh，找到并选中拓展中的Remote-SSH中的Sho

lichuanlong00 2020-08-15

解决VScode配置远程调试Linux程序的问题

最近在Linux上调程序，但是gdb使用属于入门阶段，主要是没有图形化界面直观。在网上查找了有两个方案可选，一个是通过VisualStudio2019的远程调试功能，因为最近一直在用VScode，所以没有试，之后有时间了可以试一下。本文介绍下这个方案。虽然

gsl 2020-08-15

CodeReview实践-Gerrit自动触发JenkinsCI

当前团队使用Gerrit来做代码管理、CodeReview。计划实现当review提交到了Gerrit并且review通过自动触发Jenkins流水线。以前接触Gitlab比较多，Gerrit还是第一次开始用，踩了点坑记录下来。本文主要讲述Gerrit T

pandaphinex 2020-08-09

Git配置及使用(使用云服务器）

本文主要提供一个完整的流程参考，对于一些细节或者基础的部分需要读者查阅其他文章，以免让阅读者迷惑，本文会做出适当提醒。a.先查看自己是否安装git或者其版本，如果安装了且版本较低则卸载，没安装则继续本节。git init --bare sample.git

yhuihon 2020-08-09

Ubuntu 20.04 Install SSH, Change SSH Port, Enable root

$ sudo apt install openssh-server$ systemctl status sshd$ sudo systemctl restart ssh$ sudo ufw allow ssh$ sudo systemctl enable

CheNorton 2020-08-02

xiangqiao 2020-07-28

ssh无法启动 (code=exited, status=255)

服务器运行了一些脚本后，突然发现无法ssh了。See "systemctl status ssh.service" and "journalctl -xe" for details.Systemd的功能是用于集中管理

hpujsj 2020-07-26

记录：部署Ansible，Ansible ad-hoc应用(1

准备如表-1所示的实验环境，操作系统为RHEL8，配置主机名称、IP地址、YUM源。ansible通过ssh远程被管理主机，将控制端的模块（脚本）或命令传输到被管理主机；最后ansible退出ssh远程。绝大多数模块（脚本）都需要参数才能执行成功！！！类似

hpujsj 2020-07-26

ssh配置、vscode使用及常用扩展

　　1.3 命令行输入cd .ssh进入目录，按下tab切换到id_rsa.pub文件回车即可打开，　　复制内容打开github，Settings > SSH and GPG keys > New SSh keys. 　　打开vscode，左

sshong 2020-07-19

华为华三思科交换机设置SSH登录

华为交换机：1.开启stelnet服务2.生成本地密钥对;3.配置远程登录的认证模式aaa和远程登录的协议ssh3.配置aaa的本地用户用户supadmin;4.配置SSH用户supadmin认证类型为password和服务类型为STelnet;syste

BraveWangDev 2020-07-19