hadoop集群搭建

Harper

2017-08-12

关注关注

第一步：搭建配置新的虚拟机

格式化之前先把tmp目录下所有与Hadoop有关的信息全部删除

rm -rf /tmp/hadoop-centos*

开启之后jps只有Java的进程：sudo vi /etc/hosts 里面加 bogon

1.sudo赋权

Root用户 vi /etc/sudoers

/root n（查找下一个结果）

centos ALL=(ALL) NOPASSWD:ALL

2.修改ens33网卡（桥接模式静态IP）

创建官网：www.fhadmin.org 软链接

ln –s /etc/sysconfig/network-scripts/ifcfg-ens33 ens33

修改配置文件

vi /etc/sysconfig/network-scripts/ifcfg-ens33

TYPE=Ethernet

BOOTPROTO=static

DEFROUTE=yes

PEERDNS=yes

PEERROUTES=yes

IPV4_FAILURE_FATAL=no

IPV6INIT=yes

IPV6_AUTOCONF=yes

IPV6_DEFROUTE=yes

IPV6_PEERDNS=yes

IPV6_PEERROUTES=yes

IPV6_FAILURE_FATAL=no

IPV6_ADDR_GEN_MODE=stable-privacy

NAME=ens33

UUID=51248a5b-aece-4777-ab51-7b5e61602180

DEVICE=ens33

ONBOOT=yes

IPADDR=192.168.12.206

NETMASK=255.255.255.0

GATEWAY=192.168.12.1

DNA1=219.141.136.10

DNS2=202.106.196.115

DNS3=8.8.8.8

DNS4=114.114.114.114

改完后重启network服务

sudo systemctl restart network

虚拟机上右键-->设置-->网络适配器-->桥接模式

检测是否连接网络官网：www.fhadmin.org ping www.baidu.com

3.修改主机名

sudo vi /etc/hostname

原来内容全部删除写入s126

重启虚拟机

4.安装JDK和Hadoop

1.上传文件包

2.解压 tar –zxvf ****

3.创建软链接 ln –s *** hadoop

tar -zxvf jdk-8u121-linux-x64.tar.gz

ln -s jdk1.8.0_121 java

rm -rf jdk-8u121-linux-x64.tar.gz

tar -zxvf hadoop-2.8.0.tar.gz

ln -s hadoop-2.8.0 hadoop

rm -rf hadoop-2.8.0.tar.gz

4.配置环境变量

sudo vi /etc/profile

#java

JAVA_HOME=/home/centos/java

export PATH=$PATH:$JAVA_HOME/bin

#hadoop

HADOOP_HOME=/home/centos/hadoop

Export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

vi ~/hadoop/etc/hadoop/hadoop-env.sh

#java

export JAVA_HOME=/home/centos/java

5.刷新配置文件

source /etc/profile

5.关闭防火墙

sudo systemctl stop firewalld关闭防火墙

sudo systemctl start firewalld开启防火墙

sudo systemctl disable firewalld禁用防火墙（开机不启动）

sudo systemctl enable firewalld使用防火墙（开机启动）

sudo systemctl status firewalld查看防火墙状态

第二步：Hadoop集群搭建

1.独立模式

1、将hadoop的jar包上传服务器

2、解压tar包

tar –zxvf ****

3、创建软连接

ln –s *** hadoop

4、配置环境变量

[vi /etc/profile]

最下面加上

#hadoop

HADOOP_HOME=/home/centos/hadoop

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

最后保存文件加载环境变量配置文件

source /etc/profile

5、修改hadoop环境变量配置文件配置jdk路径

[$HADOOP_HOME/etc/hadoop/hadoop-env.sh]

6、测试

hadoop version

默认hadoop就是独立模式。

特点：运行任务是一个java进程，就相当于运行一个java程序

2.伪分布式模式配置

修改hdfs配置文件

vi ~/hadoop/etc/hadoop/core-site.xml

cd ~/hadoop/etc/hadoop

[core-site.xml]

<name>fs.defaultFS</name>

</property>

</configuration>

vi ~/hadoop/etc/hadoop/hdfs-site.xml

[hdfs-site.xml]

<name>dfs.replication</name>

</property>

</configuration>

设置ssh免密登录

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

chmod 600 ~/.ssh/authorized_keys

检测方式：ssh localhost/主机真实ip

格式化文件系统

hadoop namenode -format

启动文件系统

jps 检测Java开启的进程

start-dfs.sh 启动文件系统（启动了三个java进程）

jps 再次检测Java开启的进程（应该是4个）

配置yarn资源管理器

cd ~/hadoop/etc/hadoop

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

</configuration>

vi yarn-site.xml

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

start-dfs.sh && start-yarn.sh && jps

3.完全分布式

配置/etc/hosts文件（本地静态DNS）

首行加上 : bogon

增加:

192.168.12.201 s201

192.168.12.202 s202

192.168.12.203 s203

1.设置ssh免密登录：

(现在别的主机ssh 主机IP 然后把宿主机复制过去的权限600)

效果：官网：www.fhadmin.org 从主机上能通过ssh免密登录

目的：在主机上通过ssh执行命令

设置的方式：

首先给主机设置ssh免密登录，将主机的公钥(id_rsa.pub)通过scp命令发送到其他主机，在其他主机上将获取到的公钥追加到~/.ssh/authorized_keys。

主机：

ssh-keygen –t rsa –P '' –f ~/.ssh/id_rsa

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

chmod 600 ~/.ssh/authorized_keys

scp ~/.ssh/id_rsa.pub [email protected]:~/.ssh/id_rsa.pub.s201

s202：

s203：

cat ~/.ssh/id_rsa.pub.s201 >> ~/.ssh/authorized_keys

2.shell脚本的操作：

主机写分发脚本cpTo，查看脚本xcall。赋予执行权限。移动到/usr/local/bin目录下，以便我们能在任何地方使用脚本

[cpTo]

#脚本的目的是：修改完了主机的文件以后，可以通过它分发到其他主机，实现同步

#脚本的用法：cpTo 文件（绝对路径/相对路径）

#!/bin/bash

#获取参数的绝对路径

dirname=`cd $(dirname $1); pwd`

basename=`basename $1`

echo ${dirname}/${basename}

for i in s202 s203

echo "=================$i ${dirname}/${basename}=================="

ssh $i mkdir -p ${dirname}

#远程拷贝文件

scp $1 ${i}:${dirname}/${basename}

done

[xcall.sh]

#作用是通过ssh远程运行命令，比如查看jps，在比如删除/tmp

#用法：xcall 命令

#!/bin/bash

for host in s201 s202 s203

echo "====================echo $host $@==========================="

#ssh远程执行命令

#$@获取所有参数

#source /etc/profile 因为ssh远程执行命令不去加载/etc/profile，所以很多命令没法用

ssh $host "source /etc/profile && $@"

Done

3.软件安装的操作

安装官网：www.fhadmin.org jdk、hadoop、配置环境变量JAVA_HOME、HADOOP_HOME，可以通过xcall脚本来同步安装

在主机上修改hosts文件，给主机配置所有机器的dns服务，使用cpTo脚本分发到其他机器，让其他机器也有dns服务

注意：/etc/hosts是root用户的文件，所以需要切换到root执行

dns服务：可以将域名解析为ip地址。比如ping s201，解析成ping 192.168.12.201

4.配置文件操作

在主机上修改hadoop的配置文件：

[Hadoop-en.sh] [core-site.xml] [hdfs-site.xml] [mapred-site.xml] [yarn-site.xml] [slaves]

通过cpTo脚本进行分发（可以分发上一级目录来全部分发）

1、[hadoop-env.sh]配置javahome

2、[core-site.xml]配置连接url

[core-site.xml]

<name>fs.defaultFS</name>

</property>

</configuration>

3、[hdfs-site.xml]配置的是副本数

<name>dfs.replication</name>

</property>

</configuration>

4、[mapred-site.xml]配置运行map任务采用的集群资源管理框架

<name>mapreduce.framework.name</name>

</property>

</configuration>

5、[yarn-site.xml]配置RM的节点和数据传输方式

<name>yarn.resourcemanager.hostname</name>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>

6、[slaves]配置datanode节点和NM节点

s201

s202

s203

5.主机格式化文件系统

只需要在主机格式化文件系统（xcall删除数据目录/tmp/hadoop*，日志文件/logs/*）

启动hdfs文件系统和yarn框架

xcall查看启动是否成功/看web

第三步：配置项目

1、将要统计的文件（wordcount.txt）上传到hdfs

hdfs dfs –put 本地文件 hdfs目录

hdfs dfs -put wordCount2.txt /user

2、运行任务

hadoop jar jar包 com.zdjy.bigdata.wordCount.hadoop.WordCountApp hdfs输入文件

hdfs输出目录

hadoop jar wordCount.jar com.zdjy.WordCountApp /user/wordCount2.txt /saa

3、查看结果

hdfs dfs –cat hdfs输出目录下的文本文件 (hdfs dfs -cat /saa/*)

4.关闭文件系统

hdfs dfs -mkdir /user

hdfs dfs -ls -R /

hdfs -dfs -put wordCount2.txt /user

hdfs dfs -put wordCount2.txt /user

hdfs dfs -ls -R /

hadoop jar wordCount-0.0.1-SNAPSHOT.jar

com.zdjy.bigdata.wordCount.hadoop.WordCountApp

/user/wordCount2.txt /out

hdfs dfs -cat /out/*

5.在浏览器上看web（sudo systemctl stop firewalld关闭防火墙）

http://192.168.12.206:50070

文件系统：50070

yarn：8088

ssh免密登录与手动单独启动每一个进程

设置ssh免密登录的原因：我们start-dfs.sh/start-yarn.sh他们都是通过ssh来远程控制每一台主机的进程的启动

[start-dfs.sh]

if [ -n "$HADOOP_SECURE_DN_USER" ]; then

echo \

"Attempting to start secure cluster, skipping datanodes. " \

"Run start-secure-dns.sh as root to complete startup."

else

"$HADOOP_PREFIX/sbin/hadoop-daemons.sh" \

--config "$HADOOP_CONF_DIR" \

--script "$bin/hdfs" start datanode $dataStartOpt

[Hadoop-daemons.sh]

exec "$bin/slaves.sh" --config $HADOOP_CONF_DIR cd "$HADOOP_PREFIX" \; "$bin/hadoop-daemon.sh" --config $HADOOP_CONF_DIR "$@"

[slaves.sh]

for slave in $SLAVE_NAMES ; do

ssh $HADOOP_SSH_OPTS $slave $"${@// /\\ }" \

2>&1 | sed "s/^/$slave: /" &

if [ "$HADOOP_SLAVE_SLEEP" != "" ]; then

sleep $HADOOP_SLAVE_SLEEP

done

我们手动启动每一个进程

主机启动namenode

hadoop-daemon.sh start namenode

所有机器手动启动datnode

hadoop-daemon.sh start datanode

在主机上手动启动datanode

ssh s202 “source /etc/profile && hadoop-daemon.sh start datanode”

在主机上脚本启动所有datanode

hadoop-daemons.sh start datanode

在主机启动secondarynamenode

主机启动resourcemanager

yarn-daemon.sh start resourcemanager

所有机器启动nodemanager

yarn-daemon.sh start nodemanager

在主机启动所有的nodemanager

yarn-daemons.sh start nodemanager

start-dfs.sh=NN,DNs,2NN

start-yarn.sh=RM,NMs

start-all.sh= start-dfs.sh && start-yarn.sh

hadoop集群搭建 hadoop font-size sudo

Harper

0 关注 0 粉丝 0 动态

关注关注

Hadoop3.2.0集群搭建常见注意事项

hadoop-env.sh中不光需要配置java-home,还需要声明下面这些用户变量,不然无法启动:. 如果出现这个说明连接配置有问题,查看core-site.xml配置,这个是配置datanode和namnode通信的:. hdfs应该配置成namno

changjiang 13评论 2020-11-16

hadoop伪分布式环境搭建

core-site.xml文件主要配置了访问Hadoop集群的主要信息，其中master代表主机名称，也可以使用IP替换，9000代表端口。外部通过配置的hdfs：//master：9000信息，就可以找到Hadoop集群。hdfs-site.xml配置文

WeiHHH 2020-09-23

hadoop 3.2.x 高可用集群搭建

配置 hadoop 高可用集群的原因：如果集群只有一个 NameNode，若NameNode 节点出现故障，那么整个集群都无法使用，也就是存在单点故障的隐患，hadoop 高可用集群能够实现 standby NameNode 自动切换为 active。HA

飞鸿踏雪0 2020-06-12

Hadoop 安装详细步骤

如果你想通过这篇博客在本地成功搭建 Hadoop 集群的话，你需要先跟着视频课程三天入门大数据实操课程在本地搭建集群环境，在这个视频课程中你需要学习的章节是：。我们这篇文章以 Hadoop 2.x 系列的 Hadoop 2.7.5 版本为例来进行安装。

WeiHHH 2020-04-29

hadoop 简单安装部署

hadoop第一课：虚拟机搭建和安装hadoop及启动。hadoop第二课：hdfs集群集中管理和hadoop文件操作。hadoop第四课：Yarn和Map/Reduce配置启动和原理讲解。hadoop第五课：java开发Map/Reduce

Aleks 2020-04-26

Spark集群式安装部署

在master节点上安装配置完成Spark后，将整个spark目录拷贝到其他节点，并在各个节点上更新/etc/profile文件中的环境变量。- 在master节点启动Hadoop集群- 在master节点启动spark [spark-2.4.

飞鸿踏雪0 2020-04-16

关于Hadoop生态中的HA方案的一点思考

在给学生授课和搭建Hadoop生态实验环境的过程中，我发现无论是网络上的参考资料、还是来自大数据服务功供应商的运维文档，给出Hadoop的HA解决方案都如出一辙——使用 ZooKeeper 加 Quorum Journal Manager 方案。诚然，这一

strongyoung 2020-02-29

Hadoop伪分布式安装

伪分布式只需要一台服务器就可以完成，搭建集群之前需要selinux和防火墙。更改hadoop程序包内 hadoop-env.sh，mapred-env.sh，yarn-env.sh中的JAVA_HOME环境变量

Elmo 2020-02-22

Hadoop：Hadoop的学习路线

这里介绍在windows电脑搭建完全分布式，1主2从。主要适用于大批量的集群任务，由于是批量执行，故时效性偏低。Spark 是专为大规模数据处理而设计的快速通用的计算引擎，其是基于内存的迭代式计算。

IT智囊 2020-02-15

HDFS命令行操作和 api操作

HDFS，是Hadoop Distributed File System的简称，是Hadoop抽象文件系统的一种实现。Hadoop抽象文件系统可以与本地系统、Amazon S3等集成，甚至可以通过Web协议来操作。HDFS的文件分布在集群机器上，同时提供副

zzjmay 2020-01-17

搭建高可用的flink JobManager HA

　　JobManager协调每个flink应用的部署，它负责执行定时任务和资源管理。　　下面开始构建一个单机版flink的JobManger高可用HA版。　　首先需要设置SSH免密登录，因为启动的时候程序会通过远程登录访问并且启动程序。　　执行命令，就可以

IT智囊 2020-01-01

常用组件、kafka集群、hadoop高可用

2）安装 java-1.8.0-openjdk-devel,由于之前的hadoop上面已经安装过，这里不再安装，若是新机器要安装。6）创建 mkdir /tmp/zookeeper，每一台都要nn01 conf]# mkdir /tmp/zookeeper

飞鸿踏雪0 2020-01-10

大数据入门第一课 Hadoop基础知识与电商网站日志数据分析

本课程从Hadoop核心技术入手，以电商项目为依托，带领你从0基础开始上手，逐步掌握大数据核心技术，并使用这些技术进行实战，最终完成电商行为日志分析项目，让你轻松入门大数据！系统讲解Hadoop 2.x中核心组件的原理及应用典型阶段案例+电商行为日志分析实

Elmo 2020-01-10

【大数据面试宝典】第一篇 Hadoop 面试题

SecondaryNameNode辅助名称节点端口号：50090. 历史服务器web访问端口：19888. 然后就是各个组件的介绍了，简单的介绍一下就好了。-- 指定Hadoop运行时产生文件的存储目录 -->. -- 如果 HDFS 上有一个节点

飞鸿踏雪0 2020-01-08

如何搭建Hadoop集群环境

解压 tar -xvf hadoop-2.1.0-bin.tar.gz 到一个目录比如/home/gird. 配置 hadoop-env.sh, core-site.xml， hdfs-site.xml，mapred-site.xml ，masters

文洲 2014-06-09

新人学步:hbase与hadoop搭建过程

因为工作需要，我们使用hbase + hadoop存储基于用户内容的数据，本文将描述如何逐步搭建此平台，仅作参考。本例中所有机器使用root用户操作。一路回车，均采用默认配置，无password设置。我们依次在上述三台机器上执行ssh-keygen命令。建

whspringer 2014-05-30

Hadoop学习之路(1)腾讯云搭建Hadoop3集群

使用此命令：ssh-keygen -t rsa 分别在三台机器中都执行一遍,这里只在node1上做演示，其他两台机器也需要执行此命令。127.17.0.17是服务器node1的内网地址127.17.0.7是服务器node2的内网地址127.17.0.8是服

Elmo 2019-12-21

初识Hadoop

Hadoop能搭建大型数据仓库、PB级数据的存储、处理、分析、统计等业务，如搜索引擎、日志分析、商业智能、数据挖掘

strongyoung 2019-12-16

Hadoop完全分布式集群搭建

单机模式，默认情况下，Hadoop即处于该模式，使用本地文件系统，而不是分布式文件系统。，用于开发和调试。伪分布式模式，使用的是分布式文件系统，守护进程运行在本机机器，模拟一个小规模的集群，在一台主机模拟多主机，适合模拟集群学习。完全分布式集群模式，Had

WeiHHH 2019-12-16

搭建Hadoop集群需要注意的问题：

搭建Hadoop集群需要注意的问题：。[master：主机名server1：第一台从机名server2：第二台从机名]. 接下来依次检查以下文件：。如果没有，进到 modules，发送。如果有错误，欢迎大家指出~

IT智囊 2019-12-15

安科网

hadoop集群搭建

Harper

第一步：搭建配置新的虚拟机

1.sudo赋权

2.修改ens33网卡（桥接模式静态IP）

3.修改主机名

4.安装JDK和Hadoop

5.关闭防火墙

第二步：Hadoop集群搭建

1.独立模式

2.伪分布式模式配置

3.完全分布式

第三步：配置项目

ssh免密登录与手动单独启动每一个进程

Harper

相关推荐

Hadoop3.2.0集群搭建常见注意事项

hadoop伪分布式环境搭建

hadoop 3.2.x 高可用集群搭建

Hadoop 安装详细步骤

hadoop 简单安装部署

Spark集群式安装部署

关于Hadoop生态中的HA方案的一点思考

Hadoop伪分布式安装

Hadoop：Hadoop的学习路线

HDFS命令行操作和 api操作

搭建高可用的flink JobManager HA

常用组件、kafka集群、hadoop高可用

大数据入门第一课 Hadoop基础知识与电商网站日志数据分析

【大数据面试宝典】第一篇 Hadoop 面试题

如何搭建Hadoop集群环境

新人学步:hbase与hadoop搭建过程

Hadoop学习之路(1)腾讯云搭建Hadoop3集群

初识Hadoop

Hadoop完全分布式集群搭建

搭建Hadoop集群需要注意的问题：

Harper