Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程

linchunhua

2017-06-17

Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程

一、修改hosts文件

在主节点，就是第一台主机的命令行下;

vim /etc/hosts

我的是三台云主机：

在原文件的基础上加上;

ip1 master worker0 namenode
ip2 worker1 datanode1
ip3 worker2 datanode2

其中的ipN代表一个可用的集群IP，ip1为master的主节点，ip2和iip3为从节点。

二、ssh互信（免密码登录）

注意我这里配置的是root用户，所以以下的家目录是/root

如果你配置的是用户是xxxx，那么家目录应该是/home/xxxxx/

#在主节点执行下面的命令：ssh-keygen -t rsa -P '' #一路回车直到生成公钥scp /root/.ssh/id_rsa.pub root@worker1:/root/.ssh/id_rsa.pub.master #从master节点拷贝id_rsa.pub到worker主机上,并且改名为id_rsa.pub.master
scp /root/.ssh/id_rsa.pub root@worker1:/root/.ssh/id_rsa.pub.master #同上，以后使用workerN代表worker1和worker2.scp /etc/hosts root@workerN:/etc/hosts   #统一hosts文件，让几个主机能通过host名字来识别彼此
#在对应的主机下执行如下命令：
cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys #master主机
cat /root/.ssh/id_rsa.pub.master >> /root/.ssh/authorized_keys #workerN主机

这样master主机就可以无密码登录到其他主机，这样子在运行master上的启动脚本时和使用scp命令时候，就可以不用输入密码了。

三、安装基础环境（JAVA和SCALA环境）

1.Java1.8环境搭建：

配置master的java环境

#下载jdk1.8的rpm包wget --no-check-certificate --no-cookies --header "Cookie: Oraclelicense=accept-securebackup-cookie" http://download.oracle.com/otn-pub/java/jdk/8u112-b15/jdk-8u112-linux-x64.rpm 
rpm -ivh jdk-8u112-linux-x64.rpm 
#增加JAVA_HOMEvim etc/profile
#增加如下行：
#Java home
export JAVA_HOME=/usr/java/jdk1.8.0_112/#刷新配置：source /etc/profile #当然reboot也是可以的

配置workerN主机的java环境

#使用scp命令进行拷贝
scp jdk-8u112-linux-x64.rpm root@workerN:/root
#其他的步骤如master节点配置一样

2.Scala2.12.2环境搭建：

Master节点：

#下载scala安装包：
wget -O "scala-2.12.2.rpm" "https://downloads.lightbend.com/scala/2.12.1/scala-2.12.2.rpm"#安装rpm包：
rpm -ivh scala-2.12.2.rpm
#增加SCALA_HOME
vim /etc/profile
#增加如下内容;
#Scala Home
export SCALA_HOME=/usr/share/scala

#刷新配置
source /etc/profile

WorkerN节点;

#使用scp命令进行拷贝
scp scala-2.12.2.rpm root@workerN:/root

#其他的步骤如master节点配置一样

四、Hadoop2.7.3完全分布式搭建

MASTER节点：

1.下载二进制包：

wget http://www-eu.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

2.解压并移动至相应目录

我的习惯是将软件放置/opt目录下：

tar -xvf hadoop-2.7.3.tar.gz
mv hadoop-2.7.3 /opt

3.修改相应的配置文件：

（1）/etc/profile：

增加如下内容：

#hadoop enviroment 
export HADOOP_HOME=/opt/hadoop-2.7.3/
export PATH="$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH"
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

（2）$HADOOP_HOME/etc/hadoop/hadoop-env.sh

修改JAVA_HOME 如下：

export JAVA_HOME=/usr/java/jdk1.8.0_112/

（3）$HADOOP_HOME/etc/hadoop/slaves

worker1
worker2

（4）$HADOOP_HOME/etc/hadoop/core-site.xml

<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://master:9000</value>
        </property>
        <property>
         <name>io.file.buffer.size</name>
         <value>131072</value>
       </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/opt/hadoop-2.7.3/tmp</value>
        </property>
</configuration>

（5）$HADOOP_HOME/etc/hadoop/hdfs-site.xml

<configuration>
    <property>
      <name>dfs.namenode.secondary.http-address</name>
      <value>master:50090</value>
    </property>
    <property>
      <name>dfs.replication</name>
      <value>2</value>
    </property>
    <property>
      <name>dfs.namenode.name.dir</name>
      <value>file:/opt/hadoop-2.7.3/hdfs/name</value>
    </property>
    <property>
      <name>dfs.datanode.data.dir</name>
      <value>file:/opt/hadoop-2.7.3/hdfs/data</value>
    </property>
</configuration>

（6）$HADOOP_HOME/etc/hadoop/mapred-site.xml

复制template，生成xml：

cp mapred-site.xml.template mapred-site.xml

内容：

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:19888</value>
</property>
</configuration>

（7）$HADOOP_HOME/etc/hadoop/yarn-site.xml

<!-- Site specific YARN configuration properties -->
         <property>
          <name>yarn.nodemanager.aux-services</name>
          <value>mapreduce_shuffle</value>
     </property>
     <property>
           <name>yarn.resourcemanager.address</name>
           <value>master:8032</value>
     </property>
     <property>
          <name>yarn.resourcemanager.scheduler.address</name>
          <value>master:8030</value>
      </property>
     <property>
         <name>yarn.resourcemanager.resource-tracker.address</name>
         <value>master:8031</value>
     </property>
     <property>
         <name>yarn.resourcemanager.admin.address</name>
         <value>master:8033</value>
     </property>
     <property>
         <name>yarn.resourcemanager.webapp.address</name>
         <value>master:8088</value>
     </property>

至此master节点的hadoop搭建完毕

再启动之前我们需要

格式化一下namenode

hadoop namenode -format

WorkerN节点：

（1）复制master节点的hadoop文件夹到worker上：

scp -r /opt/hadoop-2.7.3 root@wokerN:/opt #注意这里的N要改为1或者2

（2）修改/etc/profile：

过程如master一样

五、Spark2.1.0完全分布式环境搭建：

MASTER节点：

1.下载文件：

wget -O "spark-2.1.0-bin-hadoop2.7.tgz" "http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz"

2.解压并移动至相应的文件夹;

tar -xvf spark-2.1.0-bin-hadoop2.7.tgz
mv spark-2.1.0-bin-hadoop2.7 /opt

3.修改相应的配置文件：

（1）/etc/profie

#Spark enviroment
export SPARK_HOME=/opt/spark-2.1.0-bin-hadoop2.7/
export PATH="$SPARK_HOME/bin:$PATH"

（2）$SPARK_HOME/conf/spark-env.sh

cp spark-env.sh.template spark-env.sh

#配置内容如下：export SCALA_HOME=/usr/share/scala
export JAVA_HOME=/usr/java/jdk1.8.0_112/
export SPARK_MASTER_IP=master
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/opt/hadoop-2.7.3/etc/hadoop

（3）$SPARK_HOME/conf/slaves

cp slaves.template slaves

配置内容如下

master
worker1
worker2

WorkerN节点：

将配置好的spark文件复制到workerN节点

scp spark-2.1.0-bin-hadoop2.7 root@workerN:/opt

修改/etc/profile，增加spark相关的配置，如MASTER节点一样

root scala rpm

linchunhua

0 关注 0 粉丝 0 动态

关注关注

centos安装mysql5.7

登录mysqlmysql -u root -p修改初始root密码ALTER USER ‘root‘@‘localhost‘ IDENTIFIED BY ‘‘;firewall-cmd --zone=public --add-port=3306/tcp -

summerinsist 2020-08-21

Linux 中shell脚本设置开头固定格式的实现方法

每次进入shell都要设置开头，很麻烦，现修改vim配置文件即可。之后新建一个shell ，开头就会有固定的格式。这是在root用户下的配置，切换到用户使用shell 可能还是什么都没有，不过一般都是用root用户进行机器的管理。不加sudo 没有权限进入

yutou0 2020-10-17

如何在 Linux 上扫描/检测新的 LUN 和 SCSI 磁盘

当 Linux 系统连接到 SAN后，你需要重新扫描 iSCSI 服务以发现新的 LUN。要做到这一点，你必须向存储团队提供 Linux 主机的 WWN 号和所需的 LUN 大小。LUN 在存储术语中被称为 LUN 的串行十六进制。这可以通过两种方式进行，

codedecode 2020-11-14

CentOS 7下 YUM 本地仓库的搭建

将CentOS7.iso文件从mac拷贝到虚拟机/data/下 . 这种方式主要针对我们平时已经收藏了一些RPM软件包，我们想把收集起来的RPM包做成自己的YUM仓库，这样便于离线安装，非常灵活方便。创建本地仓库的目录，例如我创建在主目录下的loca

87901735 2020-08-19

找不到文件vmdk虚拟磁盘

-rw------- 1 root root 42949672960 Aug 14 13:59 linux-172.16.2.12-flat.vmdk. -rw------- 1 root root

benico 2020-08-19

MySQL忘记root密码错误号码1045的解决办法

切换到MySQL安装路径下：D:\mysql-5.7.24-winx64\bin；如果已经配了环境变量，则不用再安装目录。select host,user,password from mysql.user;//即可查看到用户和密码。update user

Rain 2020-08-15

PHP代码覆盖率统计详解

此处选了phpunit 6.5.0 和phpcov 4.0.8，编辑composer.json文件。php return unserialize;';#获取覆盖结果，注意使用了反序列化。file_put_contents;#将结果写入到文件中。若多个域名或

RemixGdc 2020-08-15

MySQL用户权限操作

delete from user where user=‘xxx‘ and host=‘xxx‘; // root localhost. create user ‘root‘@‘%‘ identified by ‘123456‘;

Jaystrong 2020-08-02

MySQL系列-修改root密码

show databases;ERROR 1820 : You must reset your password using ALTER USER statement before executing this statement.#意思是必须使用alte

KFLING 2020-08-01

redis单节点及集群搭建

redis-cli --cluster create 127.0.0.1:6380 127.0.0.1:6381 127.0.0.1:6382 127.0.0.1:6390 127.0.0.1:6391 127.0.0.1:6392 --cluster-r

zhangll00 2020-07-29

MHA主库宕机，binlog保存

[ binlog]# mysqlbinlog -R --host=172.16.1.52 --user=mha --password=mha --raw --stop-never mysql-bin.000001 &. -rw-rw---- 1

elitechen 2020-07-28

【 OS_Linux】centos与ubuntu的区别

CentOS是Linux发行版之一，它是来自于Red Hat Enterprise Linux依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码，因此有些要求高度稳定性的服务器以CentOS替代商业版的Red Hat Enterprise Li

suosuo 2020-07-28

Linux文件管理

Linux上的文件管理类命令都有哪些，其常用的使用方法及其相关示例演示。cd命令用来切换工作目录至dirname。其中dirName表示法可为绝对路径或相对路径。若目录名称省略，则变换至使用者的home directory。pwd命令以绝对路径的方式显示用

benico 2020-07-28

Linux的用户权限

在我们的Linux中，我们可以创建文件、文件夹、用户、组等等，那么创建好这些以后，我们要在工作和生活中对这样或那样的用户进行管理，用户在使用时不可能所有的功能都能使用，就像我们常用的软件当中的去普通用户和VIP用户,所拥有的权利是不一样的,我们今天就来学习

xiyoukeke 2020-07-28

Linux实例重启服务器后root用户远程连接失败

部分Linux系统中，SSHD服务默认禁用root用户远程登录，导致登录时提示用户名或密码错误。打开SSH配置文件。将PermitRootLogin no修改为PermitRootLogin yes。按Esc键，输入:wq保存修改。

小惠 2020-07-27

Linux cut 命令详解

cut 命令在Linux和Unix中的作用是从文件中的每一行中截取出一些部分，并输出到标准输出中。我们可以使用 cut 命令从一行字符串中于以字节，字符，字段(分隔符)等单位截取一部分内容出来。在本文中，我们通过一些例子来了解 cut 命令的使用，这些使

此处省略三千字 2020-07-20

Nginx如何重新编译添加模块

root 6262 0.0 0.0 112712 992 pts/1 R+ 21:58 0:00 grep --color=auto nginx. root 7045 0.0 0.0 112712 992

泥淖 2020-07-19

2020.1-2020.2 kail linux gnome桌面环境root用户无法登陆解决办法

然后给它添加注释变成：#auth required pam_succeed_if.so user !

安得情怀似旧时 2020-07-06

Python简易爬虫+图形化界面

post = re.findall(‘<span class="post-view-count">(.*?)</span>‘, html). lb1.place(relx=0.1, rely=0.1, relwi

sunzhihaofuture 2020-07-04

MySQL数据库5.6版本首次安装Root密码问题

因为最近发现在网上查找资料的时候，总会因为版本不一样造成各种问题，所以以后的所有文章都会注明使用版本。本次使用的是MySQL数据库5.6.28版本。A RANDOM PASSWORD HAS BEEN SET FOR THE MySQL root USER

DriveCar 2020-07-04

Hadoop2.7.3+Spark2.1.0完全分布式集群搭建过程