解决百度BMR的Spark集群开启slaves结点的问题

aidanmo

2017-08-14

前言

最近一直忙于和小伙伴倒腾着关于人工智能的比赛，一直都没有时间停下来更新更新我的博客。不过在这一个过程中，遇到了一些问题，我还是记录了下来，等到现在比较空闲了，于是一一整理出来写成博客。希望对于大家有帮助，如果在此有不对的地方，请大家指正，谢谢！

比赛遇到spark开启的问题

疑惑之处

在使用百度BMR的时候，出现了这样子一个比较困惑的地方。但百度那边帮我们初始化了集群之后，我们默认以为开启了spark集群了，于是就想也不想就开始跑我们的代码。可认真你就错了，发现它只是开启了local（即Master结点），其他的slaves结点并没有开启。于是我们不得不每一次都进入到Master的/opt/bmr/spark/conf/中去修改slaves文件，去把它里面最后的那个localhost删除，添加上slaves结点的hostname或者是IP。

原来的localhost：

解决百度BMR的Spark集群开启slaves结点的问题

改变成如下：

解决百度BMR的Spark集群开启slaves结点的问题

麻烦之处

最是麻烦的地方是，这个slaves文件，每次使用spark集群的时候都要去修改，非常不方便。在此吐槽一下百度BMR的不智能的地方。于是想，有木有好的办法可以让我们省去这样的麻烦呢？

使用脚本开启百度BMR的spark集群

观察Hadoop文件夹下的情况

在开启集群的时候，百度提供我们选择Hadoop的镜像版本，而这个Hadoop是必选的。前几篇博文里见到配置Hadoop的时候其实需要配置其他slaves的结点的。知道这个，就有点惊喜了，因为Hadoop下的slaves文件是长这样子的

解决百度BMR的Spark集群开启slaves结点的问题

观察spark文件夹下的情况

spark下的conf文件夹，一开始并没有slaves，我们需要从它的slaves.template拷贝过来

解决百度BMR的Spark集群开启slaves结点的问题

cp /opt/bmr/spark/conf/slaves.template /opt/bmr/spark/conf/slaves

使用脚本，拷贝slaves的hostname到spark下的slaves

我们需要做的是，获取Hadoop下slaves的slaves结点的hostname，进而拷贝到spark下的slaves文件的最后两行，拷贝之前，需要把spark的slaves的最后一行localhost给删除掉。那么有哪个shell指令可以帮我解决这个难题了？经过询问后台的大佬，以及晚上查阅，发现了sed这个指令可以帮助我们解决这个问题。

sed的介绍

[root@www ~]# sed [-nefr] [动作]
选项与参数：
-n ：使用安静(silent)模式。在一般 sed 的用法中，所有来自 STDIN 的数据一般都会被列出到终端上。但如果加上 -n 参数后，则只有经过sed 特殊处理的那一行(或者动作)才会被列出来。
-e ：直接在命令列模式上进行 sed 的动作编辑；
-f ：直接将 sed 的动作写在一个文件内， -f filename 则可以运行 filename 内的 sed 动作；
-r ：sed 的动作支持的是延伸型正规表示法的语法。(默认是基础正规表示法语法)
-i ：直接修改读取的文件内容，而不是输出到终端。

动作说明： [n1[,n2]]function
n1, n2 ：不见得会存在，一般代表『选择进行动作的行数』，举例来说，如果我的动作是需要在 10 到 20 行之间进行的，则『 10,20[动作行为] 』

function：
a ：新增， a 的后面可以接字串，而这些字串会在新的一行出现(目前的下一行)～
c ：取代， c 的后面可以接字串，这些字串可以取代 n1,n2 之间的行！
d ：删除，因为是删除啊，所以 d 后面通常不接任何咚咚；
i ：插入， i 的后面可以接字串，而这些字串会在新的一行出现(目前的上一行)；
p ：列印，亦即将某个选择的数据印出。通常 p 会与参数 sed -n 一起运行～
s ：取代，可以直接进行取代的工作哩！通常这个 s 的动作可以搭配正规表示法！例如 1,20s/old/new/g 就是啦！

使用sed写脚本

具体用到的有：

-i #因为信息我觉得不用输出到终端上
d  #需要删除localhost

这是删除localhost的：

sed -i '/localhost/d' /opt/bmr/spark/conf/slaves

追加slaves的hostname到spark的slaves最后

for slaves_home in `cat /opt/bmr/hadoop/etc/hadoop/slaves`
do
echo $slaves_home >> /opt/bmr/spark/conf/slaves
done

最后spark下的slaves文件是这样子的

解决百度BMR的Spark集群开启slaves结点的问题

完整的代码如下

echo "Starting dfs!"
/opt/bmr/hadoop/sbin/start-dfs.sh
echo "*******************************************************************"

echo "Starting copy!"
cp /opt/bmr/spark/conf/slaves.template /opt/bmr/spark/conf/slaves
echo "Copy finished!"
echo "Writing!"
sed -i '/localhost/d' /opt/bmr/spark/conf/slaves
for slaves_home in `cat /opt/bmr/hadoop/etc/hadoop/slaves`
do
echo $slaves_home >> /opt/bmr/spark/conf/slaves
done
echo "*******************************************************************"

echo "Starting spark!"
/opt/bmr/spark/sbin/start-all.sh
echo "*******************************************************************"

echo "Watching the threads"
jps

查看到Master进程已经开启了，就大功告成了！

结言

只要把上面的代码保存到一个.shell文件下。给它加上可运行的权限，然后就大功告成了。理论上，百度BMR的spark的路径都是一致的，因而都能通用，希望能减轻大家每次配置的烦恼。

spark

安科网

解决百度BMR的Spark集群开启slaves结点的问题

aidanmo

前言

比赛遇到spark开启的问题

疑惑之处

麻烦之处

使用脚本开启百度BMR的spark集群

观察Hadoop文件夹下的情况

观察spark文件夹下的情况

使用脚本，拷贝slaves的hostname到spark下的slaves

sed的介绍

使用sed写脚本

完整的代码如下

结言

aidanmo

相关推荐

spark系列之基本概念

Spark SQL(6) OptimizedPlan

spark 广播变量累加器

Spark 源码解读（五）SparkContext的初始化之创建和启动DAGScheduler

Spark DAG 依赖关系 Stage

Spark RDD

Notebook Docker 安装spark环境

入门大数据---Spark开发环境搭建

Spark Streaming读取Kafka数据两种方式

Apache Spark有哪些局限性

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能

spark考试

今天的收获

Mr与spark的shuffle过程详解及对比

spark的编译

Apache Spark

Spark分区

Spark GraphX企业运用

spark企业运用

Spark Streaming企业运用

aidanmo