Spark分布式集群的搭建和运行

小草君技术

2017-04-11

集群共三台CentOS虚拟机，一个Matser，主机名为master；三个Worker，主机名分别为master、slave03、slave04。前提是Hadoop和Zookeeper已经安装并且开始运行。

1. 在master上下载Scala-2.11.0.tgz，复制到/opt/下面，解压，在/etc/profile加上语句：

export SCALA_HOME=/opt/scala-2.11.0
export PATH=$PATH:$SCALA_HOME/bin

然后运行命令：

source /etc/profile

在slave03、slave04上也执行相同的操作。

2. 在master上下载spark-2.1.0-bin-hadoop2.6，复制到/opt/下面。解压，在/etc/profile加上语句：

export SPARK_HOME=/opt/spark-2.1.0-bin-hadoop2.6
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

然后运行命令：

source /etc/profile

3. 编辑${SPARK_HOME}/conf/spark-env.sh文件，增加下面的语句：

# JAVA_HOME
export JAVA_HOME=/opt/jdk1.8.0_121
# SCALA_HOME
export SCALA_HOME=/opt/scala-2.11.0
# SPARK_HOME
export SPARK_HOME=/opt/spark-2.1.0-bin-hadoop2.6
# Master主机名
export SPARK_MASTER_HOST=master
# Worker的内存大小
export SPARK_WORKER_MEMORY=1g
# Worker的Cores数量
export SPARK_WORKER_CORES=1
# SPARK_PID路径
export SPARK_PID_DIR=$SPARK_HOME/tmp
# Hadoop配置文件路径
export HADOOP_CONF_DIR=/opt/hadoop-2.6.0-cdh5.9.0/etc/hadoop
# Spark的Recovery Mode、Zookeeper URL和路径
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=master:12181,slave03:12181,slave04:12181 -Dspark.deploy.zookeeper.dir=/spark"

在${SPARK_HOME}/conf/slaves中增加：

matser
slave03
slave04

这样就设置了三个Worker。

修改文件结束以后，将${SPARK_HOME}用scp复制到slave03和slave04。

4. 在master上进入${SPARK_HOME}/sbin路径，运行：

./start-master.sh

这是启动Master。

再运行：

./start-slaves.sh

这是启动Worker。

5. 在master上运行jps，如果有Master和Worker表明启动成功：

Spark分布式集群的搭建和运行

在slave03、slave04上运行jps，有Worker表明启动成功：

Spark分布式集群的搭建和运行

6. 访问http://master:8081，出现下面的页面表明启动成功：

Spark分布式集群的搭建和运行

更多Spark相关教程见以下内容：

Spark 的详细介绍：请点这里
Spark 的下载地址：请点这里

font-size font spark

小草君技术

0 关注 0 粉丝 0 动态

相关推荐

Linux解压文件

1、*.tar 用 tar –xvf 解压2、*.gz 用 gzip -d或者gunzip 解压3、*.tar.gz和*.tgz 用 tar –xzf 解压4、*.bz2 用 bzip2 -d或者用bunzip2 解压5、*.tar.bz2用tar –xj

graseed 14评论 2020-10-28

VS Code + PlantUML实现跨平台设计

在日常的开发设计中，不可避免的要对系统进行一些UML相关的设计。UML通过一种可视化的方式，对系统进行建模、设计，它是一种统一建模语言。在Windows操作系统下，Visio是一种常用的建模工具。PlantUML 是一个开源项目,支持快速绘制时序图、用例图

zbkyumlei 10评论 2020-10-12

让数据处理更简单？百度EasyData推出首个高级智能数据清洗功能

在进行AI模型开发时，数据的数量与质量直接影响模型效果。在实地数据采集之后，企业往往需要从大量数据中筛选出符合训练要求的相关数据，剔除质量差或不相关的数据，这个步骤被称为数据清洗。针对数据清洗这一具体功能，EasyData目前上线了去相似、去模糊、旋转、裁

jinhao 2020-09-07

css常用的简写技巧_css background简写、css border 简写、css font属性简写等

css样式中有很多简写方式，比如：设置背景，字体，边框，盒子等。我们都可以把css代码合并为一行，这篇文章将总结有哪些属性支持css简写。font:normal small-caps bold 14px/1.5em ‘宋体‘,arial,verdana;d

淡风wisdon大大 2020-06-06

数据科学家、开发者的新神器 Amazon SageMaker正式上线中国区

机器学习自诞生至今，已经被应用在很多领域，但目前来看对于从业人员来说仍然存在着一些阻力。首先是机器学习方向的学习门槛高，人工智能、机器学习这些知识，相对来说比较苦涩难懂，对学习人员的综合素养要求高；想要真正成为一名机器学习工程师。而近期登陆中国区的Amaz

yoohsummer 2020-06-01

虹软开放平台算法上新助力全面拓展人脸识别细分化场景

自虹软视觉开放平台ArcFace3.0上线以来，凭借对人脸识别、活体检测、年龄检测、性别检测等核心算法模型的全面升级，其算法鲁棒性大幅提升，接入门槛显著降低，并继续秉承了免费、离线的核心，进而成为了广大开发者落地AI应用的利器。因此，虹软视觉开放平台也在近

baike 2020-05-19

代码（移动端rem初始化设置1rem=15px）

这是之前项目的rem基本设置，这样，在vscode中安装cssrem插件后，改成1rem=15px，其他的屏幕也将得到相应适配。

hxmilyy 2020-05-11

十大常见的Linux邮件客户端

对于我们大多数人而言，如今更多地会采用浏览器或智能手机的方式，来收发电子邮件。但是，为了更快地加载邮件，并能够用到更为丰富的编辑功能，我们还是需要通过专门的邮件客户端来完成。一直以来，Linux总能够比Windows系统提供更为多样性的同类软件程序。Thu

小灰笔记 2020-03-16

2020年机器学习领域的五个潮流

从机器人流程自动化到技术专业知识，机器学习技术被广泛用于做出预测，并获得宝贵的信息以深入了解业务运营。机器学习可以定义为对主要依赖模式和推理的统计模型和复杂算法的科学研究。机器学习的影响很引人入胜，它引起了许多公司的关注，不管是哪种行业。最重要的是，机器学

jaybeat 2020-03-13

什么是真正的架构设计？十年Java经验让我总结出了这些，不愧是我

在软件行业，对于什么是架构，都有很多的争论，每个人都有自己的理解。此君说的架构和彼君理解的架构未必是一回事。因此我们在讨论架构之前，我们先讨论架构的概念定义，概念是人认识这个世界的基础，并用来沟通的手段，如果对架构概念理解不一样，那沟通起来自然不顺畅。

yinren 2020-03-11

使用Eclipse在Fedora上进行 PHP 开发

Eclipse 是由 Eclipse 基金会开发的功能全面的自由开源 IDE。你可以在此 IDE 中编写各种程序，从 C/C++ 和 Java 到 PHP，乃至于 Python、HTML、JavaScript、Kotlin 等等。该软件可从 Fedora

86477414 2020-03-07

12个提高JavaScript技能的概念

JavaScript 是一种复杂的语言。本文介绍 JavaScript 至关重要的12个概念，但绝对不是说 JavaScript 开发人员只需要知道这些就可以了。理解 JavaScript 如何给变量赋值可以帮助我们减少一些不必要的 bug。JavaScr

小飞侠V 2020-03-05

一篇带给你Linux磁盘管理和Shell编程

Linux磁盘管理常用三个命令为df、du和fdisk。列出文件系统的磁盘使用状况 - 「df」。磁盘分区表操作 - 「fdisk」。磁盘分区工具 - 「parted」。-c - 创建文件系统时检查磁盘损坏情况。-v - 显示详细信息。Shell脚本是一种

tianhuak 5评论 2020-11-24

Linux环境变量配置全攻略

在自定义安装软件的时候，经常需要配置环境变量，下面列举出各种对环境变量的配置方法。export命令显示当前系统定义的所有环境变量。这两个命令执行的效果如下。使用export命令直接修改PATH的值，配置MySQL进入环境变量的方法:. 配置的环境变量中不要

昭君出塞 5评论 2020-11-23

Golang GinWeb框架-快速入门/参数解析

Gin默认使用encoding/json包,但是你可以使用以下tags修改为jsoniter重新编译源码。//以下带冒号:和带星号*组成的路由可以匹配/user/用户名/或/user/用户名/动作,如果/user/用户名没有匹配到其他路由,它会自动重定向到

GoatSucker 2020-11-23

秒杀系统挂了，凌晨1点紧急救场！

公司最近安排了一波商品抢购活动，由于后台小哥操作失误最终导致活动效果差，被用户和代理商投诉了。经理让我带同事们一起复盘这次线上事故。抢购开始的瞬间流量非常大，按计划是通过 Redis 承担大部分用户查询请求，避免请求全部落在数据库上。由于缓存设置过期时间是

XPY 2020-11-11

16个你可能不知道的JavaScript调试技巧

对于调试JavaScript，当然是越快越好，我们在这里列举了一些如何更加快速高效调试JS的重要窍门。熟悉了解工具对于完成任务来说有着重要的作用。我们在这里列举了16个你可能不知道的调试技巧，但它们可能是你想要在下次调试JavaScript代码之前记住的。

Web卓不凡 2020-11-03

技术｜轻量级人脸检测算法实现大盘点

人脸检测是计算机视觉中的老话题，应用广泛，研究者众多，业界不仅在向着更准的检测算法前进，轻量级检测人脸算法也成为应用中的宠儿。本文总结了近年轻量级人脸检测算法的开源实现，其中不少已经成为开源社区的明星项目。02LFFD：A Light and Fast F

MachineIntellect 15评论 2020-11-02

13张IT架构图！从数字化转型，到数据架构

今天给大家上13个架构图，不说一些文字。我一直觉得，从架构图上可以学到很多东西，这相比于文字更能理解，而且很多人在做事的时候，是想不清楚具体要怎么做的，都是一开始直接上手，然后后面也不知道怎么改。这篇文章，是我在读了2本书之后，哪2本书呢？是《IT结构治理

evolone 14评论 2020-10-29

一篇文章教会你理解Scrapy网络爬虫框架的工作原理和数据采集过程

今天小编给大家详细的讲解一下Scrapy爬虫框架，希望对大家的学习有帮助。Scrapy是一个使用Python编程语言编写的爬虫框架，任何人都可以根据自己的需求进行修改，并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面

CycloneKid 2020-10-27

小草君技术

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号