Spark v2.4.3应用程序开发入门-基于IDEA/Maven 构建简单应用

xyf

2019-06-03

关注关注

Spark 提供了丰富的API，让开发人员可以使用简洁的方式，来处理复杂的数据计算和分析。

在开始Spark应用开发之前，需要做好如下准备工作。

（1）搭建好Hadoop环境（如果需要访问HDFS）；

（2）安装好Spark v2.4.3 最新版本；

一、首先通过IDEA创建一个Maven项目，并添加Spark 依赖jar包。

groupId: org.apache.spark

artifactId: spark-core_2.11

version: 2.4.3

Spark v2.4.3应用程序开发入门-基于IDEA/Maven 构建简单应用

二、编写Spark 应用代码

示例代码很简单，就是读取本地文件 rickie.txt，然后查找并统计文本文件中有多少行包含有“rickie”字符串。

package com.rickie.spark;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

/**

* Hello world!

public class App

{

public static void main( String[] args )

{

System.out.println( "Hello World!" );

String logFile = "file:///root/rickie.txt";

JavaSparkContext sc = new JavaSparkContext("local", "Spark Tutorial",

"/usr/local/spark", new String[]{"tutorial-1.0.jar"});

JavaRDD<String> logData = sc.textFile(logFile).cache();

long num = logData.filter(line->line.contains("rickie")).count();

System.out.println("Lines contain rickie: " + num);

System.out.println("Well done!");

}

Spark v2.4.3应用程序开发入门-基于IDEA/Maven 构建简单应用

Spark的运行模式取决于传递给SparkContext的Master URL的值。Master URL可以是以下任一种形式：

* local 使用一个Worker线程本地化运行SPARK(完全不并行)；

* local[*] 使用逻辑CPU个数数量的线程来本地化运行Spark

* local[K] 使用K个Worker线程本地化运行Spark（理想情况下，K应该根据运行机器的CPU核数设定）

* spark://HOST:PORT 连接到指定的Spark standalone master，默认端口是7077。

* yarn-client 以客户端模式连接YARN集群。集群的位置可以在HADOOP_CONF_DIR 环境变量中找到。

* yarn-cluster 以集群模式连接YARN集群。集群的位置可以在HADOOP_CONF_DIR 环境变量中找到。

* mesos://HOST:PORT 连接到指定的Mesos集群。默认接口是5050。

当然，为了使应用程序能够更灵活地在各种部署环境下使用，不建议把与运行环境相关的设置直接在代码中写死。

三、编译打包并复制到Spark环境中

将应用打包成JAR包，jar包名称为：tutorial-1.0.jar

Spark v2.4.3应用程序开发入门-基于IDEA/Maven 构建简单应用

将上述jar 包复制到Spark 环境中。

四、通过 Spark-submit 运行应用

将生成的JAR 包通过 spark-submit 提交到Spark 中运行。

在开始运行之前，需要确保 /root/rickie.txt 文件存在。

Spark v2.4.3应用程序开发入门-基于IDEA/Maven 构建简单应用

spark-submit 命令参数如下。

spark-submit

--class <main-class> //需要运行的程序的主类，应用程序的入口点

--master <master-url> //Master URL，可以在代码中指定，也可以通过参数传入

--deploy-mode <deploy-mode> //部署模式

... # other options //其他参数

<application-jar> //应用程序JAR包

[application-arguments] //传递给主类的主方法的参数

/usr/local/spark/bin/spark-submit --class "com.rickie.spark.App" tutorial-1.0.jar

Spark v2.4.3应用程序开发入门-基于IDEA/Maven 构建简单应用

在命令执行完成后，会输出很多信息，其中可以找到Lines contain rickie 信息字样。

可以进一步修改/root/rickie.txt 文件，添加更多符合条件记录行，然后再次运行上述 spark-submit 命令，发现输出结果有变化。

/usr/local/spark/bin/spark-submit --class "com.rickie.spark.App" tutorial-1.0.jar

Spark v2.4.3应用程序开发入门-基于IDEA/Maven 构建简单应用

如果输出信息太多，不方便查看，可以通过 grep 命令进行过滤。

/usr/local/spark/bin/spark-submit --class "com.rickie.spark.App" tutorial-1.0.jar 2>&1 | grep "Lines contain rickie:"

Spark v2.4.3应用程序开发入门-基于IDEA/Maven 构建简单应用

idea spark 数据处理

xyf

0 关注 0 粉丝 0 动态

关注关注

使用DataGrip的详细教程

DataGrip是一款连接数据库的可视化软件，就跟Navicat似的。DataGrip是JetBrains公司出品的，就是开发了IntelliJ IDEA的那家公司。基本上我认识的人都在用Navicat，Navicat确实非常好用。但DataGrip真的真

loveyouluobin 2020-09-29

关于使用IDEA的springboot框架往Redis里写入数据乱码问题

解决方法：在你RedisUtil类里加入下图红框的的代码，

vapaad 2020-10-22

研究idea不work，可能不是它不好，而是硬件没跟上

研究想法能否成功要看是否具备合适的软硬件，而不是这个想法是否比其他研究方向优秀。天时、地利、人和，三者不得，虽胜有殃。一件事的成败总会牵涉多个因素，例如兵法中的「天时」、「地利」、「人和」。早期计算机科学史的许多例子表明，硬件彩票通过把成功的研究想法看作失

ScarlettYellow 2020-10-12

IntelliJ IDEA 如何配置数据源

在 IntelliJ IDEA 中，可以通过打开 Data Sources and Drivers 对话框来配置数据源和测试你的数据库连接。可能没有办法使用快捷键，虽然好像有快捷键是 shift + enter，但是在 IntelliJ IDEA 中会换行

crazyhulu 2020-09-20

idea发布web项目后Tomcat服务器找不到该项目的问题及解决方法

,选择要选的项目,点击ok！

wmengbeyond 2020-09-14

如何在IntelliJ IDEA 2018上配置Tomcat并运行第一个JavaWeb项目

下载完之后解压即可。找到自己解压目录，打开文件夹下面的/bin目录，其中startup.bat是启动tomcat，shutdown.bat 是关闭tomcat. 变量值：E:\SoftWares\tomcat9\apache-tomcat-9.0.8 //

81477515 2020-09-10

在Idea中使用Docker部署SpringBoot项目的详细步骤

安装Dockeridea中安装docker插件，并配置docker一个SpringBoot项目创建Dockerfile. This message shows that your installation appears to be working cor

yangkang 2020-09-10

第三周

huolan 2020-08-18

IDEA连接MySQL8.0数据库提示Server returns invalid timezone

IDEA连接mysql8.0，地址，用户名，密码，数据库，全都配置好了，点测试连接界面是这样的，进入“高级”选项卡，手动设置“serverTimezone”属性。进入命令窗口，连接数据库 mysql -hlocalhost -uroot -p，回车，输入密

xwb 2020-08-17

Idea安装python显示无SDK问题解决方案

在这里我没有搭理这三个按钮，直接点击右边下载按钮。接下来等IDEA下载完成会提示重启。起初安装完毕，python--》Module SDK 是显示 <NO SDK>，这个对于我刚接触的来说，的确有点阻碍。通过一系列查看及网上搜寻，尝试着处理

liusarazhang 2020-08-16

idea安装好python后显示无SDK问题

Keepgoing 2020-08-03

idea 提交远程库冲突解决

github团队协作，正常开发管理得好的话，不会出现代码冲突问题，项目经理会划分模块，每个小组成员各自开发模块，公共的代码由专门的人负责维护；但是偶尔管理沟通问题导致出现冲突偶尔也是会出现的；B程序员，修改了一行代码，然后提交和推送到github；我们直

Unimen 2020-07-19

gradle：配置IDEA（配置文件、使用本地仓库、使用gradle新建一个web工程、分模块）

testCompile group: ‘junit‘, name: ‘junit‘, version: ‘4.12‘。providedCompile group: ‘javax.servlet‘, name: ‘javax.servlet-api‘, ve

CaptainCTR 2020-07-09

IDEA安装scala搭建项目环境

查看IDEA2019.2对应的Scala插件的版本。加载刚刚放入C:\Program Files\JetBrains\IntelliJ IDEA 2019.2.4\plugins里面的scala-intellij-bin-2019.2.40.jar插件。在

TheBigBlue 2020-07-05

MAC OS 10.15 Lucene 源码分析环境搭建

lucene-solr 的github 项目中的 README 其实已经讲得很清楚了，但搭一个大项目的环境还是耗时耗力的。如果出现下载失败的问题，不用担心，重试就好。3，安装ant，我这里安装的是：Apache Ant version 1.10.8 com

Jacry 2020-07-04

JetBrains IntelliJ IDEA 安装 lombok

选中并点击按钮，安装完毕重启 idea 即可；

86334996 2020-06-26

idea 查看源码

查看注解源码，按住Ctrl,鼠标放到需要查看的注解的上面，会自动出现下划线，点击就会打开源码文件，比如

zcpHappy 2020-06-25

IDEA连接远程服务器Docker部署Spring Boot项目的详细教程

第一步：配置Docker，开启远程访问，默认端口是2375，也可以修改为其他端口。如果有返回说明，就证明开启成功了，可以看到我的Docker版本，镜像加速器地址等其他信息，但是这时候远程可能依然访问不了。第一行：当前要创建的镜像是基于java:8这个镜像的

滴水穿石点石成金 2020-06-14

《Java Spring框架》通过IDEA搭建SpringMVC

目前web框架更新迅速，学习新框架的同时也有必要了解一下之前框架的内容，SpringBoot现在比较流行，今天就来通过搭建SpringMVC来了解一下SpringMVC, SpringBoot也是基于SpringMVC的扩展。根据网速等一些原因，下载jar

haidaoxianzi 2020-06-10

Git从陌生到熟悉【初次学习资源推荐】

***## 二、第二步：了解git你会遇到以下问题：1、b站的视频很多很乱很杂，学起来完全没有头绪。不知道怎么筛选2、git开始只需要了解一些基本的操作、指令，并不需要非常深入。

lhp000 2020-06-10

安科网

Spark v2.4.3应用程序开发入门-基于IDEA/Maven 构建简单应用

xyf

一、首先通过IDEA创建一个Maven项目，并添加Spark 依赖jar包。

二、编写Spark 应用代码

三、编译打包并复制到Spark环境中

四、通过 Spark-submit 运行应用

xyf

相关推荐

使用DataGrip的详细教程

关于使用IDEA的springboot框架往Redis里写入数据乱码问题

研究idea不work，可能不是它不好，而是硬件没跟上

IntelliJ IDEA 如何配置数据源

idea发布web项目后Tomcat服务器找不到该项目的问题及解决方法

如何在IntelliJ IDEA 2018上配置Tomcat并运行第一个JavaWeb项目

在Idea中使用Docker部署SpringBoot项目的详细步骤

第三周

IDEA连接MySQL8.0数据库提示Server returns invalid timezone

Idea安装python显示无SDK问题解决方案

idea安装好python后显示无SDK问题

idea 提交远程库冲突解决

gradle：配置IDEA（配置文件、使用本地仓库、使用gradle新建一个web工程、分模块）

IDEA安装scala搭建项目环境

MAC OS 10.15 Lucene 源码分析环境搭建

JetBrains IntelliJ IDEA 安装 lombok

idea 查看源码

IDEA连接远程服务器Docker部署Spring Boot项目的详细教程

《Java Spring框架》通过IDEA搭建SpringMVC

Git从陌生到熟悉【初次学习资源推荐】

xyf