sbt编译Spark App依赖问题

snaillup

2019-06-21

关注关注

背景简介

Spark App（用Spark APIs编写的）需要submit到Spark Cluster运行，对于Scala编写的代码，提交之前要用sbt或者maven把以下内容：

源代码
依赖的jar包

全部打包成一个大的jar文件，这样代码就不会因为没有依赖无法在集群中运行。

问题

我司用Scala编写Spark streaming应用，实现读取Kafka数据，处理后存储到cassandra集群中。这里需要用到一个包spark-streaming-kafka，之前用的spark1.6.0的版本。sbt中的配置如下：

libraryDependencies ++= Seq(
  // Spark dependency
  "com.eaio.uuid" % "uuid" % "3.2",
  "org.apache.spark" %% "spark-core" % "1.6.0" % "provided",
  "org.apache.spark" %% "spark-sql" % "1.6.0" % "provided",
  "org.apache.spark" %% "spark-streaming" % "1.6.0" % "provided",
  "org.apache.spark" %% "spark-streaming-kafka" % "1.6.0",
  "com.datastax.spark" %% "spark-cassandra-connector" % "1.6.0-M2",
   // Third-party libraries
  "com.github.scopt" %% "scopt" % "3.4.0"
)

升级到Spark 2.0.0后需要更新软件包版本，于是将sbt构建配置中的依赖部分改为：

libraryDependencies ++= Seq(
  // Spark dependency
  "com.eaio.uuid" % "uuid" % "3.2",
  "org.apache.spark" %% "spark-core" % "2.0.0" % "provided",
  "org.apache.spark" %% "spark-sql" % "2.0.0" % "provided",
  "org.apache.spark" %% "spark-streaming" % "2.0.0" % "provided",
  "org.apache.spark" %% "spark-streaming-kafka" % "2.0.0",
  "com.datastax.spark" %% "spark-cassandra-connector" % "2.0.0-M2",
   // Third-party libraries
  "com.github.scopt" %% "scopt" % "3.4.0"
)

本以为这样修改后重新构建就没问题了。但是我太天真了，构建后报错，提示：

[warn]     ::::::::::::::::::::::::::::::::::::::::::::::
[warn]     ::          UNRESOLVED DEPENDENCIES         ::
[warn]     ::::::::::::::::::::::::::::::::::::::::::::::
[warn]     :: org.apache.spark#spark-streaming-kafka_2.10;2.0.0: not found
[warn]     ::::::::::::::::::::::::::::::::::::::::::::::
[warn] 
[warn]     Note: Unresolved dependencies path:
[warn]         org.apache.spark:spark-streaming-kafka_2.10:2.0.0 (/home/linker/workspace/linkerwp/linkerStreaming/build.sbt#L12-23)
[warn]           +- Linker Networks Inc.:linker-streaming_2.10:0.0.1
sbt.ResolveException: unresolved dependency: org.apache.spark#spark-streaming-kafka_2.10;2.0.0: not found

说明这个包是不存在的，于是马上到maven repo上去找。常见的Maven公共repo有：

search.maven.org...用于搜索你的依赖包。
https://mvnrepository.com/...maven仓库。

进入网址输入spark-streaming-kafka搜索后数来好几和选项，前面4个结果都是不支持Spark 2.0.0的，这让我误以为Spark 2.0.0还不支持Kafka，这个想法被前面几个搜索结果误导了。因为对于2.0.0的Spark，Kafka添加了具体的版本号！spark-streaming-kafka-->spark-streaming-kafka-0-8就可以找到了（实际上这个版本也在maven repo的搜索结果，因为靠后我没有去看）！！

总结

对于Java/Scala的编译问题，我曾经特别抗拒，因为maven和sbt的配置文件很冗杂，没有Python的简洁明了。Python里20行的依赖文件在maven/sbt里至少200行，而且只要有一个地方没写正确就无法正确编译。
现在发现要想正确编译，保证源代码没问题的情况下，就需要指定正确的依赖包和格式。这个需要到maven的仓库上去搜索，确认无误后再添加到配置文件中。
要学会发散、拓展思考。当看到sbt编译失败的时候就应该根据报错信息推测出问题的原因：“依赖包版本不正确”，然后把版本指定正确就可以了。

安科网

sbt编译Spark App依赖问题

snaillup

背景简介

问题

总结

广告

snaillup

相关推荐

Apache Spark有哪些局限性

使用经 EMRFS S3 优化的提交器提高 Apache Spark 写入 Apache Parquet 格式文件的性能

spark系列之基本概念

Spark RDD

Spark Streaming读取Kafka数据两种方式

Mr与spark的shuffle过程详解及对比

Spark分区

Spark Streaming企业运用

spark 任务提交参数

Spark 数据分析调优（一）

【译】Using .NET for Apache Spark to Analyze Log Data

spark系列-5、RDD、DataFrame、Dataset的区别和各自的优势

spark工作原理

spark streaming 读取kafka两种方式的区别

Spark SQL(6) OptimizedPlan

spark 广播变量累加器

Spark 源码解读（五）SparkContext的初始化之创建和启动DAGScheduler

Spark DAG 依赖关系 Stage

Notebook Docker 安装spark环境

入门大数据---Spark开发环境搭建

snaillup