Jupyter配置Spark开发环境
兄弟连大数据培训(www.lampbrother.net
)和大家一起探究Jupyter配置
Spark
开发环境
简介
为Jupyter配置Spark开发环境,可以安装全家桶–SparkKernel或Toree,也可按需安装相关组件。
考虑到一般人更喜欢一步到位,并且Toree将会代替SparkKernel,故直接且仅需安装Toree即可,不过下面还是给出了所有的安装方法。
SparkKernel的安装
参照SparkKernel支持的语言,安装好SparkKernel后,其默认可以支持Scala,Python,R,SQL,对应的Spark实现分别是ScalawithSpark,PythonwithPySpark,RWithSparkR,SparkSQL。
参照上述链接,要切换语言时,只需简单的在语句前面加上%%scala/%%pyspark即可。当然,什么都不加时,默认语言为Scala。
另外,启动Jupyter后,可直接在http://localhost:4040/jobs/监控所有作业。
SparkKernel(旧的项目)
参照下面的安装步骤进行即可,就是有些繁琐。
GettingStartedwiththeSparkKernel
GuidetoIntegratingtheSparkKernelwithJupyter
Toree(新项目)
根据SparkKernel的介绍,自从SparkKernel变成Apache的孵化项目后,其最新仓库已经迁移到了incubator-toree。
安装时,参照QuickStartWhatisApacheToree,仅需两条命令即可完成安装。
pipinstalltoree
jupytertoreeinstall--spark_home=your-spark-home12
值得注意的是:
Toree虽然还在孵化中,但已经能完成上述SparkKernel的全部功能,即可支持PySpark,SparkSQL等。
该kernel安装在/usr/local/share/jupyter/kernels/apache_toree_scala目录下
Spark组件单独安装
除了安装上面的方法安装Spark的全家桶外,还可以按需对各组件进行安装。
ScalaKernel的安装
参照jupyter-scala安装即可。
PySpark的安装
PySpark:HowtoinstallandIntegratewiththeJupyterNotebook
IntegrateApacheSparkwithlatestIPythonNotebook(Jupyter4.x)
RunningSparkApplicationsUsingIPythonandJupyterNotebooks