容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析

SsJackX

2019-06-27

摘要：容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析（二）：Kubernetes如何助力Spark大数据分析概述本文为大家介绍一种容器化的数据服务Spark + OSS on ACK，允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。

容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析

（二）：Kubernetes如何助力Spark大数据分析

概述

本文为大家介绍一种容器化的数据服务Spark + OSS on ACK，允许Spark分布式计算节点对阿里云OSS对象存储的直接访问。借助阿里云Kubernetes容器服务与阿里云OSS存储资源的深度整合，允许Spark分布式内存计算，机器学习集群对云上的大数据直接进行分析和保存结果。

先决条件

你已经通过阿里云容器服务创建了一个Kubernetes集群，详细步骤参见创建Kubernetes集群

从容器服务控制台创建一个Spark OSS实例

使用三次点击来创建一个1 master + 3 worker 的Spark OSS的实例

1 登录 https://cs.console.aliyun.com/
2 点击 “应用目录”
3 选择 "spark-oss", 点击 “参数”

容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析

给你的应用一个名字， e.g. spark-oss-online2
（必选）填写你的oss_access_key_id和oss_access_key_secret

Worker:

 # set OSS access keyID and secret
  oss_access_key_id: <Your sub-account>
  oss_access_key_secret: <your key_secret of sub-account>

3.（可选）修改工作节点数目 Worker.Replicas: 3

容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析

4 点击 “部署”
5 点击 “Kubernetes 控制台”，查看部署实例

容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析

6 点击服务，查看外部端点, 点击URL访问Spark集群
容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析

容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析

7 测试Spark集群

1.打开一个spark-shell

kubectl get pod | grep worker

spark-oss-online2-worker-57894f65d8-fmzjs 1/1 Running 0 44m

spark-oss-online2-worker-57894f65d8-mbsc4 1/1 Running 0 44m
spark-oss-online2-worker-57894f65d8-zhwr4 1/1 Running 0 44m

kubectl exec -it spark-oss-online2-worker-57894f65d8-fmzjs --  /opt/spark/bin/spark-shell --master spark://spark-oss-online2-master:7077

粘贴下列代码，使用Spark测试OSS的读写性

// Save RDD to OSS bucket
val stringRdd = sc.parallelize(Seq("Test Strings\n Test String2"))
stringRdd.saveAsTextFile("oss://eric-new/testwrite12")

// Read data from OSS bucket
val lines = sc.textFile("oss://eric-new/testwrite12")
lines.take(10).foreach(println)

Test Strings
Test String2

CLI 命令行操作

Setup keys and deploy spark cluster in one command

export OSS_ID=<your oss id>
export OSS_SECRET=<your oss secrets>

helm install -n myspark-oss --set "Worker.oss_access_key_id="$OSS_ID",Worker.oss_access_key_secret="$OSS_SECRET incubator/spark-oss

kubectl get svc| grep oss
myspark-oss-master   ClusterIP      172.19.9.111    <none>          7077/TCP         2m
myspark-oss-webui    LoadBalancer   172.19.13.1     120.55.104.27   8080:30477/TCP   2m

原文链接

阅读更多干货好文，请关注扫描以下二维码：
容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析

kubernetes spark 大数据阿里云oss 容器

安科网

容器开启数据服务之旅系列（二）：Kubernetes如何助力Spark大数据分析

SsJackX

SsJackX

相关推荐

两款超好用的Kubernetes实时日志查看工具

使用Ansible的Kubernetes模块实现容器编排自动化

什么是CaaS？简化容器管理

企业扩大容器和Kubernetes应用的5大现实问题

云原生如何助力微服务？

可视化监控大型集群，这一个工具就够了！

6张图带你学懂 Kubernetes Ingress

推荐4款超好用本地Kubernetes部署工具

值得推荐的13个 Jenkins 替代方案

2020年非常值得推荐的7种 Kubernetes 日志管理工具

本地环境运行Kubernetes的4种开源工具

五款值得关注的Kubernetes日志监控工具

机器学习任务编排工具比较

面试问到了K8S原理，花5分钟来总结下，以后再也不怕了

如何降低开发人员的生产力？

Windows环境下，如何在Docker里运行SAP UI5应用

解放开发者！3款工具实现快速K8S开发

Linux基金会开源软件大学技术公开课丨K8s必备技能攻略

Kubernetes上对应用程序进行故障排除的6个技巧

避免云锁定有哪几招？

SsJackX