这个工具包赞了，让Kubernetes上的机器学习如此简单！

WALKMANwubiao

2017-12-13

关注关注

Kubeflow项目致力于使Kubernetes上的机器学习变得轻松，便携和可扩展。该项目的目标不是重新创建其他服务，而是为了提供最佳的OSS解决方案的直接方式。包含在此存储库中的清单用于创建以下内容：

这个工具包赞了，让Kubernetes上的机器学习如此简单！

1.一个JupyterHub创建和管理互动Jupyter笔记本电脑
2.Tensorflow培训控制器可配置为使用CPU或GPU，并通过单一设置调整到群集大小
3.TF服务容器

本文档详细介绍了在任何运行Kubernetes的环境中运行kubeflow项目所需的步骤。

Kubeflow使命

目标是通过让Kubernetes做到以下几点：帮助人们更轻松地使用机器学习。

简单，可重复，便携式部署在不同的基础设施上（笔记本电脑< - > ML rig < - >培训集群< - >生产集群）
部署和管理松散耦合的微服务
根据需求进行缩放

因为ML从业者使用了很多不同类型的工具，所以你可以根据自己的需求来定制堆栈，这是一个关键的目标，并让系统处理这些“无聊的东西”。虽然我们已经开始使用一些技术，但我们正在与许多不同的项目合作，以增加更多的工具。

最终，项目团队希望有一套简单的清单，可以让你轻松地在任何位置使用ML堆栈。Kubernetes已经运行，并且可以根据所部署的群集进行自我配置。

建立

本文档假定你已经有一个Kubernetes集群。对于特定的Kubernetes安装，可能需要额外的配置。

Minikube

Minikube是一个让本地运行Kubernetes变得简单的工具。 Minikube在笔记本电脑的虚拟机内部运行一个单节点Kubernetes集群，以便用户试用Kubernetes或者日常开发Kubernetes。下面的步骤适用于minikube群集。写这个文档时的最新版本是0.23.0。你还必须配置kubectl才能访问minikube。

Google Kubernetes引擎

Google Kubernetes Engine是用于部署由Google Cloud提供支持的Kubernetes应用程序的托管环境。如果使用Google Kubernetes Engine，则在创建清单之前，必须授予你自己的用户必要的RBAC角色以创建/编辑其他RBAC角色。

kubectl create clusterrolebinding default-admin --clusterrole=cluster-admin [email protected]

快速开始

为了快速设置堆栈的所有组件，请运行：

kubectl apply -f components/ -R

上面的命令设置了JupyterHub，一个使用Tensorflow进行培训的API和一组服务的部署文件。一起使用时，这些配置可以帮助用户在不同环境之间以便携方式轻松使用Tensorflow，从而帮助用户从培训到服务。可以参考下面的每个组件的使用说明。

用法

本节介绍不同的组件和开始所需的步骤。

带上一个笔记本

一旦创建了JupyterHub所需的所有清单，就会创建负载均衡服务。你可以使用kubectl命令行来检查它的存在。

kubectl get svc NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE kubernetes ClusterIP 10.11.240.1 &lt;none&gt; 443/TCP 1h tf-hub-0 ClusterIP None &lt;none&gt; 8000/TCP 1m tf-hub-lb LoadBalancer 10.11.245.94 xx.yy.zz.ww 80:32481/TCP 1m

如果使用minikube，则可以运行以下命令获取笔记本的URL。

minikube service tf-hub-lb --url
http://xx.yy.zz.ww:31942

对于某些云部署，LoadBalancer服务最多可能需要五分钟才能显示外部IP地址。重新执行kubectl get svc将最终显示填充的外部IP字段。

一旦你有一个外部的IP，你可以继续浏览你的浏览器。网关默认配置为采取任何用户名/密码组合。输入用户名和密码后，可以启动单台笔记本服务器，请求任何资源（内存/ CPU / GPU），然后继续执行单节点培训。

还提供标准docker镜像，可以使用Jupyter来训练Tensorflow模型。

gcr.io/kubeflow/tensorflow-notebook-cpu
gcr.io/kubeflow/tensorflow-notebook-gpu

在生成窗口中，当启动一个新的Jupyter实例时，可以提供上面的镜像之一来开始，这取决于是要运行在CPU还是GPU上。镜像包括所有必需的插件，包括Tensorboard，可用于丰富的可视化和洞察模型。请注意，基于GPU的镜像的大小为几GB，可能需要几分钟才能进行本地化。

另外，在Google Kubernetes Engine上运行时，公共IP地址将暴露在互联网上，默认情况下是不安全的端点。对于使用SSL和身份验证的生产部署，请参阅文档。

训练

TFJob控制器为主，参数服务器和工作人员提供YAML规范以帮助运行distributed tensorflow。快速入门部署一个TFJob控制器并安装一个新的tensorflow.org/v1alpha1 API类型。可以通过向上述API提交规范来创建新的Tensorflow Training部署。

示例规范如下所示：

apiVersion: "tensorflow.org/v1alpha1"
kind: "TfJob"
metadata:
 name: "example-job"
spec:
 replicaSpecs:
 - replicas: 1
 tfReplicaType: MASTER
 template:
 spec:
 containers:
 - image: gcr.io/tf-on-k8s-dogfood/tf_sample:dc944ff
 name: tensorflow
 restartPolicy: OnFailure
 - replicas: 1
 tfReplicaType: WORKER
 template:
 spec:
 containers:
 - image: gcr.io/tf-on-k8s-dogfood/tf_sample:dc944ff
 name: tensorflow
 restartPolicy: OnFailure
 - replicas: 2
 tfReplicaType: PS

对于可运行示例，请查看tf-controller-examples /目录下的内容。有关使用TfJob控制器在Kubernetes上运行TensorFlow作业的更多信息，可以在tensorflow / k8s存储库中找到详细的文档。

服务模型

请参阅components / k8s-model-server中的说明，通过附带的Tensorflow服务部署来设置模型服务。

Github地址库：https://github.com/google/kubeflow

kubernetes 笔记本电脑电脑

安科网

这个工具包赞了，让Kubernetes上的机器学习如此简单！

WALKMANwubiao

Github地址库：https://github.com/google/kubeflow

WALKMANwubiao

相关推荐

6张图带你学懂 Kubernetes Ingress

推荐4款超好用本地Kubernetes部署工具

值得推荐的13个 Jenkins 替代方案

2020年非常值得推荐的7种 Kubernetes 日志管理工具

两款超好用的Kubernetes实时日志查看工具

本地环境运行Kubernetes的4种开源工具

五款值得关注的Kubernetes日志监控工具

机器学习任务编排工具比较

使用Ansible的Kubernetes模块实现容器编排自动化

面试问到了K8S原理，花5分钟来总结下，以后再也不怕了

如何降低开发人员的生产力？

Windows环境下，如何在Docker里运行SAP UI5应用

解放开发者！3款工具实现快速K8S开发

什么是CaaS？简化容器管理

Linux基金会开源软件大学技术公开课丨K8s必备技能攻略

Kubernetes上对应用程序进行故障排除的6个技巧

避免云锁定有哪几招？

企业扩大容器和Kubernetes应用的5大现实问题

如何设置一个正经的Kubernetes终端

首次部署 Kubernetes 应用，总会忽略这些事

WALKMANwubiao