终于能用Google的TPU跑代码了，每小时6.5美元

yyHaker

2018-02-14

AI科技大本营消息，北京时间周一（2月12日）晚间，Google 宣布，在 Google Cloud Platform（GCP）上正式推出Cloud TPUs 测试版服务，帮助研究人员更快地训练和运行机器学习模型。目前的收费标准为 6.5美元/Cloud TPU/小时，而且供应有限，需要提前申请。

TPU（Tensor Processing Unit）的全名为张量处理单元，是 Google 专为机器学习而定制的一款芯片。在去年 5 月 18 日的Google I/O 大会上，Google 正式推出第二代 TPU —— Cloud TPU，相比第一代，第二代对推理和训练都进行了优化。

然而，Google 的 TPU 一直只在内部使用，此次 Google 首次对外全面开放自家的 TPU，这或许意味着谷歌正式向英伟达的 GPU 开炮，加速 TPU 的商业化进程，在 AI 基础设施领域抢占地盘。

终于能用Google的TPU跑代码了，每小时6.5美元

以下是 Google Cloud 的官方博客内容：

Cloud TPUs 是 Google 设计的一系列硬件加速器，专门针对加速和扩大使用 TensorFlow 编程的机器学习工作负载进行了优化。每个 Cloud TPU 由四个定制的 ASIC 构成，单个 Cloud TPU 的浮点计算能力可以达到 180 teraflops（万亿次每秒），内存宽带 64GB。

这些板卡可以单独使用，也可以通过超快的专用网络连接在一起，共同构建成 multi-petaflop（几千万亿次每秒）的机器学习超级计算机，我们称之为“TPU pods”。今年晚些时候，我们将在 GCP 上提供这些大型的“超级计算机”。

我们设计 Cloud TPUs 的目的是为了给 TensorFlow 工作负载提供差异化的性能，让机器学习工程师和研究人员能够更快地迭代（机器学习模型）。比如：

从此以后，你不用再等待共享计算机集群的调度，只需通过可以控制并自定义的 Google 计算引擎虚拟机，就可以独占联网的 Cloud TPU。
以前训练商用机器学习模型可能要等上几天甚至几周，现在只需要一个晚上，你就可以在 Cloud TPUs 机群上训练出统一模型的不同变体，第二天就可以将准确率最高的训练模型部署到生产活动中去。
使用单个 Cloud TPU，并遵循该教程（https://cloud.google.com/tpu/docs/tutorials/resnet），你就可以在不到一天的时间内训练出符合你期望的 ResNet-50 网络，使其在 ImageNet 基准挑战上达到你所期望的准确率，而且花费不超过 200 美元。

▌让机器学习模型训练更容易

传统上，为定制的 ASIC 和超级计算机编写程序需要深入的专业知识，但是对于 Cloud TPU 而言，你可以使用高级的 TensorFlow APIs 进行编程。我们开源了一系列高性能 Cloud TPU 模型实现，帮助你快速上手：

ResNet-50（https://cloud.google.com/tpu/docs/tutorials/resnet），其他常用的图像分类模型（https://github.com/tensorflow/tpu/tree/master/models/official）。
用于机器翻译和语言建模的 Transformer（https://cloud.google.com/tpu/docs/tutorials/transformer (https://research.googleblog.com/2017/08/transformer-novel-neural-network.html)）
用于目标检测的 RetinaNet（https://github.com/tensorflow/tpu/blob/master/models/official/retinanet/README.md）

为了节约你的时间和精力，我们将持续测试这些模型实现在标准数据集上的性能和收敛至期望准确率的情况。

之后，我们还将开源更多的模型实现。热爱探索的机器学习专家可以使用我们提供的文档（https://cloud.google.com/tpu/docs/）和工具（https://cloud.google.com/tpu/docs/cloud-tpu-tools），优化其他在 Cloud TPUs 运行的 TensorFlow 模型。

如果你现在就开始使用 Cloud TPU，那么在今年晚些时候我们推出 TPU pod 时，你将会从训练时间到准确率的大幅提升中收益。正如我们在 NIPS 2017 上宣布的那样，在一个完整的 TPU pod 上，ResNet-50 和 Transformer 的训练时间将从大半天将至 30 分钟以内，而且无需修改任何代码。

▌可扩展的机器学习平台

Cloud TPU 同样简化了机器学习计算资源的规划和管理过程：

你可以为自己的团队提供顶尖的机器学习加速，并且根据需求的变化动态调整自己的容量；

相比于花费时间和金钱，并聘请专业的人才来设计、安装、维护一个需要专门的功能、冷却、网络和存储设备的实体机器学习计算集群，你可以从 Google 持续多年专门优化过的大规模、高集成的机器学习基础设施中受益。
不需要费力地保证各种工作站和服务器的驱动更新升级，因为 Cloud TPU 根本不要安装驱动。
Google Cloud 将提供同样复杂的安全机制和实践保护。

除了 Cloud TPUs，Google Cloud 也会提供一系列的高性能 CPU（包括英特尔 Skylake）和 GPU （包括英伟达 Tesla V100）。

目前，Cloud TPU 的供应依然受限，价格将以秒计费，大约为 6.5 美元/Cloud TPU/小时，申请地址为：https://services.google.com/fb/forms/cloud-tpu-beta-request/。

机器学习 tpu

安科网

终于能用Google的TPU跑代码了，每小时6.5美元

yyHaker

yyHaker

相关推荐

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

Python 用5行代码学机器学习—线性回归

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

yyHaker