谷歌云的机器学习TPU Pod要商用了,测试版发布,媲美超级计算机
今天,谷歌宣布用于机器学习的可扩展超级计算机Cloud TPU Pod现已公开发售,谷歌云TPU v2 Pod和TPU v3 Pod首次公开发布测试版。
谷歌表示,为了加速当今部署的最大规模的机器学习应用程序,并实现未来器学习应用的快速开发,Google创建了称为Tensor Processing Units(TPU)的定制硅芯片。当组装成称为Cloud TPU Pods的多机架器学习超级计算机时,这些TPU可以在几分钟或几小时内完成器学习工作负载,而这些工作在以前需要数天或数周才能在其他系统上完成。今天,谷歌云TPU v2 Pod和TPU v3 Pod首次公开发布测试版,以帮助器学习研究人员,工程师和数据科学家更快地迭代并培养更有能力的机器学习模型。
据悉,谷歌云致力于提供全方位的机器学习加速器,包括云GPU和云TPU。云TPU提供极具竞争力的性能和成本,通常可以更快地培训尖端深度学习模型,同时节省大量成本。谷歌表示,如果你的机器学习团队正在构建大型数据集的复杂模型和培训,建议他们需要时评估Cloud TPU。它提供以下商用价值:
- 更短的见解时间——在训练大型ML模型时速度更快
- 更高的准确性——使用更大的数据集(数百万个标记的示例;TB或数PB的数据)来获得更准确的模型
- 频繁的模型更新——随着新数据的进入,每天或每周对模型进行更新
- 快速原型设计——使用我们在图像分割,对象检测,语言处理和其他主要应用领域中优化的开源参考模型快速启动
虽然一些定制硅芯片只能执行单一功能,但TPU是完全可编程的,这意味着Cloud TPU Pod可以加速各种最先进的ML工作负载,包括许多最流行的深度学习模型。例如,Cloud TPU v3 Pod可以在短短两分钟内在ImageNet数据集上从头开始训练ResNet-50(图像分类),或在短短76分钟内训练BERT(NLP)。
Cloud TPU客户看到了可视化产品搜索,财务建模,能源生产和其他领域的工作量大幅提升。在最近的一项案例研究中,Recursion Pharmaceuticals迭代测试合成分子的活力来治疗罕见疾病。在Cloud TPU Pod上仅用了15分钟就完成了在他们的本地集群上训练需要24小时的时间。
据悉单个Cloud TPU Pod可以包含1000多个单独的TPU芯片,这些芯片通过超快速的二维环形网状网络连接,如下图所示。TPU软件堆栈使用这个网状网络,通过各种灵活的高级API,可以将许多机器机架编程为单个巨型ML超级计算机。
最新一代的Cloud TPU v3 Pod采用液体冷却,可实现最佳性能,每个都可提供超过100 petaFLOP的计算能力。谷歌指出,就每秒原始数学运算而言,Cloud TPU v3 Pod与全球前5大超级计算机相当(尽管它的数值精度较低)。
也可以使用称为“切片”的较小部分的Cloud TPU Pod。我们经常看到ML团队在各个Cloud TPU设备(通常可用)上开发他们的初始模型,然后通过数据并行扩展到逐渐变大的Cloud TPU Pod切片和模型并行性,以实现更高的训练速度和模型规模。