谷歌Kubernetes服务支持云端TPU服务,机器学习更给力!

自今年2月Google发布云端TPU Beta版服务后,该公司旗下不同的云服务也陆续整合TPU,如云机器学习引擎也能结合TPU计算服务,加速训练效果。而TPU服务也推出新模式,比起按需模式,价格更便宜7成。

谷歌Kubernetes服务支持云端TPU服务,机器学习更给力!

而近日Google又加强TPU与其他产品线整合,现在Google Kubernetes服务已经支持云端TPU,让企业可以在Kubernetes环境调度TPU资源。对TPU计价模式,在Kubernetes环境导入TPU服务,Google也有提供先占模式,让企业可以用便宜的价格,尝试该功能。

结合Google Kubernetes引擎的原生功能,使用者可以通管部署在Kubernetes环境的TPU资源。例如,根据实时流量,自动扩充TPU集群。再者,Google也有提供原生的API,让因为人员可以扩充Kubernetes Pods以及云端TPU规模。

自2016年Google首度披露TPU以来,现在云端TPU已经发展至第三代。目前处于稳定版本的云端TPU第二代,每单位可以提供180TFLOPS的算力,并且搭配64GB的高频宽存储。至于最新的第三代,现在还处于Alpha阶段,相比第二代性能有相当大进步,可以提供420TFLOPS的算力,以及128GB的高频宽存储器,以应付更复杂的机器学习模型。

在Google内部其中的一个应用案例,就是使用云端TPU服务,执行围棋引擎Minigo。Google解释,Minigo项目是来自Google员工执行的Side project。借力神经网络架构的Minigo,其系统专注于解决棋局中碰到的两个问题。

第一个是预测下一步最有可能出现的棋招,第二个问题,则是计算两方谁的胜算较大。结合神经网络架构及增强式学习模型,Minigo可以不断提升自己的棋力。每一次完成一次棋局,Minigo会记录结果,并且分析每一步。接着,Minigo会更新网络模型,改善棋局的胜率。

一开始Google是结合GPU资源,将Minigo部署于Kubernetes环境运行。后来,选择结合TPU资源,并将Minigo部署在Kubernetes环境执行,搭配640个TPU组成的计算,Minigo每秒钟可以完成20至30个棋局。

相关推荐