谷歌提出AI训练提速新方法，榨干GPU空闲时间，最高提速3倍多

wujun

2020-05-14

关注关注

即将开播：5月14日，Jenkins在K8S下的三种部署流程和实战演示

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

因为通用计算芯片不能满足神经网络运算需求，越来越多的人转而使用GPU和TPU这类专用硬件加速器，加快神经网络训练的速度。

但是，用了更快的GPU和TPU就一定能加速训练吗？

训练流水线的所有操作并不都是在加速器上运行。上游数据处理（如磁盘I/O和数据预处理）就不能在加速器上运行。

随着GPU等加速器越来越快，超过了CPU、磁盘处理数据的速度，上游就逐渐成了训练瓶颈。

在某些情况下，GPU上游的代码花费的时间甚至是GPU本身运行时间的几倍。上游没做完，下游只能空等，浪费了大量时间。

为此，Google AI团队，提出一种简单的数据回波（Data Echoing）方法，可以解决这个问题。该方法最多能将训练速度加速3倍以上，且对模型的精度没有明显影响。

Jeff Dean也在Twitter上转发点赞。

重复数据让GPU不空等

很多情况下，上游花费的时间比加速器更长，使用更快的GPU或TPU根本不会提高训练速度。如果投入大量的工程工作以及额外的计算资源，确实可以加快流水线的速度。

对于非常小的数据集，可以离线预先计算扩增的数据集，并将整个预处理的数据集加载到内存中。

但这种方法不适用于大多数机器学习训练场景，既耗时又分散了改善推理性能的主要目标。

与其等待更多的数据，不如利用已有的数据来使加速器保持忙碌状态。

在加速器空置50%情况下，预处理batch的第一个优化步骤之后，我们可以重复利用该batch再进行一次训练。

如果重复数据与新数据一样有用，训练效率会提高一倍。

实际上，由于重复数据不如新数据有用，因此数据回波提供的加速要小一些，但和加速器处于空闲状态相比，仍然可以提供明显的加速。

通常有几种方法可以在给定的神经网络训练管道中实现数据回波。

Google提出的技术，是将数据复制到训练管道中某个位置的随机缓冲区中，无论在哪个阶段产生瓶颈之后，都可以将缓存数据插入任意位置。

数据回波在样本级别对数据进行混洗，而batch回波则对重复批次的序列进行混洗。另外还可以在数据扩充之前插入缓冲区，以使重复数据的每个副本略有不同，因此不是简单机械重复，而是更接近一个新样本。

加速3倍多，精度无损失

那么数据回波到底多有用呢？

Google在五个神经网络训练管道上尝试了数据回波，涵盖了图像分类、语言建模和目标检测3个不同的任务，并测量了达到特定性能目标所需的新样本数量。

Google发现，数据回波可以用更少的新样本来达到目标性能，这表明重复使用数据对于降低磁盘I/O很有用。在某些情况下，重复数据几乎与新数据一样有用。

在ImageNet的ResNet-50训练任务中，数据回波可以显著提高训练速度，加速了3倍以上。

从云存储中读取一批训练数据所花的时间是使用每一批数据执行训练步骤的6倍。因此数据最多可以重复5次。

我们将回波因子定义为重复每个数据项的次数，对于以上任务，回波因子最大是5。如果重复样本与新样本一样有用，则应该带来6倍加速，而实际上只加速了3.25倍，但也相当可观。

可能有人会担心重复使用数据会损害模型的最终性能，但实验发现，测试的任何工作负载，数据回波都不会降低最终模型的质量。

随着GPU和TPU性能的继续提升，和通用处理器的差距会越来越大，Google期望数据回波和类似策略将成为神经网络培训工具包中越来越重要的一部分。

谷歌加速器神经网络

wujun

0 关注 0 粉丝 0 动态

关注关注

华为突破封锁，对标谷歌Dropout专利，开源自研算法Disout

美国持续封锁，华为的技术自研，已经深入到了AI底层算法层面上，并开始将研究成果面向业界开源。刚刚，华为诺亚实验室开源Disout算法，直接对标谷歌申请专利的Dropout算法。而且，在多项任务上，华为的新算法都超过了Dropout。这一算法背后的论文，已被

aaJamesJones 2020-05-20

谷歌正在测试一个人工智能系统，帮助视障人士参加跑步比赛

本文转自雷锋网，如需转载请至雷锋网官网申请授权。谷歌正在测试一种人工智能系统，帮助盲人和有视力障碍的人自行参加比赛。Project Guideline是一项早期研究计划，试图给予这些人更多的独立性。据VentureBeat报道，为了使用该系统，跑步者需要将

人工智能快报 2020-11-21

谷歌概述了2021年的Android应用开发与政策变动规划

谷歌刚刚在 Android 开发者博客中披露了 2021 年的开发计划，比如 8 ~ 11 月的时候，所有新应用都必须支持 Android 11 的 API Level 30 。此外 Google Play 将要求新提交的 App 使用 Android A

xfcyhades 2020-11-20

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 2020-11-16

Python之父，现在成为微软打工人

Python之父，现在成了微软的打工人。没错，全世界程序员们最喜欢的编程语言的创造者，自述耐不住退休生活的寂寞，重返岗位发光发热。又为什么选择微软？几个小时前，Guido Van Rossum本人发推宣布了这个消息，他说：「退休生活太无聊了，我决定加入微软

guangcheng 2020-11-13

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

微软和谷歌一直在积极研究用于训练深度神经网络的新框架，并且在最近将各自的成果开源——微软的PipeDream和谷歌的GPipe。原则上看，他们都遵循了类似的原则来训练深度学习模型。这两个项目已在各自的研究论文中进行了详细介绍，这篇文章将对此进行总结。对于初

深圳克林斯曼 2020-11-09

研究员准备让智能设备用AI来判断你的声音来自哪里

虽然这个想法让隐私保护主义者感到害怕，但智能音箱的开发者们正在努力让他们的设备在没有听到用户唤醒词的情况下也能启动。我们知道谷歌已经在研究这项技术，但现在，卡内基梅隆大学那边的人也在跟进，研究人员已经开发出了一种机器学习模型，利用人工智能的力量精确判断某人

机器之心 2020-11-06

17款Android App被强制删除，Google Play商店发现恶意软件已感染数百万设备

本周谷歌从官方Play Store删除了17款Android应用程序。据来自Zscaler的安全研究人员Viral Gandhi称，这17个应用程序全部感染了Joker恶意软件。据调查发现，这批病毒软件从3月份开始活跃，已经成功感染了数百万台设备。今年1

Urchindong 2020-11-04

华为谈安卓：无惧谷歌技术中断，鸿蒙系统下月登陆手机

11月3日消息，之前外界一直担心，如果谷歌突然收紧安卓系统，对于华为来说，可能又是一次重要的打击，不过现在外界多虑了，而华为消费者业务软件部总裁王成录也是透露了一些内幕情况。王成录透露，从去年516之后，华为基本上跟Google中断了技术交流，但是华为今年

Michael 2020-11-03

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

章鱼之家 2020-10-29

封了TikTok，印度又要动谷歌？

6月29日以来，印度政府共封禁过近两百款中国应用，出海印度一时风声鹤唳。同时，美国巨头包括Facebook和谷歌在印度烧钱烧得手软，一起向电信运营商Jio砸下100多亿美金。10月初，印度移动支付巨头Paytm联合数十家初创企业准备起诉谷歌。虽然，目前两款

fengyeezju 2020-10-14

危险信号：谷歌AI把戴口罩的女性识别为被胶带封嘴的女人

根据FuninUSA报道，微软、谷歌和IBM的视觉系统要跟上现实世界需要做很多工作。这项研究的一些结果确实令人不安。市场营销公司Wunderman Thompson的数据集团进行了这项研究，研究了著名的视觉AI对戴PPE口罩的男性和女性的观察方式是否相同。

hanfuquan0 2020-10-12

谷歌、脸书、亚马逊……这10大科技巨头都在使用Python

十年前，由于编程语言种类匮乏，开发人员不必苦恼自己应该选择哪一种编程语言;但是现在，世界上正在使用的编程语言超过500种，随着人们的不断交流，还会有更多的语言出现。对于开发人员而言，基于项目的特点等因素确定应该使用哪一种编程语言成为了首要任务。Python

89347543 2020-10-10

美最高法院将对甲骨文诉谷歌Android代码案作出终审裁定

甲骨文与谷歌就 Android 代码问题发起的诉讼，距今已有将近 10 个年头。经历了三次审判和两次上诉，这场官司终于还是闹上了美国最高法院。期间两家科技巨头已经动用了无数的人力和诉讼费用，以及努力向非技术专业的陪审团成员解释其中的缘由。不过当地时间周三上

韩伟佳 2020-10-09

前谷歌机器人主管打造出能够灵活延伸的辅助机器人

据悉，延伸研究版目前的售价为17950美元。

幸福左手边 2020-10-09

现在知道还不算晚，输入示例自动生成代码，谷歌开源这项神器要火

操作张量并非易事，因为它需要很多先决条件，例如跟踪多个维度，Dtype兼容性，数学正确性和张量形状等。当然最大的挑战还是从数百种可用选项中确定正确的TensorFlow操作。如果会的话，谷歌的TensorFlow Coder可以帮你实现这一点。然后，它会运

lybbb 2020-09-29

谷歌为Chronicle网络安全平台引入威胁检测功能

VentureBeat 报道称，谷歌已正式将威胁检测功能引入该公司旗下的 Chronicle 网络安全平台，并承诺为企业提供与自家规模相当的威胁分析服务。作为最初诞生于 Alphabet 内部 X 部门的一个项目，其于 2018 年成为了一家独立的网络

关于学习本身 2020-09-24

谷歌推出 Go 版 Android 11，适用于入门级设备

Android 11刚刚发布，谷歌的Go 版本 Android 11也紧随其后。Android Go 版本最初于 2018 年推出，旨在为入门级设备提供智能手机体验。今年七月，曾有泄露的谷歌文档显示“谷歌提高 Android RAM 要求，低于 2GB 将

Angelia 2020-09-11

鸿蒙距离安卓还有多远？

“我们已经开始构建自己的生态，把生态干起来，鸿蒙 OS 系统已经投入上亿，体验一直在改善，现在能达到安卓 70%-80% 的水平，但是每天每周每个月都在改进。”近期，华为消费者业务 CEO 余承东谈论了鸿蒙 OS 目前的状态。就在前一天，DigTimes

刘炳昭 2020-09-10

谷歌保持技术竞争力的秘诀：以全球规模工程为先

本文内容，源自我在谷歌提供软件工程师这六年当中的亲身实践，以及对谷歌内部广泛工程运营活动的观察。希望通过这篇文章，能够对谷歌的全球规模工程实施做出一番宏观概述。从 2013 年 8 月到 2019 年 4 月的这六年时间，我有幸加入谷歌参与一系列项目。谷歌

tft0 2020-09-09

安科网

谷歌提出AI训练提速新方法，榨干GPU空闲时间，最高提速3倍多

wujun

即将开播：5月14日，Jenkins在K8S下的三种部署流程和实战演示

重复数据让GPU不空等

加速3倍多，精度无损失

wujun

相关推荐

华为突破封锁，对标谷歌Dropout专利，开源自研算法Disout

谷歌正在测试一个人工智能系统，帮助视障人士参加跑步比赛

谷歌概述了2021年的Android应用开发与政策变动规划

全面解读谷歌云人工智能如何为机器学习提供帮助

Python之父，现在成为微软打工人

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

研究员准备让智能设备用AI来判断你的声音来自哪里

17款Android App被强制删除，Google Play商店发现恶意软件已感染数百万设备

华为谈安卓：无惧谷歌技术中断，鸿蒙系统下月登陆手机

苹果正秘密开发自家搜索功能谷歌地位会被取代吗？

封了TikTok，印度又要动谷歌？

危险信号：谷歌AI把戴口罩的女性识别为被胶带封嘴的女人

谷歌、脸书、亚马逊……这10大科技巨头都在使用Python

美最高法院将对甲骨文诉谷歌Android代码案作出终审裁定

前谷歌机器人主管打造出能够灵活延伸的辅助机器人

现在知道还不算晚，输入示例自动生成代码，谷歌开源这项神器要火

谷歌为Chronicle网络安全平台引入威胁检测功能

谷歌推出 Go 版 Android 11，适用于入门级设备

鸿蒙距离安卓还有多远？

谷歌保持技术竞争力的秘诀：以全球规模工程为先

wujun