「谷歌官方年度报告」Jeff Dean晒谷歌大脑成绩单
【谷歌官方年度报告】Jeff Dean晒谷歌大脑成绩单,TPU、AutoML、TensorFlow等重大突破
2018-01-12 新智元
【新智元导读】谷歌大脑负责人 Jeff Dean 今天在谷歌博客刊文,从AutoML、语言理解、机器学习算法、机器学习系统等核心研究工作,以及开源软件、数据集和新的机器学习硬件等方面,全面总结谷歌大脑在2017年取得的成绩。
谷歌大脑团队作为整个谷歌AI的一部分,致力于通过研究和系统工程推进人工智能的进步。去年这个时候,我们分享了2016年的工作总结。自那以后,我们继续在让机器拥有智能的长期研究进程中不断取得进展,并与谷歌和Alphabet的许多团队合作,利用这些研究成果来改善人们的生活。在本文,我将重点介绍我们在2017年的一些工作,包括一些基础研究工作,以及开源软件,数据集和新的机器学习硬件。在即将发表第二篇文章中,我们将深入介绍机器学习可能产生重大影响的特定领域的研究,例如医疗保健,机器人和一些基础科学领域,以及关于创造性、公平性和包容性的工作。
核心研究
我们团队重点关注的是增加我们的理解、提高我们解决机器学习领域的新问题的能力。以下是去年我们研究的几个主题。
AutoML
自动化机器学习的目标是为计算机开发能够自动解决新的机器学习问题的技术,而不用每次遇到新问题都需要人类机器学习专家干预。如果我们想要真正的智能系统,这是所需要的最基本的能力。我们开发了使用强化学习和进化算法设计神经网络结构的新方法,将这项工作推广到ImageNet图像分类和检测领域的最新成果,并展示了如何自动学习新的优化算法和有效的激活函数。我们正在积极与谷歌Cloud AI团队合作,将这项技术提供给谷歌的客户,并继续在多个方向推进这项研究。
利用神经结构搜索发现卷积结构
利用AutoML发现的网络进行对象检测
话语理解与生成
另一个主题是开发新的技术来提高计算机理解和生成人类语言的能力,包括我们与Google speech团队合作,对谷歌的端到端语音识别方法进行了一系列改进,将谷歌的语音识别系统的相对词错率降低了16%。这项工作的一个很好的方面是,它需要结合许多不同的研究思路(你可以在Arxiv上找到:1,2,3,4,5,6,7,8,9)。
用于语音识别的Listen-Attend-Spell端到端模型的组件
我们还与谷歌的Machine Perception团队合作开发了一种新的文本到语音生成方法(Tacotron 2),大大提高了生成语音的质量。这个模型达到了4.53的平均意见得分(MOS),相比之下,有声读物中的专业录音的MOS为4.58,而以前最好的计算机生成语音系统得分是4.34。你可以在这里试听:https://google.github.io/tacotron/publications/tacotron2/index.html
Tacotron 2的模型架构
新的机器学习算法和方法
我们继续开发新的机器学习算法和方法,包括Hinton提出的capsules的工作(在执行视觉任务时,显式地寻找激活特征中的一致性作为评估多个不同噪声假设的方式),稀疏门控专家混合层(实现了超大规模但仍有计算效率的模型),hypernetworks(使用一个模型的权重来生成另一个模型的权重),新的multi-modal模型(在同一个模型上执行音频、视觉和文本输入的多个学习任务),基于attention的机制(卷积和循环模型的代替),symbolic和non-symbolic学习的优化方法,通过离散变量反向传播的技术,以及一些新的强化学习算法的改进。
拓展阅读:
【重磅】Hinton 大神 Capsule 论文首次公布,深度学习基石 CNN 或被取代
【一个深度学习模型解决所有问题】谷歌 MultiModel 通吃文本、图像、翻译
【谷歌机器翻译破世界纪录】仅用 Attention 模型,无需 CNN 和 RNN
计算机系统的机器学习
我们非常感兴趣的另一个方向是在计算机系统中用机器学习取代传统的启发式方法。我们已经展示了如何使用强化学习来进行放置决策(placement decision),以将计算图映射到比人类专家更好的一组计算设备上。与Google Research的其他同事一起,我们在“The Case for Learned Index Structures” 这篇论文中展示了神经网络比传统数据结构(如B-trees,哈希表和Bloom过滤器)速度更快,也更小。我们相信,在核心计算机系统中使用机器学习方面我们仍仅是摸到了皮毛,正如在NIPS的Machine Learning for Systems and Systems for Machine Learning研讨会上所述。
作为Index结构的学习模型
隐私和安全
机器学习及其与安全和隐私的交叉领域仍然是我们的主要研究问题。在一篇获得ICLR 2017最佳论文奖的论文(arXiv:1610.05755)中我们展示了机器学习技术可以以一种提供不同隐私保证的方式应用。我们还继续调查了对抗样本的性质,包括在物理世界中展示对抗样本,以及如何在训练过程中大规模利用对抗样本,以使模型相对于对抗性样本更加robust。
了解机器学习系统
虽然深度学习取得了许多令人印象深刻的成果,但更重要的是理解它为什么work,以及什么时候不work。在另一篇ICLR 2017最佳论文奖的论文(Understanding deep learning requires rethinking generalization)中,我们发现目前的机器学习理论框架无法解释深度学习方法的令人印象深刻的结果。我们还发现,最优化方法找到的最小值的“平坦度”(flatness)并不像最初认为的那样与良好的泛化紧密相关。
为了更好地理解深层架构下的训练是如何进行的,我们发表了一系列分析随机矩阵的论文,因为随机矩阵是大多数训练方法的出发点。了解深度学习的另一个重要途径是更好地衡量它们的表现。在最近的一项研究(arXiv:1711.10337 )中,我们展示了良好的实验设计和统计严谨性的重要性,比较了多个GAN方法,发现许多流行的生成模型增强并没有提高性能。我们希望这项研究能够为其他研究人员提供一个可靠的实验研究的例子。
拓展阅读:【谷歌大脑团队 GAN 生态权威报告】6 种优化 GAN 模型对比,最优秀的仍是原始版本
我们正在开发能够更好地解释机器学习系统的方法。在2017年3月,谷歌大脑与OpenAI,DeepMind,YC Research等合作,宣布推出Distill,这是一本致力于支持人类对机器学习的理解的在线开放的科学期刊。Distill在机器学习概念的清晰阐释和在其文章中出色的交互式可视化工具方面赢得了声誉。在第一年,Distill发表了许多有启发性的文章,旨在理解各种机器学习技术的内部原理,我们期待在2018年发表更多工作。
特征可视化
如何有效使用t-SNE
机器学习研究的开放数据集
MNIST,CIFAR-10,ImageNet,SVHN和WMT等开放数据集,极大地推动了机器学习领域的发展。谷歌大脑和Google Research在过去一年一直积极地为开放式机器学习研究开源有趣的新数据集,以及提供更多的大型标记数据集,包括:
YouTube-8M:使用4,716个不同类别注释的700万YouTube视频
YouTube-Bouding Boxes:来自210,000个YouTube视频的500万个bounding boxes
Speech Commands数据集:包含数千个说话者说的短指令词
AudioSet:200万个10秒的YouTube视频剪辑,标记有527个不同的声音事件
Atomic Visual Actions(AVA):57,000个视频剪辑中的21万个动作标签
Open Images:使用6000个类别标记的900万个创作共用许可的图像
Open Images with Boundign Boxes:600个类别的120万个bounding boxes
YouTube-Bouding Boxes数据集样本:以每秒1帧采样的视频片段,围绕相关项目成功标识边界框
TensorFlow和开源软件
TensorFlow用户的分布地图
纵观我们团队的历史,我们已经开发了一些工具,帮助我们进行机器学习研究,并在谷歌的众多产品中部署机器学习系统。2015年11月,我们开源了第二代机器学习框架TensorFlow,希望能让机器学习社区整体从我们机器学习软件工具的投资中受益。去年2月,我们发布了TensorFlow 1.0,11月,我们发布了v1.4版本,增加了以下重要功能:用于交互式命令式编程的Eager execution,用于TensorFlow程序的优化编译器XLA,以及用于移动设备和嵌入式设备的轻量级解决方案TensorFlow Lite。预编译的TensorFlow二进制文件已经在180多个国家被下载了超过1000万次,GitHub上的源代码现在已经有超过1200个贡献者。
拓展阅读:【重磅】谷歌 TensorFlow 1.0 发布,智能手机也能玩转深度学习
【重磅】谷歌正式发布 TensorFlowLite,半监督跨平台快速训练 ML 模型
2017年2月,我们举办了第一届TensorFlow开发者峰会,超过450人参加了在山景城的活动,超过6500人观看了直播,包括在全球35多个国家和地区举办了超过85场的本地观看活动。所有的talk都被录像下来,涉及的主题包括TensorFlow的新功能,使用TensorFlow的技巧,以及低层TensorFlow抽象的细节。我们将在2018年3月30日在湾区举办第二届TensorFlow开发者峰会。
视频中的“石头剪刀布”实验是使用TensorFlow的一个创新实践。2017年出现了许多利用TensorFlow的实践,包括自动分选黄瓜,利用航拍图像寻找海牛,分选切丁马铃薯以制作更安全的婴儿食品,识别皮肤癌,在新西兰一个鸟类保护区解读鸟鸣录音,在桑坦尼亚帮助鉴定块茎植物病株,等等。
2017年11月,TensorFlow庆祝其开放源代码项目两周年。充满活力的TensorFlow开发人员和用户齐聚一堂,这是非常令人欣慰的。
TensorFlow是GitHub上的第一个机器学习平台,也是GitHub上的五大软件库之一,被许多公司和组织所使用,包括GitHub上与TensorFlow相关的超过24,500个不同的软件仓库。
现在,许多研究论文都与开放源码的TensorFlow一起出版,以配合研究结果,使社区能够更容易地理解每篇论文所使用的准确方法,并重现或得以扩展工作。
TensorFlow也受益于其它Google研究团队的开源相关工作,其中包括TensorFlow中的生成对抗模型的轻量级库TF-GAN,用于处理晶格模型的一组估计器TensorFlow Lattice,以及TensorFlow Object DetectionAPI。 TensorFlow模型库随着越来越多的模型不断发展。
除了TensorFlow,我们还在浏览器中发布了deeplearn.js,一个开源的硬件加速深度学习的API。
deeplearn.js主页有许多很好的例子,其中包括用户可以使用网络摄像头训练的计算机视觉模型:Teachable Machine,以及基于实时神经网络的钢琴组合和性能演示模型:Performance RNN。我们将在2018年开展工作,以便将TensorFlow模型直接部署到deeplearn.js环境中。
TPU
TPU提供高达180 teraflops的机器学习加速
大约五年前,我们认识到深度学习会大大改变我们所需要的硬件种类。深度学习的计算量非常大,但它们有两个特殊的性质:它们主要由密集的线性代数运算(矩阵倍数,向量运算等)组成,它们对精度容忍度高。
我们意识到我们可以利用这两个属性来构建能够非常有效地运行神经网络计算的专用硬件。我们为Google的平台团队提供了设计输入,他们设计并生产了我们的第一代Tensor Processing Unit(TPU):一种旨在加速推理深度学习模型的单芯片ASIC(推理是使用已经过训练的神经网络,与训练不同)。
这款第一代TPU已经在我们的数据中心部署了三年,并且已经被用于每个Google搜索查询,Google翻译,Google相册中的图片,AlphaGo与柯洁的围棋比赛中,以及其他许多研究和产品用途。
去年6月份,我们在ISCA 2017上发表了一篇论文,显示这款第一代TPU比现代GPU或CPU同类产品快15-30倍,性能/功耗约为30-80倍优化。
拓展阅读:【重磅】谷歌发布 TPU 论文,75 位联合作者,GPU 迎来最强劲对手
Cloud TPU Pod可以提供高达11.5 petaflops的机器学习加速
随着所使用的TPU设备数量的增加,在ImageNet上进行ResNet-50训练的实验显示接近完美的加速。
推论是重要的,但加速培训过程是一个更重要的问题,这也更难。我们在去年5月份Google I / O上发布的第二代TPU是一个旨在加速培训和推理的系统(定制ASIC芯片,电路板和互连)。
我们展示了一个设备配置以及一个深度学习超级计算机配置:TPU Pod。我们宣布这些第二代设备将作为云端TPU在Google云端平台上提供。我们还推出了TensorFlow研究云(TFRC),该项目旨在为顶级的ML研究人员提供服务,他们致力于与世界分享他们的工作,免费获得1000个云端TPU的集群。
在17年12月,我们可以在22分钟内在TPU Pod上训练一个ResNet-50 ImageNet模型,而在一个典型的工作站上需要几天或更长的时间来完成,这个模型的精度更高。
我们认为以这种方式缩短研究周转时间将大大提高Google的机器学习团队以及所有使用云端TPU的组织的工作效率。如果您对Cloud TPU,TPU Pods或TensorFlow Research Cloud感兴趣,可以通过g.co/tpusignup注册以了解更多信息。我们很高兴能够让更多的工程师和研究人员在2018年使用TPU!
新智元AI技术+产业社群招募中,欢迎对AI技术+产业落地感兴趣的同学,加小助手微信号: aiera2015_1 入群;通过审核后我们将邀请进群,加入社群后务必修改群备注(姓名-公司-职位;专业群审核较严,敬请谅解)