谷歌Jeff Dean亲述:我们是如何用一项技术打造出数十种产品的
机器之能,是机器之心旗下关注全球人工智能产业应用场景及商业化的内容账号。欢迎关注与互动:almosthuman2017
这里面蕴藏着Google的「10倍优秀」哲学。
整理 | 宇多田
大概我们仰望 Jeff Dean 等 Google 技术大神的心情,就像邓布利多之于麻瓜一样。
在 Google Brain(谷歌大脑)团队极少面向公众进行宣传的前提下,Google每年在东京举行的 APAC 技术活动,成为这群顶级工程师们为数不多向我们敞开实验室大门的方式之一。
每一年,这场主要面向亚太地区的技术活动都有一个独特的主题。而这一次,通过主题就能明显看出,「往年满满的技术干货有了逐步『下沉』的趋势」。
没错,「Made With AI」。Google 这次要讲的,不是「AI 如何被拿来使用」,而是「AI 如何被所有普通人使用」的故事。
作为主角,围绕着「应用」这个核心点,Jeff Dean 的演讲内容更趋向于「科普化」。他有逻辑地回答了三个平时看似容易解答,但却最容易忽略,甚至说不明白的问题:
1、人工智能到底是什么?
2、我们究竟为什么重视人工智能?
3、为什么我们现在要重视它?
看完这篇完整的演讲,你也许会完成「技术麻瓜」向「一年级魔法新生」的进阶;也会了解到,一项颠覆性的技术,是如何为 Google 延伸出数十种不同的应用与产品的。
以下就是机器之能整理后的 Jeff Dean 演讲:
我叫 Jeff Dean,我是 GoogleBrain 的负责人,我们团队负责机器学习与人工智能的研发与应用。这是我第一次来到东京,我们是昨天才到的。机器学习可以使我们更加容易的获得信息。
我们以谷歌翻译为例,十年前,我们很难明白这个到底是什么意思,因为它是日文的。如果现在我用谷歌翻译就很容易了。下面我可以给大家来展示一下:
大家可以看到这是我的手机屏幕,打开谷歌翻译,这是英文的翻译,是紧急出口的意思,当然你也可以选择其他的语言。即使我不会日语,我也可以在日本很轻松的旅游。
我们的最终目标是以下几点:
首先我们想利用人工智能和机器学习让我们的产品更加实用;
第二我们希望帮助企业和外部开发者利用人工智能和机器学习进行创新;
第三,我们也希望为研究人员提供很好的工具,包括内部、外部的研究人员,来解决人类面临的重大挑战。
首先,给大家来回答三个重要的问题:
第一,人工智能到底是什么?第二,我们为什么重视人工智能?第三,我们为什么现在重视它。人工智能的概念到底是什么?
人工智能这个概念在计算机领域存在已久。在计算机发明之后,人们都想让机器更加的智能,就像人类一样进行理解和推理,并且完成人类的任务。
我们知道人工智能都是基于规则的,我们想要确定一些逻辑的规则和编码,让我们的机器更加智能。
但是在十几二十年前我们就认识到了,把世界按照逻辑规则来编码是不太可能的,因为我们很难制定一个规则编码整个世界。因此,机器学习之所以变得这么重要是因为机器学习能够让机器自我进行学习,观察世界,学习规律,就像人类一样,而这样比仅仅写代码更加容易。
核心而言,机器学习是创造解决问题的系统的新方式。
我们知道这些机器学习通过数据集能够自己解决问题,而不仅仅是写代码。对比很多年前的深蓝和现在 AlphaGo 来看,他们采用的方法不一样。
我们知道深蓝是通过蛮力搜索去知道接下来这个棋应该怎么走,但围棋是一个非常复杂的游戏,由于其复杂性很难穷尽算法,如果没有足够的计算能力去探索围棋的世界,那么机器所做的,是帮助你认识游戏过程的规律,以及怎样才能够像人一样有本能去思考如何走棋。
通过使用机器学习,机器能够更好地学习人类玩游戏,通过观察来学会怎么样下围棋,这就是阿尔法狗团队在背后所遵循的逻辑。
机器学习就是教计算机学习,不一定要编程规则,我们只需要给提供数据,这个系统从数据当中自我学习。
现在机器学习最流行的方式是神经网络。神经网络是探究生物大脑的运作然后进行学习,神经末源和其他神经末梢发生联系,可以处理图象。
第一层是和象素相联系的,寻找不同的图案。第一层可能放到了不同的边缘,不同的清晰度,还包括颜色是棕色还是绿色的,再深一层我们可以看到第一层的输出变成了第二层的输入,可以认识在边缘有一个绿色,到底是像耳朵还是眼睛。
我们怎么样对他进行训练也是机器学习的一个核心:
我们可以看到这个图象,比如说一只猫,我们把它输入到网络中然后进行预测这个图像究竟是什么,是卡车,猫还是其他成千上万种不同的类别。我们要了解这个模型最后的预测结果,如果正确,那就没有问题,如果不正确我们要把这个模型拿过来做一些微调。
那下一次我们再进行预测,可能就会作出正确的选择,他会认出这是一只猫。通过成千上万的培训之后,他们还可以学会一些非常复杂的功能,从一些原始的象素到猫的正确标签。
我们为什么要这么做呢?
因为当我们看到一个新的图象的时候,比如说训练的过程当中从来没有见过这个图象,那我们也可以对这个图象作出预测。这是一个新的图象,我们在这个模型里面运行所有的像素,最后做出一个预测。
现在人工智能的体系和模型化能够打出这个标签,任何的一个图象经过了这样的模型,就会作出预测。如果在工作和培训都没有问题的情况下,就会作出最后的预测。
我们的神经网络培训输入和输出也有很多种,不仅仅是可以识别图像,他们可以学习一些非常复杂的功能。我们还可以接收视频和音频的输入,还可以把视频音频转化为文本。
我们可以进行英文的问答,比如说把「你好吗」「你好」转化为另外一种语言。除了像素预测,我们还可以输出整个句子。
例如:「蓝黄的火车在运行」,这不仅仅是一个单一的类别,通过这个句子你可以知道这是一辆火车还是一辆卡车,它的颜色是黄蓝色的等等,这是非常复杂的学习系统。因此人们对此功能感到激动。当提供正确数量的培训,我们可以作出很多有意思的事情。我们的 CEO 表示现在 Google 把人工智能作为最优先的发展方向。
目前,我们在 AI/ML 这个领域有许多的研究。
在 2012 年 6 月发表的一篇论文中,我们使用了大规模神经网络来识别视频内容模式。当时的大多数研究中,使用的是经过标记的数据来训练神经网络。一些使用未标记数据的早期研究并没有收到很好的结果。
我们发现,通过构建更大规模的神经网络,能使系统开始自行对模式进行识别,而无需参考训练中使用的大量被标记好的内容。这无疑是一个里程碑。
我们建立了有着 10 亿个连接的神经网络,并向其输入了 YouTube 上一周的视频。网络学习了如何识别猫的形状而不需要去标记出猫的示例来。使用这种大规模的神经网络,我们很大程度上提升了图像分类测试的标准。
事实上我们看到,在测试结果的相关准确性方面有了 70% 的提升。所以这不仅仅是一个技术里程碑,更是在极大程度上帮助提升了我们的产品。
另外,我们在不断地打造机器学习的工具。
我们自己把研究工具和外部的开发者进行分享。大家知道我们开源了 TensorFlow,这样其他人就可以从我们的工作中收益,进一步进行机器学习方面的探索,用人工智能来解决一些问题。
现在 TensorFlow 是机器学习中最常用到的,并且它取得了巨大的成功。人们也在尝试用它解决不同的问题。
在 2017 年 5 月,我们发布了 TensorFlow1.0,同时我们也在不断的进一步发开增加新的功能,让这个平台变得更好用,更强大。
对我们来说,我们通过在机器学习领域的贡献,加速了技术的进步,为全世界的人带来更多的机会。这个图显示的是不同开源的机器学习方面的一些情况,我们可以从中看到 TensorFlow 被使用的频率非常高,之后对于 TensorFlow 我们还将会进一步阐述。
事实上,在机器学习的发展旅程中有许多的里程碑,神经网络也不是一个新的概念,我们在机器学习领域也有了很长时间的研究。
那么,为什么会发生了现在这一切呢?
事实上我们现在用的很多算法都是在八九十年代的时候已经有了,那个时候的挑战是没有解决大规模数据的计算能力,计算机没有足够强大的计算能力来建立神经网络,从而进行大规模的数据处理。
有摩尔定律之后,我们的计算机比 90 年代的计算机能力有了很大提高,特别是计算能力,因此也就可以解决更多的问题。而且现在我们不仅有了足够强大的计算能力,也有了大规模的数据能够用来训练神经网络。
之前我们已经分享了 Google 在 AI/ML 领域的努力,包括如何应用人工智能和机器学习去打造更好的产品,如何帮助其他人创新以及如何去解决更多的社会问题。
那么接下来我们去看如何用 AI/ML 来打造更好的产品,让更多的人可以从中获益,让每个人都能够触及到人工智能。
过去的计算机是不能看的,而现在有了视觉,可以看到很多的东西,这使得很多的事情成为了可能。计算方面的变化包括语音的识别、翻译,更好理解的语言等等。
我们现在是一家人工智能为导向的公司,我们通过人工智能解决很多的问题。我们不光是使我们的产品更好,我们的愿景是让每个人从人工智能中收益。在这里我们会讲很多的方法通过机器学习改进 Google 的产品。
首先,Google Photos。我们围绕着这个产品建立一些视觉,使得所有照片都可以搜索到。我们有这个 Photos 的 APP。Google Photos 可以搜寻你的照片。
我们先跳过这一段,先说翻译。刚才已经演示了,你用相机照下来,然后它可以帮你翻译。另外,你可以通过语言说给它,它也可以帮你翻译。谷歌地图中人工智能也可以做很多的事情。在数据有许可的情况下,通过街道,街景的数据可以获取更多有关这个地区详细的情况。
在没有数据许可的情况下,通过卫星的影响,加上机器学习和计算机视觉等技术就可以变成可用的地图,让人们在这个城市中使用它。
即使我们没有特别具体的数据,我们都可以做到这一点,而且我们都能够改进。当地的人也都喜欢这个因为由于有了 AI 的技术他们可以使用的这样的地图。
同时,我们可以识别这个画的人物,可以分析面目的结构,找到一些有意思的东西,把它变为这样的小图框。这是我的表情,你也可以自己做自己的。
Google Lens 可以把你看到的东西搜索出来,得到相关的信息。比如你跟这个图片照相,他可以检索出来艺术家是谁。
你就用 Google Lens 照一下,就可以搜索。我们还可以分析周围的一些事物,也可以理解原始的东西,同时把它跟其他的东西联想,这确实是非常有用的,我们每天都可以利用它。
机器学习的视觉可以给我们更好的建议,基于你愿意看什么节目,愿意听什么音乐,通过这些东西可以给你推荐一些歌曲或一系列相关的音乐产品。
另外,我们可以了解人们是怎么用地图找停车位的,可能在目的地很难停车,但是这个地方在一些时间点是有停车位的,它就给你导航到那个地方,我们在美国的 25 个城市进行了试点。
Gmail。理解文本方面在过去的几年时间里面有很大提升。比如说你得到一个邮件,智能系统通过预测,给用户提供相关答案或建议,包括应该对电子邮件做什么样的反馈,给你一些「可以」,「听着不错」等建议答案,但这都基于对文本的理解。
这样的话比我们用手打字快得多。大概是 12% 的邮件回复都是在手机上进行的,所以你有这个小的功能之后,就可以更加快捷。
Google Assistant,谷歌助理,核心是语音识别。比如询问 Google 新德里的天气是什么样的,它会通过语音识别,理解,然后以合理的形式展示给你。
这个系统是非常复杂的,其中包含了很多机器学习的相关技术。我们之后也会谈更多这些方面的情况,这个产品没有人工智能和机器学习是不可能存在的。
在 YouTube 上,我们通过机器学习给超过 10 亿的视频自动加上字幕,让世界上近 3 亿的聋哑人或者有听觉障碍的人可以看到视频上的东西。
我们在不断的改进这个语音识别系统,使「自动字幕」的文字准确性提升了 50%。我们通过神经网络等技术,可以让听力有障碍或者不精通视频播放语言的人通过自动字幕享受到视频。
在 Google 翻译这一方面,2016 年,Google 做了大量的努力来提高神经网络机器的翻译水平。这项工作已经持续了十年。在过去的翻译系统并非基于神经网络的系统,而是使用更简单的统计翻译模型,由 50 万行代码组成。
去年推出的新神经网络机器翻译系统经过了简单却有效的数据训练。新系统仅由 500 行 TensorFlow 代码组成,而非 50 万行。我们去年秋天开始使用新的神经网络翻译系统后,翻译准确性得到了很大的改进,堪比肩过去十年中取得的提升。
有趣的是,翻译效果提升最明显的是日英互译。在日本的用户发现现在的翻译结果得到了质的飞跃。
现在,我们又将神经网络机器翻译应用到了 97 组语言对中,现在的翻译结果更加流畅、自然,质量大幅提升,用户更加满意。同时,我们也清楚,在更多数据的输入和打磨下,翻译效果还将进一步提高。
我们将新型的硬件与软件相结合的另一个实例是 Pixel Buds。这是一种能实时将你周围别人说的话翻译成你的母语的耳机,运用了语音识别和翻译技术。
有了它。你就能在陌生的语言环境中漫游,几秒钟后便能翻译成你的母语。这项技术的翻译效果也将随着时间的推移得到显著的提升。
最后总结一下我们在这个领域的三个重点:
我们想使用 AI 改进自己的产品;我们想帮助其他人用 AI 以及机器学习进行创新,并解决他们的实际问题,这也是今天其他演讲嘉宾将提到的;我们还着眼于解决一些更大的问题,像是医疗,生态,和其他我们认为 AI 和机器学习能带来很大帮助的地方。