实现通用人工智能还要多久?Hinton与AlphaGo之父这样回答
作者 | Klye Wiggers
译者 | 刘旭坤
责编 | 琥珀
出品 | AI科技大本营(公众号ID:rgznai100)
人工智能(AI)在即将过去的 2018 年进展神速,取得了很多令人瞩目的成就,比如预测用户感兴趣的音乐、判断肿瘤的转移、生成脑瘤的核磁共振成像、自动根据视频生成模型、面部识别、在象棋和 Dota 2 比赛中击败人类选手以及全自动驾驶汽车。麦肯锡全球研究院的研究人员预测如果照这个势头发展下去,未来 12 年 AI 将占据美国纯经济效益的 20% 至 25%(全球纯经济效益总额约为 13 万亿美元)。
以上这些成就跟科研人员对深度神经网络(DNN)的研究进展分不开。DNN 的主要思想是用数学方程来模拟人脑的神经元以及神经元之间用来传递信号的突触,用它再组成深度网络的人工神经元。人工神经元在深度网络中分成多层,输入数据则在层与层之间进行传递。这样的结构使得人工神经元连接之间的权重能通过长期的训练逐步得到调整,成千上万次的训练让深度网络从输入数据中提取出特征,识别出数据样本中的趋势,并进行预测。
虽然距离 David Rumelhart 、Geoffrey Hinton 和 Ronald Williams 在他们的经典论文“ Learning Representations by Back-propagating Errors ”中提出用于调整人工神经元之间权重的反向传播算法仅仅过去了三十年,但借助日益廉价而强大的硬件,反向传播算法还是让 DNN 在计算机视觉、自然语言处理、机器翻译、药物分子设计和产品质量监测领域取得了飞速的发展。有些情况下 DNN 的表现甚至超越了人类专家。
通用人工智能(AGI)面临的挑战
那么,DNN 是否会是超级智能机器人成为现实的预兆吗? 2010 年创立 DeepMind 的 Demis Hassabis 可不这么觉得,而且他有自己的依据。DeepMind 有一个使命就是将神经科学与计算机科学的研究成果结合起来,并创造出能在任何任务中都超过人类的通用人工智能。
12 月初,他在蒙特利尔举办的 NeurIPS 2018 大会上表示,要实现通用人工智能恐怕要走的路还很长。“棋类游戏和电子游戏的状态变换有规则可循,而且很容易学习,所以某种程度上说棋类游戏和电子游戏很简单。但现实 3D 环境和现实世界本身都复杂得多……”
Hassabis 是国际象棋神童。他毕业于剑桥大学,也曾在伦敦大学学院、麻省理工大学和哈佛大学学习神经科学研究自传体记忆和情景记忆。他毕业之后也曾作为程序员参与过游戏《主题公园》和《黑与白》的开发。Hassabis 于 2010 年成立了 DeepMind ,仅三年之后就发布了能不借助额外信息通关“雅达利游戏”的 AI 系统。
2016 年,AlphaGo 击败围棋顶尖高手李世石,让这家被谷歌斥资 4 亿英镑收购的 DeepMind 声名鹊起。目前,DeepMind 下属的 DeepMind Health 与伦敦大学学院医院合作开发的 CT 图像分割模型表现也已经与人类医生接近。DeepMind 所开发的 AlphaFold 更是在第 13 届蛋白质结构预测比赛中勇夺桂冠,预测出了 43 种蛋白质之中 25 种的精细结构。本月,DeepMind 还在自然杂志上发表了论文介绍它所开发的 AlphaZero,据称 AlphaZero 能在国际象棋、围棋和日本将棋比赛中击败所有人类高手。
虽然 DeepMind 所开发的系统看似已经非常强大, Hassabis 却说谈通用人工智能的实现还为时过早。人类与人工智能的区别在于,人类能够从身边的环境中获取知识用于自己行动的规划和预测。所以即便与棋类游戏的新手相比, AlphaGo 和 AlphaZero 所能获取的信息也不算多。
Hassabis 表示:“对机器来说想学会打游戏得先学会看见东西,所以机器学起东西来比人慢很多。人打游戏时很快就能判断归纳出碰到什么东西应该做出什么样的动作。”
让 AlphaZero 击败人类需要将其训练约 70 万次,每一次训练则包括 4096 种不同的棋局。即便训练 AlphaZero 的系统装备了几千个谷歌为机器学习专门优化过的芯片,训练时间仍长达数小时乃至数天(国际象棋需要约 9 小时,日本将棋要训练约 12 小时,围棋则需要 13 天)。
今年夏天,Elon Musk 、 Reid Hoffman 和 Peter Thiel 成立的 OpenAI 所开发的 OpenAI Five 在 Dota 2 比赛中必败了由五名专业选手所组成的队伍。OpenAI 在博客中表示,训练 OpenAI Five 使用了谷歌云平台上 256 块 Nvidia Tesla P100 显卡和 12 万 8000 个处理器。每天的训练量都相当于玩了 180 年的游戏 ( 80 % 的时间和自己对战, 20 % 的时间和旧版 OpenAI Five 对战)。然而即便经过如此漫长的训练,OpenAI Five 所学到的技巧也很难应用于别的任务。
Hassabis 还说:“我们目前所开发的系统很难将一个领域里所习得的知识应用于其他领域。我认为,要实现知识的转移,模型必须有理解抽象概念或提取知识的能力。训练机器一步一步玩游戏很容易,但我们的目标是让系统拥有生成模型的能力,这样才能有在其他领域里规划行动的能力。”
除了任务过于单一,多数的 AI 系统的可扩展性也较差。AlphaZero、AlphaGo 和OpenAI Five 都使用了强化学习的编程范式,让 AI 能在棋盘或 MOBA 中规划自己的行动以获取最大化奖励。强化学习的思想有点类似于操作条件反射实验中所使用的“斯金纳箱”——当箱子中的动物对外界的声光等刺激做出反应时,比如按下了操纵杆,它就能获得食物或者水作为奖励。
Geoffrey Hinton 曾被人称为“深度学习教父”,他已经在 AI 领域深耕了 30 年。现在他同时在多伦多大学和谷歌的深度学习研究团队里工作。除了在 DNN 方面的贡献,他也在机器学习、感知、记忆和符号处理领域发表超过 200 篇论文。最近他把注意力转向了旨在提升神经网络预测稳定性的胶囊神经网络。
Hinton 表示强化学习的奖励信号往往是“微弱”的,这导致代理有时难以在随机数据中找到合适的模式,这就是所谓“嘈杂电视问题”。他说:AI 所拥有的信息非常有限,所获得的反馈也非常少,但却要用这些有限的信息来调整几百万甚至几十亿个参数,那你只能可劲训练了。现在这些深度学习应用看起来效果都不错,但都是建立在大量训练的基础上,不过我觉得这条路不太对。”
凭借自己几十年的研究经验,Hinton 认为要解决强化学习的扩展性问题,主要在于通过分层结构来实现对反馈信号的增强。“比如说有一家很大的企业,这个企业的反馈信号由职位最高的 CEO 来接收,虽然信号很强但是每一个季度才有一个信号进来,这对于调动整个企业所有人员的积极性很不利。不过如果 CEO 有几个副手他就能给这些副手设定一些小目标来最大化自己的奖励,这样企业有更多利润,副手也获得了奖励。”
这种架构下,即使暂时没有获得奖励(也许是 CEO 传递给了副手一个错误信号),这种信号反馈也会持续循环。而副手们总是能学到一些东西,只是这些学习到的未来可能会用得上。
“把目标细分成子目标或者小目标相当于创造了很多的反馈信号,这样就可以实现反馈信号的增强。”细想起来这一过程非常复杂, CEO 的副手们需要向自己的下级传达这些小目标,而员工们也需要能够判断自己的行动是否正确,因为只有这样他们才能理解自己受奖励的原因。要实现这些沟通,上下级之间需要一种语言系统。
Hinton 说:“简言之,在这一套系统中,模块可以为其他模块设立子目标。我可以把它想象成牧羊人和牧羊犬的关系,虽然牧羊犬不会说话,但训练有素的牧羊犬可以和牧羊人实现高效沟通。但如果牧羊犬自己还有下级牧羊犬,那么它就必须能够向下级牧羊犬传达来自牧羊人的指示。”
最近出现的 Transformer 模型可能就是解决这一问题的关键。谷歌的研究人员去年发表了名为“ Attention Is All You Need ”的论文来介绍名为 Transformer 的新型网络架构,新架构在机器翻译上的表现超越了目前出现的所有模型,而且训练模型所需的时间较短。
今年 11 月,谷歌又在 Transformer 模型的基础上发布了开源的 BERT 模型。BERT 的核心思想是通过对语料集中可能出现的任务进行预训练来学习不同语言句子之间的关系。使用 BERT 模型只需要一个 TPU,训练 30 分钟就能生成一个表现不输其他算法的自然语言处理模型。使用一个普通显卡也只需要训练个把小时。
Hinton 解释道:“目前的神经网络调整权重的速度与数据的变化速度比起来太慢了。从生物学研究中我们知道,神经元之间突触的传递可以有不同的速度,这样才能实现记忆和对记忆的提取。Transformer 模型则相当于在神经网络中实现了路由功能:神经元不只是把信息简单地传递给所有与之相连的神经元,而是只传递给可能知道如何处理这些信息的神经元。”
Hinton 还指出 Transformer 模型的思想其实早已经有人提出来了。上世纪七十年代的模型都着重于通过调整权重增加模型的记忆功能来避免反复从存储介质中读取数据。他说:“其实信息并没有真的存储在模型中,而是模型具有根据所获取的部分信息来恢复所有信息的能力,就好像用几块骨骼化石就能复原出整个恐龙的样子。我们之前只在长期记忆中使用了这种方法,而我认为如果能在短期记忆也使用这种恢复信息的方法,那么一切问题都能迎刃而解。”
AI 与偏见
Hinton 认为 AI 照着模拟人脑这个路子发展下去的话,那么未来一定是无监督学习的天下。无监督学习是机器学习的一类方法,它之所以被称为无监督学习是因为所输入的数据既没有标记也没有分类,这与人类学习归纳特征和识别特征的途径是一致的。他说:“我们人类学习的时候数据从来没有被标记,当人类遇到一个情景的时候可没人往你脑子里插个电极给你发信号。我认为这是一种跟符合生物学意义的学习方式……这是大脑正在做的事情。”
Hassabis 也对 Hinton 的看法表示同意。他说:“我们在 DeepMind 正试图理解实现通用人工智能都需要哪些认知能力,比如说知识的转移、抽象知识的理解、创造性、想象力、反事实思维、对未来的规划、语言的运用和符号推理这些人类做起来毫不费力的工作。”
随着 AI 日趋强大,有科技专家和伦理学家忧虑 AI 可能会吸收现有训练数据中存在的偏见并反映在预测结果中。这并不是杞人忧天,因为其实有些偏见已经显现出来了。
谷歌的 AI 研究人员日前发布了一个用免费开源数据集训练过的照片标记模型。输入一张穿着婚纱的西人女子照片,模型输出的标记是“婚纱”、“女士”、“婚礼”和“新娘”这类词。输入身着传统服饰的东方新娘照片输出的则是“衣物”、“活动”和“表演”这类词,模型甚至根本没注意到照片里的人。
华盛顿邮报今年 7 月发起的一项研究显示,亚马逊和谷歌推出的智能音箱在语音识别准确率上,对英语母语的人的口音识别正确率比非英语母语的人要高 30%。IBM 和微软等公司使用 Switchboard 语料库来衡量语音模型的错误率,该语料库已经被证实偏向于美国某些特定的地区。
与语音识别相比,计算机视觉算法在偏见上的表现也好不到哪去。一项 2012 年发布的研究显示,Cognitec 推出的面部识别算法识别黑人的准确率要比识别白人的准确率低 5 % 至 10 %。现在伦敦警方所使用的面部识别每次竟多达 49 个错误匹配。在今年夏天的亚马逊 Rekognition 面部识别测试中,使用来自“公共资源”的25000 张照片进行训练后,竟然在美国国会议员的照片测试中“识别”出了 28 名罪犯。
尽管有很多负面报道,Hinton 对 AI 的发展依然很乐观。他认为 AI 有一项优势就是它的灵活性,因此对数据中的偏见进行建模,并消除结果中的偏见并不是很困难的任务。他说:“数据中存在偏见的话,模型学到偏见也很正常。不过我们有多种方式来对数据中的偏见进行建模,之后从模型中去除偏见就易如反掌了。要去除人心中的偏见可没这么容易,偏见哪是说说就能消失的,在这一点上机器学习系统确实比人类优越得多。”
目前也确实出现了一些消除算法中偏见确保 AI 公平公正的努力。今年 5 月 Facebook 发布了能够探测 AI 算法中人种、性别和年龄的偏见。埃森哲也发布了类似的工具来帮助开发人员探测和避免 AI 算法中存在的偏见。微软和谷歌年中也都发布了自家的偏见探测解决方案。IBM 今年秋季也发布了全自动的算法监测工具 AI Fairness 360 。这款云平台上的工具能够帮助开发人员判断 AI 预测的依据并推荐改正算法中偏见的措施,比如调整算法或增加数据。IBM Watson 和 IBM 云计算平台最近也有一些纠正面部识别中偏见的措施。
Hinton 说:“强大的电脑硬件可以让我们不用为了效率牺牲算法的可读性。相比运算效率上的牺牲,代码的简洁可能更重要,牺牲一些效率让我们能够完成消除算法中的偏见,那么效率上的牺牲也是值得的。”
AI 与就业
关于 AI 对就业问题的影响,Hinton 也表示非常乐观。
“通用人工智能这个词听起来好像机器比人强了,但其实并不是这么回事。我认为谷歌助手这样的 AI 系统只是帮我们人类来完成一些日常工作。”
研究机构 Forrester 的研究员认为,工作流程自动化和 AI 将会创造出能够代替人类工作的数码工人软件,而明年美国 40 % 的企业都会开始使用数码工人,美国 10 % 的工作岗位将会被自动化的软件所取代。世界经济论坛、普华永道和高德纳咨询公司甚至预测 2025 年全球将有 7500 万工作岗位被 AI 取代。
Hinton 则对此持不同看法。他认为通用人工智能对世界的认知远不足以让它能够取代人类,而且这种情况短期内都不会有什么改观。 AI 只会成为提高人类生活水平的一种手段。他说:“未来的 AI 可能对你想做的事情和你个人的偏好都有相当的了解,而且它能够帮助你完成一些事情,但这绝不等同于将你取而代之。你让一个非常擅长自动驾驶的系统去替你去约会的话,后果可想而知。”不过他也表示,让 AI 代替完成一些可能威胁到人类安全的工作是完全正确的。
“(人们)真正应该害怕的是坐上一辆不会告诉你它在做什么的神经网络控制的自动驾驶汽车。”
原文链接:https://venturebeat.com/2018/12/17/geoffrey-hinton-and-demis-hassabis-agi-is-nowhere-close-to-being-a-reality/