这个"意识流"开源算法,让AI能像人一样学习归纳总结
能够从错误中学习是一种强大的能力,人类总容易犯错,但也总能从中获益。有时我们搞砸了某件事,但至少过程中也有一点可取之处,我们可以从做的不够好的地方吸取教训,下次做的更好。最终,获得成功。就是我们常说的“失败是成功之母”。
人工智能(AI)可以使用类似的试错技术来学习新的任务。通过强化学习,AI会尝试不同的方法来做一件事,并在每次接近目标时获得奖励。基于这种由奖励提供的强化,AI在成功之前会尝试更多类似的东西。
人类的不同之处在于如何从失败和成功中学习。不仅仅是学习了与最初目标相关的东西,我们也收集了“为何会失败”的信息,而且以后可能会应用到一个略有不同的目标,我们比AI更善于归纳信息。
总部位于旧金山的人工智能研究公司OpenAI发布了一个我们可称之为“后见之明”(HER,Hindsight Experience Replay)的开源算法,该算法将失败视为成功,以帮助AI变得更像人类。
HER的主要理念可以说有一些“意识流”的影子: 在某一个特定的目标上,即便你没有取得成功,但你至少因此实现了另一个不同的目标。所以,为什么不假装你想要实现的正是这个目标,而不是最初设定的目标呢?
为了便于理解HER的运作方法,可以想象一下你在打棒球。你的目标是打出本垒打。在第一场比赛中,你击出了一个界外球。对于本垒打而言这是失败的,但是你在这个过程中学到了两件事:你学会了一种不打本垒打的方法,而且你也学会了如何击出界外球。当然,你事先不知道你会击出一个界外球,但有什么关系呢?事后经验回放,从你刚才做的动作中学习,本质上说,“如果我想打一个界外球,刚才那个就很完美!”你可能没有达到最初的目标,但你仍然取得了进步。
HER的另一个优点是,它使用了研究人员所谓的“稀疏奖励”(sparse rewards)来指导学习。作为强化学习过程的一部分,奖励是我们如何告诉AI他们所做的是一件好事还是一件坏事——它们只是算法中的数字,但你可以把它们想象成饼干。大多数强化学习算法都使用“密集奖励”(dense rewards),AI根据任务完成的接近程度,得到不同大小的饼干。这些饼干对一个任务中的各个方面进行单独奖励,以此激励AI,在某种意义上,可帮助AI以你想要的方式学习。
密集奖励是有效的,但是设计它们可能会很棘手,而且它们在实际应用中并不总是现实的。大多数应用程序都非常注重结果且都出于实际目的,要么成功,要么失败。稀疏奖励意味着AI只有在它成功的时候才会得到一个饼干,因此:更容易测量,更容易编程,更容易实现。然而,权衡的结果是,这个方法会让学习变得更慢,因为AI没有得到增量式的反馈,它只是被反复告知“没有饼干给你”,除非它非常幸运,成功地实现了目标。
这就是HER的切入点:它通过奖励让AI进行学习,并把每一次尝试都当做成功,改变目标,让AI能学到一些东西。想象一下,AI没有接近最初目标,然后会说,“是的,我完全想这么做。”通过HER,你会说,“哦,在那种情况下,好,吃块饼干吧!”
通过这种替换,强化学习算法实现了某些特定目标,获得了学习信号,即使它不是你最初想要达到的目标。如果一直重复这个过程,AI最终会学会如何实现任意一个目标,当然,其中包括你真正想要达到的目标。
OpenAI为HER提供了一个开源版本,他们发布了一组基于真实AI平台的仿真AI环境,包括一个影子手和一个抓取研究AI。有关HER的更多信息可前往OpenAI官网了解。