Uber AI论文：反向传播训练可塑神经网络，生物启发元学习范式

hhhhhjkk

2018-04-19

怎样才能得到经过初始训练后就可以利用经验持续快速高效学习的智能体呢？Uber AI 近日研究表明，如同深度神经网络的连接权重，神经可塑性也可以通过梯度下降来优化。在模式记忆、图像重建和强化学习任务上，该方法得到了超越传统非可塑网络的表现，表明可微可塑性有望为元学习问题提供新的高效方法。

介绍：关于「学会学习（元学习）」的问题

最近的机器学习方向的成果很多都是利用大量训练数据进行大量训练，来学习单一复杂的问题（Krizhevsky et al., 2012; Mnih et al., 2015; Silver et al., 2016）。当学习完成之后，智能体的知识就固定不变了；如果这个智能体被用于其他的任务，那么它需要重新训练（要么完全重来，要么部分重新训练），而这又需要大量新的训练数据。相比较之下，生物智能体具备一种出色的能力，这个能力使它们快速高效地学习持续性经验：动物可以学会找到食物源并且记下（最快到达食物源的路径）食物源的位置，发现并记住好的或者不好的新事物或者新场景，等等——而这些往往只需要一次亲身经历就能完成。

赋予人工智能体终身学习的能力，对于它们掌控具有变化不可测特征的环境或是训练时未知特定特征的环境至关重要。例如，深度神经网络的监督学习能让神经网络从它训练时使用的特定、固定的字母表中识别字母；然而，自主性的学习能力能使智能体获取任何字母表的知识，包括人类设计者在训练时不知道的字母表。

自主性学习能力还有一个好处，那就是能让智能体在处理许多任务的时候（例如物体识别、迷宫寻径等等），存储任务中固定不变的结构到自己的固定知识部分中，而只从具体情况中学习剩下可能的变量。这样处理的结果是，学习一个当前的特定任务实例（也就是一般任务的多个实例间确实存在差异的实际潜在变量）会变得非常快，只需要少量甚至单个环境经历。

许多元学习方法已被运用于训练智能体的自主性学习。然而，不像现在的一些方法，生物大脑的长期学习被认为主要是通过突触可塑性来完成的——突触可塑性是神经元间连接的加强或减弱，它是神经活动造成的，经过百万年的进化，它能使拥有它的个体高效地学习。神经可塑性存在许多种构造，它们中很大一部分都遵循称为「赫布定律」的原则：如果一个神经元不停地激活另一个神经元，那么它们间的联系会加强（这个定律通常被总结为「一起激活的神经元被连接到一起」）（赫布于 1949 年提出）。这一原则是动物大脑里观察到的几种可塑性形式的基础，这使它们能从经验中学习并适应环境。

此前一直都有人研究在进化算法中利用可塑性连接来设计神经网络（Soltoggio et al. 2017），但是在深度学习方面的研究相对较少。然而，考虑到为复杂任务设计传统非可塑性神经网络时得到的不错的梯度下降结果，将反向传播训练运用到具有可塑性连接的网络是非常有意义的——通过梯度下降不仅能优化基础权重，还能优化每个连接的可塑性量。研究者之前论证过这个方法的理论可行性和分析易行性（Miconi, 2016）。

本研究表明，该方法确实可以成功为非平凡任务训练大型网络（数百万的参数）。为了演示该方法，作者将其应用到三个不同类型的任务：复杂模式记忆（包括自然图像）、单样本分类（Omniglot 数据集）和强化学习（迷宫探索问题）。结果表明，可塑性网络在 Omniglot 数据集上得到了有竞争力的结果，并展现了它对迷宫探索问题的性能优化，以及它在复杂模式记忆的问题中优于非可塑性循环网络（LSTM）几个数量级的表现。这个结果不仅有利于寻找基于梯度的神经网络训练的新研究途径，同时也说明之前归因于进化或者先验设计的神经结构元属性实际上也是可以用梯度下降处理的，这也暗示仍然存在很大一部分我们之前没有想到过的元学习算法。