神经网络的空间想象力是这样?AI新成果——GQN你一定不能错过
一幅图像胜过千言万语,这句话抓住了视觉分析在人类学习过程中的重要性。每当我们看到一个场景时,我们的大脑就会对场景中的物体和与它相关的可能做出成千上万的推断。例如,如果我们看到一个人坐下来,我们就会推断他下面有一把椅子,即便当时我们看不到椅子。比如,如果我们在卧室里看到一个衣柜,我们就会假设里面有衣服,即使我们看不见它们。视觉推断作为一种认知技能,是记忆、计划、想象等其他能力的基础。
这种视觉推断任务对人脑来说毫不费力,但对人工智能而言却难如"登天"。目前,视觉识别(/推断)模型依赖于大量的标记图像数据集来完成基本的任务,如目标识别。生成这些标记的数据集是一个劳动密集的过程。而且通常情况下,它无法捕捉场景中更多的内容。例如光线位置、查看角度的透视图或物与物之间的关系。近期发表在"科学杂志"上的一篇论文表示,人工智能视觉识别模型只有从一个类似于人类的视觉场景中学习才能更好的发展。相关链接:http://science.sciencemag.org/content/360/6394/1204.full?ijkey=kpkRRXA1ckHD6&keytype=ref&siteid=sci
在这篇文章中,DeepMind引入了生成查询网络(GenerativeQueryNetworks,GQN)的概念。GQN是一种模型,它支持创建人工智能代理,当它们处于(视觉)场景中时,它们可以从周围学习。GQN模型由两个神经网络组成:表示网络和生成网络。表示网络将人工智能代理的观察结果进行输入,产生神经场景,并对底层场景的信息进行编码。每一次(额外的)观察都是对同一场景内容的补充。然后生成网络从任意角度预测场景,在必要时通过随机潜在变量进行输出。把这两个网络进行联合训练,可以最大限度地提高从任意角度正确分析图像的可能性。
GQN模型的主要优势在于表示网络不知道生成网络将以何种角度进行场景预测。因此,表示网络将产生包含所有信息(例如,对象标识、位置、颜色、计数等等)的场景表示,以使生成网络能够做出准确的预测。在训练过程中,生成网络通过对场景中物体的了解,从表示网络接收描述并细化所得到的信息。例如,网络将"蓝色立方体"表示为一小组数字,而生成网络就必须将它表示为特定角度的图片(像素)。下图展示了一个GQN模型。
为了测试GQN的可用性,DeepMind团队对不同位置、不同颜色、不同形状和不同纹理的多个对象生成的3D环境进行了一系列实验。实验突出了GQN的一些显著特性。例如,GQN模型显示,当某些内容不能真正可见时,它们能够"解释"视觉场景中的不可见原因。下图中,随着GQN模型在迷宫中移动,越来越多的不可见被排除。
同样,GQN模型能够从新的角度"想象"未观察到的场景。如下面的图像所示,当给定场景并确定所预测的角度事,GQN模型能够生成图像,而不需要对透视定律进行任何事先的说明。
GQNs是一种非常新颖的图像分析技术,与传统的深度学习图像分析方法相比,它还存在许多局限性。然而,GQN表明人工智能代理可以感知、解释和表示场景,而不需要人为标记这些场景的内容,这是图像分析方法在发展过程中的一个重大突破。