谷歌可预测哪些机器学习模型将产生最佳结果的人工智能
点击上方关注,All in AI中国
谷歌的工作人员已经设计出能够预测哪些机器学习模型将产生最佳结果的人工智能。在一篇新发表的论文(《Off-Policy Evaluation via Off-Policy Classification》)和一篇博客文章中,一组谷歌人工智能研究人员提出了他们所谓的"离线分类",即OPC,它将以一个分类问题来评估人工智能驱动代理的性能。
该团队指出,他们的方法是强化学习的一种变体,利用奖励来推动软件策略朝着目标前进,与图像输入和任务规模(包括基于视觉的机器人抓取)协同工作。谷歌软件工程师Alex Irpan表示,完全脱离策略的强化学习是一种变体,其中agent完全从旧数据中学习,这很有吸引力,因为它支持模型迭代,而不需要物理机器人。使用完全脱离策略的RL,可以在以前代理收集的相同固定数据集上训练多个模型,然后选择最佳模型。
可以到达OPC,是非常具有挑战性的。 正如Irpan和其他共同作者所指出的那样,非政策性强化学习支持人工智能模型训练,比如使用机器人,但不支持评估。此外,他们指出,在需要评估大量模型的方法中,基础真实度评估通常效率太低。
他们的解决方案是OPC,它通过假设手头上的任务在状态变化过程中几乎没有随机性,以及假设代理在实验试验结束时成功或失败,来解决这个问题。这两个假设中的第二个的性质允许为每个操作分配两个分类标签("有效"用于成功或"灾难性"用于失败)。
上图:左边是基线。右边是一个被提议的方法,SoftOPC。
OPC还依赖于所谓的Q函数(通过q学习算法学习)来估计行动未来的总回报。代理选择具有最大预期回报的操作,并且它们的性能是通过所选择的操作有效的频率来度量的(这取决于Q-function如何正确地将操作划分为有效性和灾难性)。分类精度则作为非政策评价分数。
该团队在模拟中训练机器学习策略,使用完全偏离策略的强化学习,然后使用之前真实数据表中的偏离策略得分对其进行评估。在一个机器人抓取任务中,他们报告说OPC的一个变种的'SoftOPC'在预测最终成功率方面表现的最好。给定15个不同鲁棒性的模型(其中7个纯粹是在模拟中训练的),SoftOPC生成的分数与真正的掌握成功密切相关,比基线方法"显著"更可靠。
在未来的工作中,研究人员打算探索具有"噪音更大"和非二进制动态的任务。Irpan表示,我们认为这些结果很有希望应用于许多可以实现的RL问题。