OpenAI MiniWoB:与网站交互的强化学习代理基准
选自OpenAI
机器之心编译
参与:吴攀
Mini World of Bits,简称 MiniWoB,是一个用于与网站交互的强化学习代理的基准。其代理可以感知小网页(210x160 像素)的原始像素和产生键盘和鼠标动作。
该环境用 HTML/Javascript/CSS 写成,设计的目的是为了测试代理与常见网页浏览器元素的交互能力,这些元素包括按钮、文本框、滑块、日期选择器等等。这个基准的环境可以通过 OpenAI Universe 获取。
发布地址:http://alpha.openai.com/miniwob/index.html
环境预览地址:http://alpha.openai.com/miniwob/preview/index.html
OpenAI Universe:https://universe.openai.com
MiniWoB 环境
其中的每一个环境都是一个 210 像素高、160 像素宽的 HTML 网页(即与 ATARI ALE 模拟器的尺寸相同)。其最顶上的 50 个像素(黄色背景)包含了任务查询——一个关于代理应该在坏境所做的事情的描述。该环境的逻辑是用 Javascript 编写的,其会监控事件并分配奖励(reward)。我们认为 MiniWoB 就类似于是视觉识别领域的 MNIST 数据集,其中的这些环境很小、是自包含的(self-contained)、并且含有许多代理在浏览互联网时需要克服的挑战。
该基准中的任务包含许多常见的 UI 元素,范围涵盖从简单(比如点击取消按钮)到复杂(比如,搜索从 SFO 到 LAX 的 2016 年 12 月 5 日的航班并预定最便宜的机票)等各种难度。
基准
MiniWoB 基准包含了一系列训练/测试分开的环境。其终极目标是在无需太多交互步骤的情况下在测试环境上良好地执行任务。被测试的模型可以在训练环境中进行不限次数的预训练。我们也计划发布训练环境的演示,因为许多模型如果仅靠强化学习,可能难以取得良好的效果。
12/05/2016, Version 0 | 80 environments | train/test split COMING SOON |
贡献环境。因为该环境目前还非常小,而且也很容易通过 Javascript/HTML/CSS 书写,所以我们也鼓励社区为未来该基准的发行版提供贡献。
MiniWoB 的完整源代码将在未来几周通过 GitHub 发布,所以贡献也将变得非常方便。
启动代码
这些环境都被整合到了 OpenAI Universe 之中。
为了训练强化学习代理,我们调整了运行 MiniWoB 环境的 Universe 指令。下面的简单代码可以用来创建一个可以以 5 FPS 的速度在 MiniWoB 的 160x160 像素的「游戏」区域随机点击的代理: