三体人有救了!深度学习解决三体难题
本文转载自公众号“读芯术”(ID:AI_Discovery)
过去的十年里,深度学习助推了多个领域的最新发展。Deepmind在蛋白质折叠预测上的首次惊艳亮相,以及斯坦福大学学生研究蛋白质复合体结合的项目,都是使用深度学习进行细微研究的例子。
然而不止于此,深度学习的应用已经蔓延到了浩瀚宇宙之中。还记得连强大的三体人都对付不了的三个太阳嘛?没错,人工智能解决了。当然不止这一项应用,关于宇宙的研究包罗万象。
本文将从机器学习和基础科学的角度对项目的描述和影响进行评分,不过,本文将根据主观趣味性来判断,而不是引用指标。
来看看当AI在更远的天际之中是如何大展身手的吧!
人工智能解决宇宙学中的三体问题
1. (Green等,2019) 概述:
总结:训练多层感知器来预测简单三体问题模拟中的未来状态。
描述:4/3 三倍espressos。简要来说,这个项目包含从可以解决困扰艾萨克·牛顿的复杂三体问题的人工智能,到以亿倍速度解决三体问题的神经网络。
图源:ambrozewicz
此描述源于研究论文中的描述性方法,这种方法似乎是经过精确设计的,目的是让专业领域之外的读者在惊叹不已。由于同时掌握深度学习和n体轨道力学的人寥寥可数,因此读者很容易被陌生的细节吸引而错过重点。
- 影响(机器学习):3/10致密层。在大卷积神经网络无处不在的时代,使用深度多层感知器是很有趣的。
- 影响(物理学):3/n个大质量物体。
- 模型:具有ReLU激活的10层全连接神经网络。
- 输入:三体之一的起始位置和目标时间t。
- 输出:三个粒子中的两个在时间t的状态。第三个粒子位置是由坐标参考系体现的。
- 代码:https://github.com/pgbreen/NVM (仅使用预先训练的模型权重进行推断)
2. 详解人工智能如何解决宇宙学中的三体问题
在经典轨道力学中,预测由两个引力物体组成的单独系统的未来状态是比较容易的。再加上一个额外的物体,就有了著名的三体问题。
这是一个经典的例子,说明了在一个看似简单的系统的动态相互作用中,混沌是如何出现的。混沌系统的一个特征是它们对初始条件表现出极端的敏感性,而且它们的行为似乎是随机的。
这些状态是很难预测的,而且混沌系统演化的时间越长,预测就越困难,因为之前的错误会不断累积。这就是为什么智能体在实心磁极上学习比在连接磁极上学习要容易得多:
像双摆这样的混沌系统很难预测和控制
就像强化学习智能体奋力控制双摆一样,科学家们也发现很难预测像三体问题那样的混沌系统的未来状态。想靠蛮力计算?不是不行,但并不总是清楚需要多少数值精度,而且可能消耗大量资源。
本文作者使用一个10层的多层感知器从三体轨道问题预测未来的状态。训练数据由一个名为Brutus的蛮力数值模拟器计算。
笔者很喜欢看到“老式”的多层感知器,如果能欣赏在不同的训练超参数和不同的架构下使用的代码会很有趣。不幸的是,可用的公共代码不提供任何训练工具。
笔者同意最近的怀疑论,因为这篇论文的声明是由一个非常狭窄和简化的用例支持的,不太可能轻易地推广到更复杂的情况。但要补充的是,结果并不像他们所宣传的那样夸张。
当模型被训练用以预测更远的未来时,其性能显著下降,平均绝对误差范围约为0.01至0.2。当所讨论的无单位数几乎总是在-1和+1之间时,这些误差就很大。训练网络进一步预测未来也会导致训练集的过拟合,这个问题在讨论中没有提到。
图源:radiichina
最有价值的领域:用深度学习发现更多系外行星
1. (Dattilo等,2019)概述机器学习如何帮助发现新行星
总结:开普勒太空望远镜在2013年发生故障,导致产生了大量噪音数据。研究人员训练出了AstroNet-K2,作为之前模型AstroNet的修改版本,利用新的噪音数据,并发现了两颗新的系外行星。这些行星通过后续观测得到了验证。
- 描述:1/3三倍espressos。《麻省理工学院技术评论》的文章是合理的,没有对该项目做出夸大或不切实际的评价,但有时却忽略了AstroNet-K2是基于一年前发布的AstroNet项目。
- 影响(机器学习):4/8卷积滤波器。AstroNet和AstroNet-K2之间的差异似乎在于超参数搜索和不同的数据集。
- 影响(系外行星天文学):AstroNet-K2发现了2/1076个已知[超级地球]
- (https://en.wikipedia.org/wiki/File:Size_of_Kepler_Planet_Candidates.jpg),并通过其他观测得到验证。笔者认为这个从本科开始的研究项目取得了非常有意义的成果。
- 模型:两个独立的卷积臂从输入数据中提取特征。这些卷积层的输出被输入至四个完全连接的层,再输出最终预测。输入:开普勒望远镜K2运行的一维光曲线。
- 输出:给定信号由凌日系外行星引发的概率。
- 代码:https://github.com/aedattilo/models_K2
2. 详解机器学习如何发现新行星
开普勒望远镜是一台天基望远镜,旨在研究太阳系外的行星,也就是系外行星。1995年,迪迪埃·奎洛兹和米歇尔·马约尔发现了第一颗围绕着像我们这样的恒星运行的系外行星,并因此获得了2019年诺贝尔物理学奖。
图源:unsplash
2009年开普勒发射后的十多年,已知系外行星总数还不到400颗。这架现已停用的望远镜于2009年开始运行,并发现了1000多颗新的系外行星,直到一个用于精确指向的反应轮部件于2013年失效。这标志着任务的主要阶段结束。
一些巧妙的修改使望远镜开始了第二个数据采集阶段,称为K2。来自K2的数据噪音较大,且仅限于80天或更短的连续观察。
要在数千个假设的行星信号中识别有希望的候选行星,这些限制是很大的挑战,卷积神经网络(AstroNet)曾很好地处理过这项任务,该网络处理的是开普勒原始数据收集阶段的数据。
得克萨斯大学奥斯汀分校的研究人员决定尝试同样的方法,并从AstroNet-K2的架构中衍生出AstroNet-K2,对K2行星信号进行排序。
经过训练,AstroNet-K2在测试集中识别已确认系外行星的准确率达到98%,假阳性率很低。作者认为这种性能足以用作需要人工跟踪的分析工具,但还无法完全实现自动化。论文如是说:
虽然我们网络的性能还未完全达到产生全自动和统一的行星候选表所需的水平,但它可以作为一个概念的证明。—— (Dattilo等,2019)
这篇文章赋予了AstroNet-K2人们梦寐以求的“最佳价值”奖,因为它实现了一项重大的科学成果。与本文清单上其他两个更多是概念性演示的项目不同,这一项目促成了实际的科学进展,在已知系外行星目录中增加了两个新的确认条目:EPIC246151543b和EPIC 246078672b。
除了K2数据的内在挑战外,因火星穿过观测窗口,以及安全模式事件导致了5天的数据缺失,行星的信号更加混乱。
图源:unsplash
这是一个很好的有效机器学习的例子:作者们采用了一个已有良好记录的卷积神经网络,并对其进行了修改,使其在给定的数据上表现良好,在不重新发明的情况下,从一次艰难的观察运行中添加了一些新的发现。
值得注意的是,这项研究的主要作者AnneDattilo在完成这项工作时还是一名本科生。对于一个本科生的研究项目来说,这个结果已经很好了。
作者使用了开放源码软件以及先前开发的架构,突出表明深度学习正处于高级准备阶段。这项技术还没有完全成熟到无处不在的地步,但是工具已经准备好,随时可以应用。
CosmoGAN:引力透镜的生成对抗网络法
1. (Mustafa等,2019)概述
总结:宇宙中有一些丢失的质量,我们称之为暗物质。来自这些缺失质量的引力使光线弯曲,宇宙学家可以根据光线被扭曲的方式来推测暗物质的位置。
深层卷积生成对抗性网络擅长制作逼真的图像,这些研究人员对其进行训练来制作与暗物质分布相关联的数据的图像。
- 描述:1/3三倍espressos。基本上能找到的关于这篇论文的所有新闻报道都来自于劳伦斯伯克利国家实验室的报道,这项工作就是在这一实验室开展的。因此,这些报道并不会过分夸张或离奇,尽管对CosmoGAN实际用途的描述是模糊的(但这篇论文在这方面也不是很清楚)。笔者最喜欢的标题是宇宙科学家用神经网络简单地构建暗物质地图。
- 影响(机器学习):6/64个潜在空间随机变量。这是一个普通DCGAN,被训练用于模拟引力弱透镜数据。
- 影响(宇宙学):10个中有1个的质量是不可观测的。
- 模型:CosmoGAN是一个DCGAN。每个网络有4层,但是由于卷积滤波器较少,生成器具有比鉴别器(440万)多约3倍的参数(1230万)。参数视差是为了稳定训练,保持鉴别器不偏离生成器。
- 输入:64单位潜矢量(生成器),由CosmoGAN生成和模拟的(数值物理模拟器)弱透镜收敛图的二维图像,可以对应暗物质分布(鉴别器),并与暗物质分布(鉴别器)进行比较。
- 输出:可能的收敛图(生成器),或给定图像是真实(模拟)收敛图(鉴别器)的概率
- 代码:https://github.com/MustafaMustafa/cosmoGAN
2. 详解生成对抗性网络如何促成更好的引力透镜
暗物质是一种比较神秘的物质形式,它占(普遍认为)宇宙质量的相当大比例(约85%)。
“暗”指的是这种形式的物质在正常观测中是看不见的,而只能从引力效应中推断出来,就像Vera Rubin在20世纪60年代观测到的银河系旋转速度的差异一样。
研究暗物质的一个基本可观测因素是引力透镜效应,在引力透镜效应中,大质量物体会扭曲来自更遥远物体的光线。当透镜效应是由不可见的暗物质引起时,这就成为一个困难的反问题,需要大量模拟来解决。
图源:unsplash
“如果你想从头开始做一个苹果派,你必须先发明宇宙”(Carl Sagan, Cosmos,《Carl Sagan, 宇宙》)。研究暗物质的存在也是一样的:基于引力透镜观测建立暗物质图的标准方法是创造一个(虚拟的)宇宙。
众所周知,创造宇宙需要非常昂贵的计算费用,同时,为了检验一个高度模拟的宇宙是否与观测结果一致,会大大限制所能完成的科学工作量。
当数据非常丰富,而足够的计算量却很少时,科学家们就会寻找方法来开发能够解释这些数据的替代模型,而不必每次都建立一个全新的宇宙。CosmoGAN就是这样一种方法,它利用现代深度学习生成网络来估算引力透镜数据的收敛图。
自Goodfellow等人在2014年提出生成对抗网络以来,它已经取得了长足的进步。GAN框架是生成模型的一个(现在相当多样化的)利基,它将生成网络与鉴别或伪造检测网络相较。这两个网络相互对抗,产生越来越真实的合成数据,而鉴别器在检测伪造方面也越来越好。
这种交互提供了纯GAN训练循环中唯一必需的训练信号(尽管conditionalGANs这样的变体可能会使用额外的数据),因此,在GAN训练中平衡两个网络是一门艺术,而众所周知,当这种平衡不均衡时,GAN容易出现不稳定的问题。
GANs十分难于训练和解释,但计算宇宙学家中有很多人参与了相关实践,这可能会让人有点惊讶。然而,CosmoGAN的范围相当有限。生成器学习模拟统计上真实的收敛映射图像,但这些与潜在空间中的随机输入无关。
在这种情况下,像古老的edges2cats演示背后的pix2pix方案这样的conditionalGAN更有意义。这就是说,生成一张收敛图是有用的,该图可以合理地解释给定天文图像中的透镜现象,这可以通过额外的观测得到验证。
还有,生成器产生的收敛图是2维的,但暗物质实际上会分布在3维。作者们表示,其中一些局限性将在未来的工作中得到解决。
例如,一个“可控GAN(controllable GAN)”的提法听起来与上面提到的conditionalGAN类似,而且他们确实打算为体积暗物质分布制作一个3维版本。如果是这样的话,这个项目中的85%目前还无法观察到。
毫无疑问,这三项应用让我们看到了机器学习在宇宙学中的无限潜力,它们带来了不可思议的发现和突破。事实上这并不难,不需要大胆地探索没有科学家去过的地方,只是巧妙地实施一种经过验证的技术,适应并应用于一个新的数据集,就能有发现,即使这只是使用模拟数据的概念探索。