深度学习遇上物理学:上能分析星系团,下能解码基本粒子
选自symmetry
机器之心编译
参与:Jane W、吴攀
Facebook 用来识别人脸的技术也可以用来识别粒子吗?
当你向 Facebook 上传了一张你朋友的照片后,这张照片就进入了一个复杂的幕后处理过程。算法迅速行动并分析照片的每一个像素,直到将朋友的名字和这张照片匹配起来。这类型的前沿技术也被用在了自动驾驶汽车上,使得自动驾驶汽车能够从背景中区分行人和其它车辆。
这项技术也可以用来区分μ介子和电子吗?很多物理学家相信这一点。在该领域的研究人员正着手运用它来分析粒子物理数据。
支持者们希望利用深度学习节省实验时间、金钱和人力,让物理学家们做其它不太繁琐的工作。另一些人希望能提高实验的结果,相比以前使用的任何算法,这个算法能使他们更好地识别粒子和分析数据。尽管物理学家们不认为深度学习是万能的,但一些人认为它可能在应对即将到来的数据处理危机中起到关键作用。
神经网络
直至今日,计算机科学家们仍经常人工编写算法,一个任务往往需要无数个小时的复杂计算机语言工作。「我们仍然做着不错的科学工作,」费米国立加速器实验室的科学家 Gabe Perdue 说,「但是我认为科学工作还可以做得更好。」
而如果要使用深度学习,我们则需要一种不同的人类输入。
一种实现深度学习的方法是使用卷积神经网络(CNN)。CNN 是模拟人类视觉感知建模的。人类用自身的神经元网络处理图像;CNN 通过输入层节点(node)来处理图像。人们通过向网络送入预处理的图像来训练 CNN。通过学习这些输入,算法会不断调整各节点的权重并因此学会识别模式和相关点。由于算法不断修正这些权重,预测结果会变得越来越准确,甚至超越人类。
卷积神经网络以通过将多个权重绑在一起的方式来缩短分解数据处理的步骤,这意味着必须调整的算法元素更少。
CNN 出现于 90 年代末。但是近年来随着许多方面的突破(如处理图形的硬件价格降低、训练数据集不断扩增以及 CNN 架构本身的创新),越来越多的研究人员开始使用它们。
CNN 的发展导致语音识别、翻译以及其它传统上由人类完成的任务的进步。一家 Alphabet(谷歌母公司)旗下位于伦敦的公司 DeepMind 使用 CNN 创建了 AlphaGo,这个计算机程序在 3 月份打败了世界排名第二的围棋选手,围棋是比国际象棋更复杂的策略棋盘游戏。
CNN 使得我们可以更从容地处理大量的基于图像的数据,而之前我们对这些数据束手无策——高能物理学中经常会碰到这种图像数据。
进入物理学领域
随着大数据和具有处理大量信息所必需的计算能力的图形处理单元(GPU)的出现,CNN 在 2006 年开始得到大规模运用。Perdue 说:「从那之后,精确度有了很大的提高,人们也还一直在继续高速地创新。」
大约一年前,各类高能物理实验的研究人员开始考虑将 CNN 引入他们的实验的可能性。「我们把物理问题变成了:『我们能否分辨一辆自行车和汽车?』」SLAC 国家加速器实验室研究员 Michael Kagan 说,「我们只想弄清楚如何以正确的方式重组问题。」
在大多数情况下,CNN 将用于粒子识别和分类以及粒子轨迹重建。一些实验已经使用 CNN 来分析粒子的相互作用,其准确性很高。例如,NOvA 中微子实验的研究人员已经将 CNN 应用到了其数据上。
「CNN 本来是用于识别动物和人的图片,但它也能很好的用于物理领域的识别,」费米实验室科学家 Alex Himmel 说,「预测结果非常好——相当于我们的检测器多产生了 30% 的数据。」
从事大型强子对撞机(LHC/Large Hadron Collider)实验的科学家们希望借助深度学习来使他们的实验更自动化,CERN 物理学家 Maurizio Pierini 说:「我们正试图在一些任务上取代人。用人来看管比用计算机看管要昂贵得多。」
在检测器物理学以外,CNN 也被证明是有用的。在天体物理学方面,一些科学家正在开发可以发现新的引力透镜的 CNN;引力透镜是指可以扭曲来自它们后面的遥远星系的光的大型天体(如星系团(galaxy clusters))。对望远镜数据扫描以寻找引力透镜扭曲现象的过程是非常耗时的,并且普通的模式识别程序难以区分它们的特征。
「公平地说,在使用这些工具时,我们仅仅涉及了很浅的部分,」在费米实验室的 NOvA 实验项目工作的威廉玛丽学院博士后研究员 Alex Radovic 说。
未来的数据盛宴
一些科学家认为神经网络可以帮助应对他们预见的即将到来的数据处理危机。
计划于 2025 年推出的升级版大型强子对撞机将产生大约 10 倍的数据。暗能量光谱仪(Dark Energy Spectroscopic Instrument)将收集大约 3500 万个宇宙物体的数据,大型综合巡天望远镜(Large Synoptic Survey Telescope)将捕获近 400 亿个星系的高分辨率视频。
数据量一定会飞速增长,但从前计算机芯片处理能力的指数级增长预计将会陷入停顿。这意味着处理更大量的数据将越来越昂贵。
「对于 10 倍的碰撞次数,你可能需要超过 100 倍的处理能力,」Pierini 说。「用传统的做事方式,我们会走入死胡同。」
然而,并不是所有的实验都适用于该技术。
「我认为有时这会是正确的工具,但它不会一直是正确的,」Himmel 说,「数据与自然图像越不相似,神经网络的有用性越低。」
大多数物理学家都同意,CNN 不适合刚刚启动的实验中的数据分析,因为神经网络对于计算过程不是很透明。「这会很难说服人们相信他们已经发现了新的东西,」Pierini 说,「我认为用纸和笔做事情仍然是有价值的。」
在某些情况下,运用 CNN 的挑战将超过获益。例如,如果数据尚未转换为图像格式,则需要将其转换为图像格式。并且神经网络需要大量的数据用于训练——有时不得不模拟数百万的图像。即使这样,模拟也不如真实数据那么好。因此,神经网络必须用实际数据和其它交叉检查进行测试。
「一个高标准的物理学家能够接受任何新事物,」德克萨斯大学阿灵顿分校的物理学副教授 Amir Farbin 说,「需要跨越很多障碍去说服大家这是对的。」
展望未来
对于那些相信 CNN 结果的人,CNN 意味着更快的物理学和值得期待的未知。
一些人希望用神经网络来检测数据中的异常,这可以指示检测器中的缺陷或者为新发现指引线索。为了寻找新发现,研究人员可以只是让 CNN 遍历数据并试图找到突出点,而不是一定要找到具有特定标志的新事物。「不必指定要搜索的新物理的领域,」Pierini 说,「这里获取数据的方式更开放。」
日后,研究人员甚至可能开始采用无监督学习来处理物理数据。无监督学习,顾名思义,是指可以无需人工指导就训练大量数据的算法。科学家可以传输给该算法相应的数据,然后该算法就能从中得出结论。
「如果你足够聪明,你可以使用它来做所有类型的事情,」Perdue 说,「如果它能够推断新的自然规律或类似定律,这将是惊人的。」
「但是,」他补充道,「那样的话,我也要去寻找新的工作了。」