AI能做的太多,还能帮助科学家寻找新粒子?
扫描二维码
随时随地手机看文章
据国外媒体报道,大型强子对撞机(LHC)可以在一秒钟之内撞击十亿对质子。有时,这台巨大的机器可能会给现实世界带来惊喜,因为在少数碰撞中,会产生一些前所未有的东西。但是,这样的惊喜并没有什么规律可言,物理学家并不确切知道要寻找什么。他们担心,在将数十亿次碰撞所获得的数据梳理成更易管理的数字时,可能会无意中删掉物理学新理论的证据。
在搜寻新基本粒子的过程中,物理学家总是需要对粒子的行为作出假设,但新的机器学习算法却不用这么做。
在欧洲核子研究中心(CERN)参与超环面仪器(ATLAS)实验的纽约大学粒子物理学家凯尔·克兰默(Kyle Cranmer)说:“我们总是担心自己会把婴儿和洗澡水一起倒掉。”
面对智能数据规约的挑战,一些物理学家尝试使用“深度神经网络”的机器学习技术来挖掘相似事件组成的数据海洋,寻找新的物理学现象。
在初步使用案例中,深度神经网络通过研究大量标记为“猫”的图片和标记为“狗”的图片,学习如何区分猫和狗。然而,这种方法在寻找新粒子时并不适用,因为物理学家无法为机器提供他们从未见过的东西的图片。因此,物理学家转而采用所谓的“弱监督学习”(weakly supervised learning)方法,即机器从已知粒子开始,利用细化的信息(比如总体上可能发生的频率)来寻找罕见事件。
在今年5月份发表于科学预印本网站arxiv.org上的一篇论文中,三位研究人员提出应用相关策略对“撞击狩猎”(bump hunting)进行扩展。这种经典的“粒子狩猎”技术曾用于希格斯玻色子的发现。美国劳伦斯伯克利国家实验室的研究者本·纳赫曼(Ben Nachman)表示,具体的思路是训练机器在数据集中寻找罕见的变化。
试想一下,我们可以在猫狗实验的原理基础上做一个游戏:在充满北美森林观察记录的数据集中寻找新的动物物种。假设任何新的动物物种都倾向于聚集在某个特定的地理区域(与新粒子围绕某个特定质量的概念相对应),那算法就应该可以通过邻近区域的系统比较,将它们挑出来。如果加拿大不列颠哥伦比亚省刚好有113只驯鹿,美国华盛顿州有19只驯鹿(即使数据集中有数百万只松鼠),那程序也能在没有直接研究驯鹿的情况下,学会将驯鹿与松鼠区分开来。弱监督学习研究者、俄勒冈大学的理论粒子物理学家说:“这不是魔术,但感觉像魔术一样。”
相比之下,粒子物理学中的传统搜索方法通常要求研究人员对新现象是什么样子做出假设。他们会创建一个描述新粒子行为的模型。例如,一个新粒子可能有衰变成一大群已知粒子的趋势。只有在定义了所要寻找的东西之后,他们才能设计出自定义的搜索策略。这项工作通常需要花费一个博士研究生至少一年的时间,而纳赫曼认为,这一过程可以完成得更快、更彻底。
有研究者提出了CWoLa算法,即无标签分类(Classification Without Labels),可以搜索任意未知粒子的现有数据,无论该粒子是衰变成两个同类型未知粒子,还是两个同类型或不同类型已知粒子。利用常规的搜索模型,LHC协作机构可能需要至少20年时间来寻找后一种情况的可能性,而目前对前一种情况的搜索仍没有任何结果。参与ATLAS项目的纳赫曼表示,CWoLa算法可以一次完成所有这些工作。
其他实验粒子物理学家也认为,这将是一个很有价值的项目。在ATLAS项目中搜寻新粒子碰撞的物理学家凯特·帕查尔(Kate Pachal)说:“我们已经分析了许多可预测的区域,因此接下来我们要开始填补那些尚未分析的角落,这是很重要的一个方向。”去年,她和一些同事就在尝试设计一种灵活的软件,对一系列不同质量的粒子进行处理,但他们中没有人对机器学习有足够的了解。“我想现在是尝试一下的时候了,”帕查尔说道。
深度神经网络有希望在不利于目前建模工作的数据中发现微妙的相关性。其他机器学习技术已经成功提高了LHC进行特定任务的效率,比如识别由底夸克粒子产生的“喷注”。在这项工作中,物理学家毫无疑问也会错过一些信号。加州大学欧文分校的粒子物理学家丹尼尔·怀特森(Daniel Whiteson)说:“他们把信息遗留在桌面上,而当你在一个机器上花了100亿美元,你不会想把信息留在桌子上。”
不过,机器学习确实充满了程序将手臂混淆为哑铃的警示故事(甚至还有更糟糕的情况)。对于LHC,有人担心机器学习的“捷径”最终反映的是LHC机器本身的各种小问题,而这些问题正是实验物理学家努力想要忽视的。ATLAS项目的物理学家蒂尔·艾费特(Till Eifert)问道:“当你发现一个异常时,你觉得它是新物理学突破呢,还是探测器发生了什么有意思的情况?”