深度高能粒子对撞追踪：Kaggle TrackML粒子追踪挑战赛亚军访谈

本文作者： skura

2018-11-26 20:29

导语：2018 年 Kaggle TravML 粒子追踪挑战赛完美结束，来自中国台湾的 Pei-Lien Chou 获得了亚军，这是一篇关于他的专访。

雷锋网 AI 科技评论按： Kaggle TravML 粒子追踪挑战赛的颁奖仪式即将在 NIPS 2018 大会上进行。这个比赛不仅是机器学习助力其它领域科学研究的经典案例，而且来自中国台湾的 Pei-Lien Chou 也获得了挑战赛的第二名。

TrackML 粒子追踪挑战赛介绍

为了探索我们的宇宙是由什么构成的，欧洲核子研究中心的科学家们正在碰撞质子，本质上就是重现了小型大爆炸，并且用复杂的硅探测器仔细观察这些碰撞。

深度高能粒子对撞追踪：Kaggle TrackML粒子追踪挑战赛亚军访谈

虽然编排碰撞和观测已经是一项巨大的科学成就，但是分析由实验产生的大量数据正成为一个最为严峻的挑战。

实验的速率已经达到了每秒数亿次的碰撞，这意味着物理学家必须每年对数十千兆字节的数据进行筛选。而且，随着探测器分辨率的提高，需要更好的软件来实时预处理和过滤最有用的数据，从而产生更多的数据。

为了帮忙解决这个问题，一个在 CGRN（世界上最大的高能物理实验室）工作，由机器学习专家和物理学家组成的小组，已经与 kaggle 和著名的赞助商合作来回答这个问题：机器学习能帮助高能物理学发现并描述新粒子吗？

具体来说，在这次竞赛中，参赛者们面临着一个挑战，那就是建立一个算法，它需要能够从硅探测器上留下的 3D 点快速重建粒子轨迹。这一挑战包括两个阶段：

●在 kaggle 上的调整精确度的阶段是从 2018 年 5 月到 2018 年 8 月 13 号（获奖者将在 9 月底公布）。在这一阶段，主办方只关注最高分数，而不会管得到这个分数需要运行的时间。这个阶段是一个正式的 IEEE WCCI 竞赛（会议地址在里约热内卢， 2018 年 7 月举办）。

●生产阶段将在 2018 年 9 月开始，参与者将提交他们的软件，由平台进行评估。激励取决于系统达到良好的分数时，评估的吞吐量（或速度）。这个阶段是一个官方的 NIPS 竞赛（会议地址在蒙特利尔，2018 年十二月举办）。

在 Kaggle 比赛官方页面（https://sites.google.com/site/trackmlparticle/）上可以获得精确度调整阶段的所有必要信息。

挑战赛亚军 Pei-Lien Chou 访谈

Pei-Lien Chou 是 TrackML 粒子追踪挑战赛亚军。他带领了一只研究用深度学习方法解决图像相关问题的团队参加了这次比赛。Pei-Lien Chou 在视频监控领域有 12 年经验。他在国立台湾大学读取了数学学士学位，并在中国台湾国立清华大学攻读了语音信号处理的硕士学位。

在这次竞赛中，kaggle 参赛者被要求建立一个算法，这种算法能够快速地从硅探测器上留下的3D点重建粒子轨迹。这是这个比赛两阶段挑战的一部分。在 2018 年 5 月至 8 月 13 日的精确度调整阶段，只关注最高分数，而不考虑评估需要的运行时间。第二阶段是正式的NIPS竞赛，这个阶段重点关注准确性和算法速度之间的平衡。

比赛结果出炉后，Kaggle Team 与 Pei-Lien Chou 进行了访谈，雷锋网编辑整理如下。

基础知识

在参加这次比赛前，你的背景是什么？

我拥有数学学士学位和电子工程硕士学位。从去年开始，我就一直是以基于图像的深度学习的工程师。

你是如何开始在kaggle上参加比赛的？

大约 1.5 年前，我加入了 Kaggle 来练习深度学习，这对我的工作帮助很大。我在第一次比赛中就进入了前 1%，在接下来的下一次比赛中就赢了。参加 kaggle 比赛真令人兴奋。

是什么促使你参加这次比赛的？

起初我没有注意到这次比赛，因为它不是基于图像的，尽管我在这次比赛中尝试了一些点云方法。但当我意识到组织者是欧洲核子研究中心（CERN），也就是制造黑洞的那些人时，我毫不犹豫地加入了。

有关技术

你的方法是什么？

我的方法是从一个简单的想法开始的。我想建立一个模型，这个模型可以把每个事件的所有轨道（模型输出）映射到检测器中（模型输入），就和我们使用 DL 解决其他问题的方法一样。

如果一次事件有 N 个命中（通常 N 在 100k 左右），则输出可以很容易地用 NxN 矩阵表示，如果 i 和 j 在同一轨道上，则 Mij=1，否则为 0 。但是模型太大了，所以我把它分成了最小的单元：输入两个点击并输出它们的关系（如图 1 ）。和真实的只连接相邻的点的“连接点”游戏不一样，为了稳健性，我连接了所有属同一轨道的点。此时，我已经准备好了参加这次比赛。深度高能粒子对撞追踪：Kaggle TrackML粒子追踪挑战赛亚军访谈

你是怎么做的？

首先，我使用命中位置（x，y，z）作为输入，通过 10 个项目的训练，很容易获得 99% 的准确率。但我很快发现这并不足以重建轨道。问题是，即便误差率 0.01，对于给定的命中，负对数目可以达到 0.01*100k = 1000，而实际的负对数目在 10 左右（轨道的真实平均长度）。但是为了得分，我们需要真实的数据和模型有超过 50% 的部分是重叠的。

接下来怎么做？

我第一次在自己的计算机上尝试运行的时候就得到了 0.2 的得分，这与当时的公共内核相同。我猜也许我做到 0.6 就能赢，并且希望通过我的方法可以做到。天晓得！

你是如何得到更好的预测结果的？

我尝试了很多方法，并且我的进步大大超出了我的预期。

●采用更大的模型，更多的训练数据。

具有 4k-2k-2k-2k-2k-1k 神经元的 5 个隐层 MLP，总共训练 3 组，5310 次事件，大约 24 亿个正例对和更多的负例对。

●选取更好的特征

一对 27 个特征：x，y，z，count（cell），sum（cell.value），两个单位向量来自神经单元，用于估计命中方向和训练时的随机反转（如图2），并且假设两个击中是线性的或螺旋形的 (0，0，z0)，用前两个估计向量和曲线的切线计算 abs(cos())，并且最后一个是 z0。

深度高能粒子对撞追踪：Kaggle TrackML粒子追踪挑战赛亚军访谈