用机器学习算法解决密度泛函问题？若成功，药物发现、超导研究有望更上一层楼

本文作者：我在思考中

2022-02-10 11:37

导语：基于有数十年沉淀的物理思想，人工智能正取得下一个飞跃。

如果科学家们能够了解电子在分子中的活动，那么他们就能够预测一切事物的行为，包括实验药物与高温超导体。

作者 | 吴彤

编辑 | 陈彩娴

「AI+X」愈发如火如荼。

最近，权威学术媒介 QuantaMagazine 发表了一篇文章，介绍了 DeepMind 在内的许多研究团队正使用机器学习算法攻破物理领域的一个著名难题——密度泛函理论。

他们企图通过机器学习算法来寻找第三级密度泛函的方程式，找出人类无法用数学描述的电子行为，从而突破电子在分子中的活动细节。这对药物发现、超导研究与奇异材料的研究意义重大。

在科学家们看来，这是一项重要的、振奋人心的研究，因为密度泛函理论是一个经典的量子力学理论，而从密度泛函出发，他们有望在分子与化学等相关领域取得重大突破，实现人工智能跨界共舞的又一传说。

那么，机器学习算法与物理如何能共舞呢？我们来看看 QuantaMagazine 的要点介绍。

密度泛函理论是什么？

密度泛函理论的英文名为「Density Functional Theory」，简称「DFT」，始于1960年代，是一种研究多电子体系下电子结构的方法，在物理与化学上有广泛的应用，尤其用来研究分子和凝聚态性质，是凝聚态物理计算材料学和计算化学领域最常用的方法之一。

这样说似乎还有点抽象。举一些形象的例子：

众所周知，近年来超算出奇迹。而2018年美国超级计算机集群的三大应用，排名第一的便是密度泛函，其次才是夸克和其他亚原子粒子的研究，气候模拟也只能排第三。

更往前一点，2014年10月，Nature整理出100篇有史以来引用数量最高的研究论文，其中有12篇论文都与密度泛函理论有关。这是 Nature 当时的描述是：

「我们地球世界中的一切事物都取决于电子的运动——因此，DFT 就是一切的基础。」

图注：密度泛函理论揭示了电子在分子（如2,3-(S,S)-二甲基环氧乙烷）中的活动

几十年来，研究人员利用 DFT 对事物进行预测：2014年，化学家 Christopher H Hendon 等人用 DFT 理论量化物种常见的咖啡酸、咖啡因与代表性风味成分丁香酚的热力学结合能，由此掌握了咖啡味道形成的奥妙；2017年，天文学家又用 DFT 理论预测木星核心的稠度，相关论文发表在了顶刊《Geophysical Research Letters》上。

英国牛津大学的材料物理学家 Feliciano Giustino 评价：「本质上，DFT 是一种使不可能的数学变得简单的近似。」

要通过考虑每个电子和每个原子核如何与每个电子和原子核相互作用来研究硅晶体中的电子行为，研究人员需要分析 16 万亿 (1021) TB 的数据，这远远超出了任何人的处理能力。而计算机将 DFT 的数据需求减少到只有几百 KB，完全在标准笔记本电脑的容量范围内。这昭示了计算机科学与DFT的合作基础。

另一方面，DFT 为科学家们提供了一条捷径，可以预测电子的去向，进而预测原子、分子和其他披着电子的物体将如何行动。长期以来，物理学家和化学家一直利用深厚的物理专业知识来使他们的方程式更好地反映所有电子共有的复杂活动。

了解电子就是了解它们构成的原子、分子和材料。自 1920 年代欧文·薛定谔发表他的同名方程（「薛定谔波动方程」）以来，物理学家已经彻底理解了电子。

图注：薛定谔波动方程

但在分析大量电子时，薛定谔方程几乎毫无用处，原因就在于电子比粒子更多团。它们在空间中扩散，以多种方式与其他电子重叠并相互挤压。随着电子数量的增加，使用薛定谔波动方程来解释所有电子之间的不断接触的难度也呈指数级增长。

来自加州大学伯克利分校的凝聚态物理学家杰弗里·尼顿 (Jeffrey Neaton) 便提出这样的观点：「即使是只有几个粒子，你也需要用更多的磁盘空间才能把波函数写入硬盘。」

从DFT到通用密度泛函

多年来，密度泛函理论的强大吸引着无数研究者躬身其中。在他们当中，我们不得不提到1998年获得诺贝尔化学奖的物理学家 Walter Kohn。

图注：Walter Kohn

Walter Kohn 出生于奥地利维也纳，1945年获数学和物理学学士学位，1946年于多伦多大学获应用数学硕士学位，1948年在哈佛大学获博士学位。曾任哈佛大学物理系教员，卡内基-梅隆大学（CMU）助教和教授，加利大学圣地亚哥分校物理系教授、系主任，1979年到加利大学圣巴巴拉分校先后任理论物理所所长和物理系教授。

1964 年，他与另一位物理学家 Pierre Hohenberg 找到了一种方法，证明通过将分子的电子粘在一起，形成一些点更厚、一些点更薄的液体，就可以完美地捕捉到分子的每一个方面。这种电子液体（electron soup）的密度包含分子复杂波函数的所有信息，使物理学家实现了对电子进行单独的、原先以为绝无可能完成的任务。非常了不起。

图注：研究人员使用基于密度泛函理论的工具来预测 DNA 碱基对周围的电子在被激光脉冲击中时如何反应。

Hohenberg 和 Kohn 证明了存在一个强大的主方程，即「通用密度泛函」。该方程将以「电子液体」为例计算其能量，引导物理学家采用能量最低且最自然的电子排列。从这个角度看，通用密度泛函具有很强的普遍性，原则上可以描述从硅砖到水分子的所有系统。

唯一的问题是没有人知道这个方程式是什么样的。

很快，1965年，Kohn和另一位物理学家 Lu Jeu Sham 首次写出了可用的密度泛函方程式。在这个过程中，他们知道，想要写出捕捉电子行为所有微妙表现的精确函数难度极高，因此他们将难题一分为二：一半是已知部分，它提供了一组只能平均感知彼此的电子的能量；一半是未知部分，比如拜占庭量子效应和非局部相互作用产生的多余能量，统一放进一个被称为交换和相关函数的容差系数中。

论文链接：https://journals.aps.org/pr/abstract/10.1103/PhysRev.140.A1133

目前，Kohn对DFT的两篇研究论文分别在Nature的这100篇论文中排名第34位和第39位。Kohn意识到，他可以通过假设每个电子对所有其他（不是单个的）电子的反应，以模糊的平均值来计算系统的属性，比如它的最低能态。原则上，数学是简单明了的；系统的行为就像一个连续的流体，其密度随点而变化。这一理论也因此得名。

这个方法将我们对通用泛函的未知降到了最低。在接下来的几十年里，科学家们基于 Kohn 和Sham 的工作，采用越来越聪明的方法来估计容差系数，从而使得密度泛函成为理解电子的实用方法。

在实际应用中，研究人员使用这个方法来预测原子捕获或释放电子、分子振动的方式（比如好奇号探测器用来寻找火星上的生命迹象）、晶格中原子的排列、声音在材料中等等。1998年，Kohn还凭借该理论的广泛应用赢得了诺贝尔化学奖。

用AI寻找通用泛函的近似值

研究人员要求更高的 DFT 精确度，就必须考虑到泛函交换和相关项的无关性，打磨函数的细节，使它更符合通用密度泛函。

寻找更通用的泛函方程，尤其是泛函方程的近似值，成为「DFT 狂热者」的新目标。

天普大学的物理学家约翰·珀杜（John Perdew）是这方面的先驱者。他将通向通用泛函的道路描述为「在梯子上攀爬」。在每个梯级上，物理学家都在函数中添加新成分。最简单的成分就是每个位置的「电子炖菜」（electron stew）的厚度。在下一个梯级上，泛函还考虑了从一个地方到另一个地方的厚度变化速度，从而使这项研究更加精确。

图注：John Perdew

Perdew 的策略核心是使用了物理推理，从而保证通用泛函的近似值一定会遵守某些数学属性，即所谓的「精确约束」。越高的阶梯要满足越多的约束条件，因此研究人员就必须更努力地寻找满足所有这些约束条件的方程。

Perdew 的团队于 1999 年开始处理混合六种成分的第三级泛函。2015年，他们年发布了当时最先进的名为「SCAN 」的泛函。这是他的第八次尝试，也是泛函第一次符合与第三级相关的所有 17 条已知约束。SCAN 适用于分子和固体领域，已证明是迄今为止发现的通用泛函最强大的近似之一。

论文链接：https://arxiv.org/abs/1511.01089

「第三级函数的可能性非常大。弄清楚什么是重要的，什么是有效的，需要时间。」Perdew谈道。

这时，机器学习就派上了用场。

机器学习入场

当 Perdew 基于物理直觉改进密度泛函时，一场革命正在酝酿：算法能否找出人类无法用数学描述的电子行为的模式？

2012 年，来自美国UC Irvine大学的 Kieron Burke 及团队首次尝试将机器学习应用于一组简化的电子。他所提出的一维原型驱使了他和其他研究者思考能够采用机器学习算法来寻找密度函数。

论文链接：https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.108.253002

2021年初，Burke团队又取得了突破：他与合作者为一个玩具问题建立了一个神经网络，采用了一个此前大多数工作都会忽略的方法来跟踪密度误差和能量误差。相关工作发表在了《Physical Review Letters》上。

论文链接：https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.126.036401

卢森堡大学的理论化学家 Alexandre Tkatchenko 说：“要获得既能提供密度又能提供能量的泛函，需要一个非常灵活的架构，单纯依靠人脑写出一个函数式是很难的。”

石溪大学的 Fernández-Serra 也是研究将机器学习算法用于寻找泛函的学者之一。她使用类似的策略设计了一个神经网络，研究一系列分子和能量，并寻找服从大多数已知约束的第三级函数，本质上就是使用一台机器来追溯 Perdew 的足迹。

正如她和Sebastian Dick在 2021年秋季《Physical Review B》中报道的一样，由此产生的交换和相关函数在预测不熟悉分子的能量方面比SCAN高出了大约10%，但这轻微的增益表明Perdew的研究已经接近于第三级泛函的天花板。

https://journals.aps.org/prb/abstract/10.1103/PhysRevB.104.L161109

「物理直觉几乎耗尽了人类所能达到的所有智慧。在不使用机器学习的情况下，Perdew的泛函研究真的是尽善尽美。」Fernández-Serra 评论。

DeepMind「盯上」DFT

但是想要爬得更高，就需要更复杂的输入，以及能够理解这些输入的算法。

DeepMind 的理论化学家阿隆·科恩 (Aron Cohen) 也对寻找更通用的泛函方程十分感兴趣。为了深入理论量子化学的抽象观点，他随身带着一个3d打印的蓝色玩具，形似幸运饼干，弯曲描绘出了一个泛函函数的确切形状。它仅适用于最简单的系统描述，比如任意两个原子间共享的两个电子的信息，但也时刻提醒着 Cohen：这个世界上可能存在一种能够处理任意数量电子和原子的通用泛函。

图注：这个玩具函数描述了任意两个原子之间共享的两个电子。球轴承表示能量最低的排列、倾斜模型则会改变原子。

DFT 研究的主要目标之一是找到该通用泛函的更准确的近似值。

众所周知，DeepMind在研究出围棋系统Go之后，便一直在寻找新的挑战，尤其将目光集中在了「科学机器学习」的问题上。于是，Cohen便提议研究 DFT，此前他也花了数年时间研究简单系统的精确泛函，但这些系统并不足以反映现实的世界。

回顾科恩的研究历程，DFT 的一个核心弱点大大阻碍Cohen：电流密度泛函通常会过多地涂抹电子。这个问题在不平衡的系统中尤其明显。电子应该主要聚集在一个分子上，但 DFT 偏偏将电子汁均匀地分布在两个分子上。当这种连带问题出现在化学反应中时，DFT 就无法为粒子合并和分离提供正确的能量，即使是像氢原子这种简单的情况也是如此。

为了设计下一代函数，Cohen和DeepMind团队选择不再纠结于满足一长串的物理原则。相反，他们依赖大量的数据，首先从数据库中搜索出数千个已知能量的分子（使用薛定谔方程或类似方法以高成本计算），然后再使用超级计算机来处理数百个额外分子的能量（其中许多分子需要几天的时间来计算）。

当研究小组收集了详尽的分子样本时，Cohen和其他化学家再决定如何构造这些泛函。

他们找到了一种万能的方法：当以一种方式计算某一函数的80%的能量，再以另一种方式计算剩下的20%的能量时，就会出现一个最佳点。这一方法是研究人员经过多年的反复试验找到的，用来估计部分交换和相关函数。

长期以来，研究人员一直犹豫下一步是不是让分子周围的点按照80/20的比例随点变化，但目前还没有人能完全成功做到这一点。

1998年 Burke 在其发表于 ACS 期刊的“Exchange-Correlation Energy Density from Viral Theorem” 中介绍了这种类型的函数。但是，他说：“人们可能已经在100篇论文中尝试应用这种形式的函数，但他们还没有创造出每个人都能用的东西。也许这对一个人来说太难了。”

论文链接：https://pubs.acs.org/doi/10.1021/jp980950v

凭借大量的样本分子和DeepMind团队的机器学习专业知识，该团队所提出的神经网络能够训练出一种灵活的第四级函数——DM21 ，可以比SCAN和其他顶级竞争对手更好地估计各种分子的能量，因为它能更准确地定位电子，更好地描述它们的自旋。据介绍，他们所提出的泛函是第一个能够处理化学键断裂和形成的通用泛函。去年12月9日，该工作发表在了《Science》上。