五大顶级学者的AlphaFold 2论道：破译结构、开源代码后的产研「大变局」（上篇）

本文作者：刘海涛

2021-08-17 14:26

导语：后AlphaFold2时代，蛋白质结构领域是否会出现学术研究的“军备竞赛”？从这篇文章里得到解答。

过去半个月，Alphafold2先后两次沸腾了整个学术圈。

一边是“AI界年度十大突破”AlphaFold2终于开源，登上Nature；

另一边DeepMind又发布，堪比人类基因组图谱的，最完整人类蛋白质结构数据库。

对自家的“王者级成果”，DeepMind联合创始人、首席执行官德米斯·哈萨比斯（Demis Hassabis）也自豪表示：“这是迄今为止AI在推动科学进步方面做出的最大贡献，我觉得这么说一点儿也不夸张。”

但事实真是如此吗？

爆火的AlphaFold2是否被期望过高？后AlphaFold2时代，蛋白质结构领域是否会出现学术研究的“军备竞赛”？AlphaFold2代码开源，是否为各大药企和AI制药企业创造了一次最佳的超车机会？备受期待的AlphaFold2数据库，是否会成为专家们打开蛋白质功能奥秘的金钥匙？

近日，主题为“权威专家再谈AlphaFold 2：AI是否会带来结构生物学的「大革命」？”的圆桌论坛正式举行。本次主题论坛由图像计算与数字医学国际研讨会（ISICDM）主办，雷锋网、医健AI掘金志协办。

印第安纳大学医学院副院长、AIMBE Fellow黄昆教授担任主持，密苏里大学教授、AAAS/AIMBE Fellow许东教授、密歇根大学教授、DeLano奖得主和I-TASSER算法发明人张阳教授、芝加哥丰田计算技术研究所、斯隆奖得主许锦波教授，中科院计算机所研究员卜东波教授共同参与了讨论。

在上篇中，几位嘉宾共同深究AlphaFold2这次成果的技术细节与意义；在下篇中，将着重分析AlphaFold2数据集，这一重磅成果实际的科研价值，以及怎样拓展到新冠疫苗、新药研发等其他领域的未来话题。

图像计算与数字医学国际研讨会（ISICDM）自2017年创办以来，一直是医工交叉的前沿阵地，围绕图像计算和数字医学中的一些重要的理论、算法与应用问题进行学术讨论，旨在促进电子信息（包括计算机、自动化与生物医学工程）、数学和医学等领域学者的交流与合作，截止至今，ISICDM共邀请到400余位大会报告及专题报告嘉宾。

以下是主题论坛的现场内容，雷锋网做了不改变原意的编辑和整理：

黄昆（主持人）：去年我们已经谈论过一次AlphaFold2的成绩，这次其在短时间内破译了98.5%的人类蛋白质组的结构，并开源了代码，相比传统算法AlphaFold2究竟有怎样的进步，优点有哪些？

许锦波：从我的角度理解，AlphaFold2并不是用一个idea，就把蛋白质结构预测一下子提高很多。

其主要通过实现了几个不同的Idea，每一个Idea把预测精度提升几个点的得分，最后把总分提升很多，这些Idea里有些是这个领域里已经有的，有些是DeepMind自研的。

为了理解AlphaFold2和其他算法之间区别，我先总结一下它的做法：

首先，AlphaFold2第一步和以前的深度学习方法是类似的。

过去，我们预测目标蛋白结构，首先就是在序列数据库里找这个蛋白的同源序列，建立多序列对比；

而AlphaFold2也是在实验结构数据库里，找目标蛋白的模板，最后把模板和多系列对比，输入到神经网络当中。

AlphaFold2的神经网络主要由两大模块组成：

第一个模块，处理同源序列信息，主要使用注意力机制对蛋白序列进行建模，从多系列对比和模板里，学习蛋白质残基之间的相互作用关系。这种关系可以理解成距离，也可以理解成联系。

这个模块把目标蛋白序列映射到高维空间里，这种映射本身就包含残基之间相互作用关系。

第二模块，怎么把第一个模块输出转换成三维结构，也就是把目标蛋白序列在高维空间映射，以及残基之间相互作用关系，两种信息转化成三维坐标。

从实践角度来看，第一模块无非就是学习氨基酸之间关系，这和过去残差网络是类似的。

残差网络过去也是学习氨基酸之间关系，只不过是用距离矩阵表示，而AlphaFold2因为实现了端到端训练，就不用使用距离矩阵表示。

我觉得AlphaFold2真正创新应该在第二模块，第一模块注意力网络过去就已经有很多研究组在做，像Facebook很早就尝试使用注意力机制模拟蛋白质序列，把两种信息转化成三维坐标算法的第二模块，相对于其他组也是一个比较大的创新。

AlphaFold2另外一个创新点是Loss Function(机器学习模型的训练函数)，也就是评判预测结构的准确性，过去可能更多使用RMSD、氨基酸之间接触矩阵或距离矩阵、氨基酸之间相对位置的方法。

而这次AlphaFold2则是在每个氨基酸上，都建立了局部坐标系统，然后根据局部坐标系统，对其它氨基酸建立相对坐标，计算真实局部坐标和预测出的局部坐标之间误差，这种方式是以前没有使用过的。

就我的理解，它其实是相当于把以往距离和Orientation(相对方向)综合在一起，这样做法就不需要分开处理距离和相对方向，这是我认为AlphaFold2在Loss Function上的一些创新。

至于其他创新，例如使用自己生成的几十万个蛋白质结构去做训练数据，则不属于算法上的创新，而是工程上的优化，而网络迭代优化(Recycling)，同样也是工程上优化。

总结起来，AlphaFold2真正的突破就几个方向：第一，使用注意力机制，这相比过去卷积网络会提高一些，但不会太多，第二，在三维建模和Loss Function上的创新，最后就是使用更多训练数据。

而基本思想和以前其实是类似的，无非就是怎么把物理约束加进去。以前我们是通过距离矩阵，而现在AlphaFold2则是直接生成三维坐标，把更多物理约束直接加入到深度神经网络当中。

许东：AlphaFold2的创新可能不是在蛋白质本身认识上，更多是工程创新。

创新一般主要分为两类：第一，单点问题创新，例如发现DNA双螺旋结构；第二，整合创新，例如芯片、手机迭代，很多技术的本质就是整合创新。

从综合创新角度来看，AlphaFold2是有很多创新的，在结果上也可以看到，比之前方法提高了很多。

AlphaFold2的文章里也写的很清楚，其中包含了10种新方法，其中就有刚才锦波教授分享的，特殊注意力机制和端到端学习，每一种方法都能够提高一点。

所以，我认为怎样将这些新方法整合在一起，才是AlphaFold2非常厉害的一个点，这应该不是过去量的增加，而是质的飞跃，这种创新确实是值得钦佩的。

张阳：AlphaFold2很重要一点创新在于，过去需要先预测氨基酸之间距离和接触图，然后再依次构造三维结构模型，这样的流程，让机器学习训练只是一个中间过程，并非是最终结果，进而影响机器学习效率。

相比其他实验室的结构预测算法，这次AlphaFold2最关键的提升因素，就是端到端训练，也就是从序列直接学习三维空间结构。

这种端到端训练有一个难点，就是怎样把神经网络结果投影到三维空间当中，然后把三维空间误差反馈到神经网络，我认为这是AlphaFold2算法上最重要的创新点，之前其他实验室不是没有做过尝试，但最后都没有成功。

AlphaFold2这次把每个氨基酸都建立了局域坐标系统，通过学习局域坐标旋转矩阵，把蛋白质三维空间结构直接引入到神经网络当中。

这样模型可以直接从数据库学习到三维空间结构，省去距离和接触图等中间过程，将机器学习的威力真正释放出来。

卜东波：我觉得张阳教授提出的这一点，在AlphaFold2和第一代AlphaFold的对比中，就能看得非常清楚。

第一代AlphaFold是三段论，把整个预测过程分解为三个阶段：从MSA出发预测残基间距离、根据残基间距离构建能量函数、最终再用优化技术构建出能量尽量低的结构构象。

现在AlphaFold2使用三合一，就把误差都反传回来，避免了中间步骤可能导致的信息丢失。

黄昆（主持人）：除了算法上进步，目前AlphaFold2究竟解决了多少蛋白质结构问题，从算法的角度还有多大的改进空间？

张阳：回答这个问题前，我先介绍一下蛋白质结构预测包含哪些主要问题，从结构层面分类，主要分为四类：二级结构预测、三级结构预测（包含单链、单结构域）、高阶三级结构预测（包含单链、多结构域）和四级结构预测（蛋白质之间相互作用的复合体）。

第一个问题，二级结构预测，在AlphaFold2进入之前，这个问题就已经解决，它的一个主要标志就是自2004年起CASP比赛就已经不再把二级结构预测列为比赛项目。

所以，AlphaFold2主要解决的就是第二和第三层面问题，即单链三级结构预测问题。

对于单链单结构域问题，从CASP14比赛结果来看，AlphaFold2基本可以正确预测出所有目标蛋白的拓扑学结构，也就是TM-score>0.5。

而总体上来看，其它预测模型有2/3达到低精度实验要求，对比较困难的蛋白质结构，也有1/3达到实验精度，这里的困难蛋白质主要是指，结构数据库（PDB）里没有同源模板的蛋白。

而AlphaFold2能够对困难蛋白高精度预测的原因在于，这些蛋白结构数据库虽然没有同源模板，但序列数据库却有很多同源序列，根据同源序列进化分析就可以得到结构信息。

而对于那些即没有同源结构，又没有同源序列的真正困难蛋白，AlphaFold2预测精度还有待提高。

对于单链多结构域问题，目前AlphaFold2只解决了一部分，按照TM-score，它对多结构域预测精度可以达到单结构域90%。

在CASP14，AlphaFold2对单结构域的平均TM-score可以达到0.91，而对多结构域的平均TM-score只有0.82。

所以总体来看，相比其他实验室，AlphaFold2虽然对多结构域预测精度提高很多，但对高阶多结构域的三级结构预测，仍然还心有余，力不足。

第四个问题，四级结构预测，目前基于深度学习从头预测蛋白质四级结构的工作还没有开始。

但现在也许真的到了可以发起探索的时候，特别是AlphaFold2提供了从序列，到三维结构端到端预测突破，给大家提供了一种新的途径和想法。

所以，我认为四级结构预测可能是这个领域的下一个突破点。

其实除了刚才分析的四个方面，和蛋白质结构预测相关的重要问题还有很多。

例如预测蛋白质和其它DNA、RNA等分子相互作用，蛋白质和药物分子相互作用，蛋白质和功能之间关系，以及深度学习如何和冷冻电镜、冷冻电子断层扫描这样大标度实验技术的结合，利用低精度实验数据，协助AI确定高精度蛋白结构的算法，还都是AlphaFold2未曾尝试的。

至于AlphaFold2还有多大发挥空间，我觉得AI对于结构生物学以及生物医学应用才刚刚开始，大有可期。

许锦波：我再补充一下单结构域问题，目前所有解决方法都依赖于同源序列或同源模板、如果没有同源模板，或同源序列也非常少，模型最后的结果都不会很好。

其实在细胞里面，蛋白质折叠是根本不知道同源序列信息，所以我们目前的解决方法都有点作弊。

从生物物理角度，这个问题还没有完全解决，因为在没有同源信息情况下很难把蛋白质结构预测出来。

许东：我也基本认可锦波教授的这个看法，其实AlphaFold2预测出来的结构，经常有一些偏差比较大的结果，这些结果可能一部分是无序结构，但也有一部分就是没有预测好。

以目前进展来看，AlphaFold2的预测结果里，应该有一半预测比较好，另一半里一部分是没有精准结构，也有很多就是预测比较差，所以，目前还谈不上AlphaFold2能解决所有问题。

而如今的AlphaFold2是不是达到了理论上限，目前还不好说，我觉得还没有足够证据。

黄昆（主持人）：那除了结构生物学部分，AI在结构生物学上还有哪些比较重要的应用点？

许东：刚才张老师已经回答不少，有些工作是进行，例如蛋白人工设计大师David Baker在《science》的那篇文章，就已经做了两个方面工作：

第一，预测蛋白质结构拓展，例如解析电镜结构或解析晶体结构，这些问题已经解决的很好。

第二，对蛋白功能理解，像GPCR蛋白以前没有精准结构预测方法，所以看不出来活性状态和失活状态下的结构差异。现在有了精准预测方法以后，就可以看到不同活性状态下的结构差异，也就推进了我们对蛋白功能的理解。

此外，在结构生物学上，AI应该还可以解决很多问题：

第一，应在在蛋白质修饰作用中，一些较大的修饰，像糖化、脂化对蛋白质结构、功能都会造成很大的影响。而疫苗有效性差的问题，就是因为靶蛋白糖化使结合不够理想，将来或许Alphafold2真的可以解决这类问题。

第二，解决蛋白的相互作用问题，刚才张阳教授谈到蛋白质跟DNA、RNA、脂类等相互作用非常重要，例如跟RNA相互作用形成蛋白复合体。

其实，细胞质里的蛋白质经常会和ER蛋白膜进行相互作用，现在的预测方法就已经可以推进这方面的研究。

第三，预测蛋白质和DNA之间相互作用，蛋白质能够作为转录因子和DNA产生相互作用，我们可以利用AI预测蛋白质和DNA之间相互作用，来理解转录机理。以上这些方面，David Baker的文章里也做了列举。

第四，解决疫苗设计和癌症治疗问题，Alphafold2也可以用于研究抗原和B细胞，抗体之间的相互作用。

第五，解决动力学难题。我自己的博士论文就与分子动力学相关，当时遇到就一个难点——如何将分子动力学做的更长一点，更好展示蛋白质动态过程？

现在的分子动力学不能看到蛋白折叠全过程，因为它耗时非常短，一般分子动力学模拟远达不到这个标准，对此，我曾尝试把模拟过程增长，更好模拟整个过程；或通过已有分子动力学建立神经网络，研究异构问题。

我认为，蛋白结构对蛋白质功能研究只是一个起点，后面还有很多进化、动力学功能相关问题仍待解决，而Alphafold提供了一个很好的研究工具。

黄昆（主持人）：我认为从生物信息需求者角度，Alpha fold实际应用也有非常好的潜力。

例如癌症相关突变基因预测，以前需要直接观察基因和表现型之间关系，但我们更想知道基因突变对蛋白质结构的影响，目前如果未来对这些结构做出预测，会很有价值，能够解决许多下游问题，例如疾病诊断。

那在后Alphafold2时代，蛋白质预测是否会进入一个新阶段，疾病诊断方面，有哪些既有数据，又值得攻关的重点？

卜东波：我们实验室张海仓老师所做的工作，就是一个很好的案例。

过去我们关注癌症相关突变位点，分析癌症患者和正常人基因组变异，二者之间变异位点差别比较多，但一直很难断定哪些是真正相关位点。

Alphafold2出来之后，把人类基因组的大部分蛋白质结构都预测出来，我们就可以从结构角度观察，疾病患者与正常人之间基因组变异的差异，判断和疾病相关关键位点的位置，是位于蛋白质表面，还是内部区域，是否对蛋白质整体结构造成破坏，还是对蛋白质相互作用接触表面造成破坏。从结构角度判断，哪些变异对疾病比较关键，这对寻找新靶点很有帮助。

黄昆（主持人）：Alphafold2另一个应用领域就是生物制药，在生物制药领域，它的方法或结果如何应用，AI怎么样才能够和制药流程结合起来？

许东：制药过程相当复杂，首先我们需要知道哪些是比较重要的问题。

例如单细胞技术，通过单细胞技术，我们可以了解细胞里DNA、RNA、小分子、蛋白质等物质，这是一个数据量大、且值得攻关的项目，会有很多AI研究的机会。

而且，单细胞技术还与很多结构问题相关，其能够通过结构来理解细胞之间相互作用，理解细胞表面受体与靶蛋白质相互作用。

这些过程理解可以对制药产生很大帮助，例如新药研发、癌症相互作用的阻断，这都可以应用AI，有很大应用价值。

其实很多时候，我们虽然找到很好的算法，但这个算法到底能够把整个问题推进到什么程度，还需要我们去评估。

目前，我自己也在做阿尔兹海默症研究，有一个前年投入3600万美元的阿尔兹海默症药品研发中心，在研究中光是前期药物靶点寻找，我们就遇到很多问题，更不用说后面真正成药。

所以，我觉得生物制药这个问题牵涉到很多内容，一方面是技术和算法上问题，另外一方面是整个流程的结合。

黄昆（主持人）：从研究角度来看，Alphafold的出现到底是给行业增加了门槛，还是减少了门槛？这会让越来越多人进入这个领域，还是会造成研究垄断性局面的出现？

张阳：从某些方面来讲，门槛是降低的。

因为任何懂机器学习的人都会跃跃欲试，着手研究这个问题，把已知蛋白质序列和结构放到神经网络里尝试，如何预测蛋白结构。

像传统的蛋白质结构预测，我们一般都要有背景准备，需要了解物理化学知识，设计蛋白质中包含的相互作用力场，分子动力学，以及蒙特卡洛模拟知识，通过寻找最低自由能态折叠蛋白结构。

甚至像同源建模和threading这些简单方法，我们也都必须了解序列比对算法，以及物理、化学知识帮助模型优化。

但这些现在都不需要了，所以门槛是降低了。

至于是否让更多人进入这个领域，或者是否造成一家独大局面，我更倾向于前者。

首先，AlphaFold2的成功给这个领域做了一个巨大且免费的广告，让大家关注这个领域，也让大家意识到这个问题的重要性。

其次，因为机器学习把结构预测门槛降低，所以会有越来越多人加入到这个领域。

许锦波：我补充一点，门槛降低或升高，要针对不同的人、不同研究组。

对于机器学习背景门槛是降低了，很多背景知识不需要学习，只要有输入、输出就可以放在神经网络训练。

但训练这些模型需要更多的计算资源，大量GPU和算法工程师，一些小lab不一定会有这么多计算资源，也雇不起很好的算法工程师。

所以，对于生物背景或非计算机背景，门槛则不一定降低。

他们以前没有可以在网上一些下载代码，稍微改一改就可以用，但现在他们需要重新设计新模型，新算法，这样的门槛肯定是升高了。

而且，如果他们继续让以前方法进行研究，肯定做不过现在的深度学习，所以他们可能必须面临改变。

黄昆（主持人）：尽管进入门槛降低，但如果想要在行业持续发展，是否还需要生物、物理、化学等学科知识储备？

许东：大家要知道，蛋白质预测是一个系统问题，不仅需要算法，还必须对蛋白质有一定了解。从这点来看，我觉得如果新团队目标是打败Alpha fold2，那机会非常小。但我认为，肯定会有更多lab参与进来。

其实在Alpha fold2出来之后，就有很多合作者找过我，他们一方面表示自己也有这样的工具，另一方面也想解决类似相关的问题。

而且，其实算力和工具已经不是现在的研究瓶颈，算法在谷歌co-lab上就可以全部安装完毕，网上提交序列，十几分钟就能预测出一般的蛋白质，这大大增加生物实验室在结构预测的应用。

卜东波：第一，Alphafold2一个很大意义在于使大家相信结构预测的结果。

过去我们总碰到其他领域说结构预测结果不可信，最后还得指望电镜等实验解析结构。

Alpha fold2的成功使得大家相信计算、相信预测，鼓励更多人尝试用AI涉足结构生物学相关研究，正如张阳老师所说，会有很多lab进入这个领域。

第二，虽然对具体物理、生化知识要求没有那么高，但网络设计过程，还需要对蛋白质有深入理解。

例如在Alphafold2结构图中，从MSA，到Distance和pair presentation中间有一个双向箭头。

这个箭头背后反映我们对结构认知有可能不准，需要通过距离来修正，也就是不仅从MSA来做pair presentation，还可以用pair presentation来修正MSA。

Alphafold2文章里就强调MSA和pair presentation之间一致性。这么一个小箭头，背后代表的是对蛋白质结构预测深刻认识。雷锋网雷锋网

PS.由于全文篇幅较长，医健AI掘金志将讲座内容分为上、下两篇。

下篇中，五位专家将着重分析备受期待的AlphaFold2数据库的未来前景、新的学术研究风向等“未来话题”。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

1人收藏

刘海涛

编辑

专注AI医疗的新势力和投融资丨微信ID：Daniel-six

发私信

当月热门文章