0
在CASP比赛创建者John Moult教授看来,这一比赛从来不是闭门造车,或是学术界的圈地自嗨。
2018年,在第13届CASP比赛中,一个顶着谷歌子公司帽子的参赛选手亮相,其AlphaFold系统以最高的预测准确率击败其他参赛队伍。
2020年,在第14届CASP比赛中,这一公司再次卷入竞技场,凭借AlphaFold二代系统以绝对的优势大获全胜,并在次年将技术成果全部发表于《Nature》和《Science》等顶级期刊。
这便是如今的AI殿堂级公司--DeepMind。
从那以后,人们首次将“人工智能”和“蛋白质结构预测”两个毫不相关的领域联系在一起。而DeepMind背后的谷歌,也凭借CASP大赛织造了一张梦寐以求的医疗商业蓝图。
从业内人士的角度,这或许是意料之中。正如John Moult教授创立CASP比赛的初心,便是希望以此推动计算生物学研究,加速理解细胞构建原理和推进药物发现,最终惠及全人类。
显然,DeepMind已经蹚出了一条可参照的发展路径。
不久前,CASP 15落下帷幕,尽管本届比赛中未见DeepMind身影,但诸多华人团队参赛热情高涨,在蛋白质单体/多体结构预测、蛋白质-蛋白质复合体结构预测、RNA结构预测、蛋白质-小分子配体复合物结构预测等多赛道上夺得桂冠。
不少参赛选手直言,“这是‘后AlphaFold2时代’的首届大型同台竞技,所有选手都获得了业内前所未有的关注。”
在AlphaFold2的冲击之下,蛋白质结构预测是否还能为人们带来新的惊喜?
本届首次新增蛋白质-小分子复合体预测和RNA结构预测两大赛道,是否意味着蛋白质结构预测不再稳占“C位”?
RNA结构预测领域是否会出现如AlphaFold2一般引发革命的技术工具?
从基础研究到应用研究,人们不断讨论着在CASP 15背后行业发展的诸多可能。
近日,由雷峰网GAIR Live&《医健AI掘金志》举办的《生物计算“奥赛”冠军团队论道:当生命科学遇上史诗级AI,何去何从?》线上圆桌论坛落幕。
本次论坛邀请了多位在CASP 15中取得出色成绩的参赛者,由上海智峪生科CEO王晟担任主持,江苏理工学院生物信息与医药工程研究所教授常珊、密歇根大学计算医学和生物信息学系博士后研究员郑伟、浙江工业大学信息工程学院教授张贵军、上海智峪生科技CTO熊鹏参与讨论。
在上篇中,几位嘉宾共同分享了在CASP 15中的参赛经历,以及在AlphaFold2冲击下,蛋白质结构预测赛道该何去何从。
在下篇中,将聚焦本届两大新增赛道:蛋白质-小分子复合体预测和RNA结构预测在应用层面的潜力,探讨当下火热的AIGC技术在AI生命科学领域的可能性。
“全球人工智能与机器人大会”(GAIR)始于2016年雷峰网与中国计算机学会(CCF)合作创立的CCF-GAIR大会,旨在打造人工智能浪潮下,连接学术界、产业界、投资界的新平台,而雷峰网(公众号:雷峰网)“连接三界”的全新定位也在此大会上得以确立。
经过几年发展,GAIR大会已成为行业标杆,是目前为止粤港澳大湾区人工智能领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。
GAIR Live作为雷峰网旗下视频直播品牌,旨在输出新鲜、深度、原创的大咖访谈与对话内容,打造辐射产、学、研、投的特色线上平台。
以下是主题论坛的现场内容,雷峰网《医健AI掘金志》做了不改变原意的编辑和整理:
王晟:你们对CASP 15竞赛有哪些印象深刻的事情?
常珊:我刚刚看到比赛结果的时候很惊讶,虽然知道参加比赛的华人组织很多,但没有想到前几个名次都被华人包揽,这让我印象深刻。
其次就是AlphaFold2在比赛中的应用非常广泛,往年我们参加多聚体竞赛时,通常会遇到一些困难的target,大家完成度不是特别好。
但这次比赛中感觉大家的完成度都非常好,一些困难的题目今年大家也能够完整地提交,很大程度提高了大家参与比赛的积极性。
还有我们自己的赛道,ligand。我印象特别深刻的是有一个target,H1114target,刚出来的时候我也被吓了一跳,因为它有56个配体。
我看到这个题目的时候其实是想放弃的,觉得组委会把这个题目设计的太难了,配体这么复杂的情况下,原本的程序就没办法使用了,只能自己重新写很多代码来实现target的计算。
但是想到这道题目对我们来说很难,对别人来说也很难,就坚持把题目做完了,一直到凌晨才提交完毕。
最后的评估结果有点遗憾,这道题目虽然有56个配体,完成的过程非常辛苦,但是和其他只有一个配体的题目所占的权重是一样的,所以在评分的时候我们并不占优势。
张贵军:对CASP 15来说,我们其实还算是新手,之前没有参加过CASP比赛。
首先从CASP的发展史来看,AI在蛋白质结构预测方面有着非常大的推动力,从CASP 12萌芽,CASP 13发展,CASP 14突破,CASP 15发展得更加成熟。
近年来在医药领域已经有一些企业取得了比较大的成功,比如在新冠疫情的应对上。国内的高校、研究机构、企业等等,都已经开始进入这一领域,速度之快、广度之大都非常令人惊讶。
从技术的角度来看,我觉得郑伟博士、杨建益老师会更有发言权。
就我们的感受而言,在这次的比赛中,单体、多聚体、复合物这三个赛道目前还是在AlphaFold2的基础上进行,尤其是MSA上的处理。
这些MSA信息的获取实际上是这一届比赛中单体复合物结构提升的关键环节,当然,这也取决于现在的AI模型的发展。
AI模型现在发展的也很快,残差网络、注意力机制、自然语言模型等等,都很好地理解了序列与结构之间的关系。
生命系统以及任何一个生命活动,都是通过生命的语言进行,氨基酸、蛋白质、单体复合物等等类似于人类语言中的字母、单词、句子,先进的AI技术能够很好地捕获到这些信息。
在CASP 12中,一些模型的精度比较低,当时的长度基本上都在100以内,能量模型、构象搜索过程等问题都是我们的障碍。
近年来AI技术在在蛋白质结构预测方面的应用在不断加快,尤其是MSA、AlphaFold2等等。
今年我们参加的是模型的质量评估赛道,比赛的过程中我们的感受是,在目前的方法上增加一些独特的特征,然后通过网络模型去学习这些特征,就能够以比较小的算力和代价取得较大幅度的性能提升。
王晟:对于来自学术界的团队来说,和工业界一个很大的差别就是能够使用的资源的量,Google、Facebook等企业可以用几千块甚至上万块的GPU来训练模型。
但来自学术界的参赛团队掌握的资源远远不及那些大公司,要在同一个赛场上和他们进行竞争,就要更好地利用小算力、小模型取得大的进展,这是一个非常好的启发。
郑伟:我觉得这次CASP 15很有趣的一个现象是参赛的队伍变得特别多,说明这个领域开始越来越多地受到学界和工业界的关注。
这次CASP 15蛋白质单体结构预测赛道的参赛团队和CASP 14基本持平,蛋白质-蛋白质复合体结构预测赛道参赛团队增加了75%左右,上次只有不到50个队参加,这次有90个队伍左右。有很多队伍开始关注蛋白质复合体预测这一问题。
这次比赛还开设了两个新的赛道,一个是RNA结构预测,另一个是蛋白质-小分子配体复合物结构预测。这两个赛道虽然是第一次开设,每个赛道也有超过30个团队参加。
今年的CASP竞赛整体看起来变得越来越繁荣了,同时竞争也变得越来越激烈。
另外,我认为今年CASP竞赛中放出的target的难度以及fold的结构种类,相比往届有了很大的提高。
比如target H1137,是由9个不同的蛋白组成的一个超级复杂的复合体,这样复杂的复合体在CASP竞赛中应该是首次出现。
在以往的竞赛中,受实验手段限制,这样的复杂结构很难解析出来。但在AlphaFold2等深度学习的预测模型帮助下,这次的比赛中能够完成一些比较复杂的复合体。
而RNA和小分子赛道的加入,使CASP比赛能够越来越全面地展示计算生物学的发展水平。整体来看,CASP比赛变得越来越有趣了。
熊鹏:这次比赛中印象最深的事情是竟然有RNA赛道。RNA结构预测在以前相对小众,关注度远远弱于蛋白质结构预测。
RNA结构预测并不是从今年才开始比赛,早在2010年左右欧洲就组织了“RNA-Puzzles”的比赛,已经举办了六七届,十二年的时间里才积累了39个target。
对于RNA来说,每年新解析的RNA只有几百个,其中大部分都是核糖体RNA或是附庸于蛋白质的小RNA片段,不适合做一个独立的fold,因此在CASP这种集中的竞赛上,可以作为题目来呈现的新增RNA非常少。
竞赛的组织者也非常有诚意,一共收集了12个target,这是非常不容易的,我们直到比赛之前都不确定会不会有RNA题目,看到组织方给出的12个题目非常欣慰,RNA结构预测的问题会通过这个平台被越来越多的人知道,吸引越来越多的人参与进来,这对RNA学科的发展也非常有帮助。
王晟:今年,你们在大赛上都取得了比较理想的成绩,能否总结一下在各个参赛项目上的优劣得失?
常珊:我们今年参加了两个赛道,一个是多聚体的赛道;另一个是ligand的赛道。这两个赛道一起参加确实特别吃力,往年比赛的时候我只参加多聚体就已经很吃力了,今年又增加了一个赛道,觉得更吃力。
在比赛成果上,我们在ligand赛道的成绩比较好,是第一名。当时我们对每个target都进行了预测,每个target的配体数量不同,我们几乎都能够准确预测到结合部位,即RMSD小于5埃。并且,有很多target我们团队预测的准确度都达到RMSD小于2埃。
有一些target特别难,我们只有部分ligand预测的比较准,但每一个target都能取的比较好的结果。这是我比较欣慰的地方。
在赛后的总结中,我发现有很多做得不够好的地方,比如比赛过程中在时间分配上发生了很大的失误,我们团队人比较少,只有两个老师和一个硕士生,三个人同时参加两个赛道很难兼顾。
按照组委会的评分方式来看,比较容易的target一定要做的精度特别好才能拿到分数。
很遗憾,为了完成比较难的target,这部分容易的target我们认为结果是对的就提交了,没有去精雕细琢,导致没有拿到分数,这也是我们最终排名比较落后的原因。
参加比赛的人数少既是我们的缺点,同时也是优点,我们的沟通效率会更高,在讨论问题的时候三个人碰个头就能定下来要怎么做。
下次再参加比赛,我觉得要么把任务分解一下,多让几个学生参与进来,要么就选择一个更侧重的赛道参加,避免精力不足。
王晟:在这种评分体制下,简单题目上大家的差距不会太大,但是难题一旦搞定,一道题的差距差不多抵得上5到10个简单题目。
所以我的打法是简单题目不要丢太多分,和大家差不多就行,重点去搞定难题。
张贵军:刚刚常珊老师提到的问题我们组也同样存在,今年是我们课题组第一次参加CASP比赛,还是新手,为了准备CASP 15提前半年在CAMEO上做了很多测试,我们参赛成员包括几个博士、硕士研究生。
通过本届参赛经验,从下一届开始我们需要更好的组织。
在CASP 15竞赛中,我们参加的赛道比较多,除了RNA和配体之外,其他的赛道基本上都参加了。
准确性评估的EMA实际上也是一个新的赛道,只是不像RNA、配体一样显著,这个赛道的评测主要是用三个词表,一个是QScore,一个是Score,一个是pLDDT。
QScore来自于Complex,也就是复合物领域中的一个评测指标,侧重于衡量interface的docking的分数。而Score主要衡量整个蛋白质复合物结构的精度。
pLDDT侧重的是残基级的精度。在CASP15中,我们组在pLDDT指标上领先幅度很大,这主要是得益于新的超快形状设别(USA)特征,采用了CASP 14以来的最新网络,自己也生成了一批训练数据,从而捕获残基集的误差。
残基级误差在药物研发中非常重要,因为它可以用来实现refinement过程,从而获得高精度的结构模型。
在Score方面,我们的指标没有排在前面,这也是刚刚提到的问题,算力。在CASP15竞赛期间,信息工程学院、学科给了我们很多算力支持,学院计算中心三分之二的算力都是我们在使用。
即使是这样,我们完整的AI模型也是在CASP 15结束之后才真正训练完成。我们现在也在积极复盘,查漏补缺。
pLDDT,包括 QScore我们也进行了分析,如果要提升精度,就要考虑接口处残基的数量、残基的互作,结合pLDDT指标,以及我们单序列平均pLDDT,复合物平均pLDDT这些特征都要考虑。
在单域、多域和复合物上面,我们的表现一般,在这里也恭喜郑伟博士和杨建益老师,做的非常棒。
一个最主要的原因就是AlphaFold2,MSA非常关键,而且需要大量的算力来做预训练模型,我们没有关注这方面。我们考虑的是设计蛋白质结构模式的辨识方法,通过盲测去验证想法的性能,确认它到是不是源于现有的PDB数据库的设想。
这也是一个非常久远的命题,但我认为随着共进化技术的发展,模板建模方法还会峰回路转,受到更多关注。考虑到现有算力、算法设想,我们对MSA没有做任何改动。从CASP 15来看,这两点非常重要,也是我们未来努力的方向。
王晟:张贵军老师提到一个非常重要的点:MSA的quality。
我在2020年CASP 14的比赛上的一次国际报告中,介绍当年我们TFold方法的Pros and cons时,我也讲了和张贵军老师类似的观点,就是MSA对于整个大分子,包括蛋白和RNA等的结构预测的重要性非常关键。
我们当时还做了很多的实验,用一个非常浅的MSA或是用包含了更多进化的序列跑相同的算法,其质量是完全不同的。
不仅如此,如果用一个相同的算法搜相同的数据库,但是使用不同的参数、不同的迭代次数、不同的e-value、不同的Z-score搜索MSA,它的质量都会很不一样。
这是一个非常有意思的问题,我们还要对它进行本质上的探索。
郑伟:刚才王晟师兄和张贵军老师都提到了MSA的重要性。就我们课题组而言,在MSA领域也做了几年的工作,总结了一些数据和算法,也开发了一些工具专门做MSA。
比如我们的DeepMSA算法以及最新的DeepMSA 2,这些算法采用了常规的基因组和宏基因组,用不同的工具来组合构建MSA。
我们认为MSA确实很重要,它不仅对结构预测这个问题很重要,放眼整个生物信息学领域,很多基础的预测问题,比如早些年的功能预测、位点预测等,很多的时候都要依赖PSSM,而PSSM则依赖于MSA的效果。
我个人认为MSA是整个生物信息学的基础,只要MSA做好了,无论是对结构预测,还是对生物信息学里的其他基础问题,都有很大帮助。
对于单体预测上一些较困难的蛋白,其同源序列的数目不够多导致了预测难度比较大。如果给 AlphaFold2两个target,其中一个MSA序列较少,另一个MSA序列较多,一般来说MSA序列较少的target结果会更差,MSA的质量很大程度上会影响target的难度。
今年CASP 15的assessor还专门提供了一张清单,上面整理了一些Top group成功的标签,其中MSA在Top5的group中都出现了,我觉得在未来MSA也会越来越引起大家的重视。
今年我们课题组算是第一次参加蛋白质复合体的赛道,得益于此前在单体上的算法积累和MSA的积累,虽然是第一次参加但是也取得了比较理想的成绩,MSA可以说是我们今年在比赛中获得成功的重要因素之一。
CASP比赛对我而不仅仅是一个比赛,同时也是一个比较好的学习机会。因为CASP比赛的时间比较集中,有三四个月的时间可以全身心地投入到比赛中。
平时做蛋白质预测、做的都是针对general蛋白的算法,可能关注不到某个蛋白的特性或生物学背景,但是在比赛中每做一个 target都会去研究这些,在比赛中能学到很多不同target蛋白生物学方面的新知识。
刚才很多老师提到课题组参赛的人数比较少,我今年的体会也比较深,因为实验室调整,我们今年不是以实验室整体去参赛,而是以个人的名义代表实验室参赛。
整个CASP 15期间,无论是前期的算法开发,还是比赛期间服务器、算法运行,都是我一个人在负责,服务器出现各种问题都需要我去和管理员沟通。
我在比赛期间睡觉时间非常少,一天最多只有六个小时的睡眠,每工作四小时就睡两小时这样轮转。如果人力有限的话,一个人参加多个赛道是非常耗费时间和精力的事情,对体力的要求也比较高。
另一个体会比较深的是,大家一直在提的算力局限性,学界的算力肯定不比工业界,这对比赛的影响还是很大的。
我们今年显卡个数也是比较有限,只有二三十张,所以参赛之前的很多想法,由于算力的局限都没有来得及去实现,比赛过程中很多工作都是一边摸索着一边做的,这是很大的遗憾。
将来如果有机会得到更多的算力,我想不仅是我,还有各位老师也会去尝试更多优秀的想法。
王晟:关于算力的问题,我们也在公司内部进行过一些探索的,考虑是不是所有的target都要堆算力去做,如果遇到某些搜不出同源模板的,或者根本就不存在相似fold的结构,这个结构或许是蛋白,或许是RNA,是不是堆更多的算力,或者训练一个更复杂的AI模型就能搞定?或者有没有别的方法来搞定这些target?
熊鹏:这次RNA比赛一共12个题目,分成三组,一组是天然的RNA序列,一组是人工设计的RNA序列,一组是蛋白质和RNA的复合物。我们最大的收获来自于人工设计的那一组RNA,一共有4个题目。
首先,相比其他的小组,我们在这四个题目上积累了很大的优势,使用我们自己的方法来预测这种人工设计的RNA,精度会远远高于其他的组。
以前的RNA设计并没有进入公众的视野,大家听得比较多的是蛋白质设计,比如David Baker组,他们开发了Rosetta工具,得到了很多蛋白质设计的成功案例。这次比赛中,来自斯坦福的实验室通过自己的方法人工设计出了一些RNA。
我们也是通过这次比赛来解开这些题目,研究这些RNA的来源,怎么被设计出来,从而摸索出了一套RNA设计的策略。对我自己来说打开了一扇新的大门,学到了很多新的东西。
比较遗憾的是第三组题目,蛋白质和RNA的复合物。这个方向一直都是我过去非常感兴趣的方向,我也一直想将蛋白质和RNA这两个领域统一起来,做统一的结构预测,以及统一复合物设计。
但很遗憾的是,这项工作的工作量比较大,构想也太过庞大,目前为止还没有完成。
我们原本打算在比赛中迅速开发出一个简易的版本,去实现那两个target的预测,但是发现没那么容易,匆忙的一两个、一两周或者一个月的时间,确实不足以开发出一套可行的程序,最终那两个target做得也比较差。
这个问题也并不是我们一个组的问题,对所有的组来说,蛋白质和RNA的复合物预测的都不是很好,这也是整个领域目前面临的难题。
但这个方向特别重要,因为生物体内很多功能的RNA分子或者蛋白质分子都是通过蛋白和核酸的相互作用来实现功能的。
比如基因编辑或者基因调控,涉及到的核心问题就是RNA和蛋白质的相互作用,这些问题目前都还没有解决。
未来还需要各位做蛋白质研究和做RNA研究的人一起协作,共同解决这些问题。
另外,前面几位老师都提到MSA,它对于蛋白质的结构预测至关重要,也是我们实现从过去的基于同源建模的方法到基于evolutionary coupling共进化的方法这一突破的核心角色。
MSA在RNA的结构预测中也受到了广泛的关注,但它究竟能起多大作用目前在学术圈内还有着较大的争议。
有人认为MSA对RNA结构预测的影响像在蛋白质结构预测中一样大,我们现在做得不好是因为MSA构建的还不够好,只要我们构建出更加优质的MSA,就能够提供更多的contact information或是orientation的information。
另外一派认为在RNA结构预测中的的MSA,可能只对二级结构预测或base pair的预测有帮助。对于其他的相互作用,MSA提供不了任何信息。
现在学术圈还没有达成共识,不同人的看法也不一样,大家在各自的想法上进行了尝试,目前还没有定论。
RNA结构预测问题跟蛋白质还是不一样的,很多未知的东西还需要大家以后去解决。
王晟:CASP15比赛新增了两个重要赛道,蛋白质-小分子的复合物预测以及RNA结构预测。在RNA结构预测方面,哪些方向能因此受益而加速突破?RNA结构预测的研究能够怎样推动RNA相关疗法、合成生物学的发展?类似AlphaFold2引爆蛋白质单体结构预测的革命,能否燃烧到RNA领域?
常珊:虽然我没有参加,但是我原来在密苏里大学时,我的博士后导师邹晓琴和陈世杰老师是夫妻,他们两人的学生之间经常交流,所以我也了解了一些相关技术。
我们在江苏理工学院生物信息与医药工程研究所的团队里,刚好有一个成员是陈世杰老师的博士后,他的博士、博士后期间都是在陈老师的实验室,加入我们团队后主要负责RNA的结构预测。
他是物理学的背景,跟熊博士是一样的,所以他采用的也是物理模型--先构建二级结构,再考虑怎么把三级结构预测得更准确一些。
我认为AI在RNA结构领域的能力,还没有比肩AlphaFold2,在这个领域内,物理模型还是一个主流模型。
从这次比赛的情况来看,RNA结构预测的精度和蛋白质结构预测的精度相比,差距还比较大。为什么?
首先,RNA结构预测精度太低,拉低RNA-ligand预测结果。
我们参加ligand的赛道时,有几个受体不是蛋白质而是RNA结构,我们当时并不预测RNA的结构,就用组委会公开的其他小组预测的结构做了ligand相互作用的预测。
从最终看公布的结果来看,RNA的结构预测偏差实在太大了,这也导致了我们ligand预测的失败。
我们是受到了RNA结构预测不准确的牵连,受体都不准确的话,配体怎么可能会准确?
我认为,未来做RNA结构预测的人要和做蛋白质结构预测的人密切合作,才能把ligand做得更好。
不论是蛋白质还是RNA的结构预测做的不好,都会影响ligand相互作用的预测。
其次,我们也做了蛋白质和RNA相互作用的预测,在比赛结果中,其中一个target我们组排在前面,我非常意外,因为当时我们自己没有做RNA结构预测,直接将其他组的RNA结构预测的结果和蛋白做了相互作用。
虽然排名靠前,但误差也20埃左右,属于五十步笑百步。只是大家在这一项上的误差都非常大,我们错的稍微少一点点,就被排到了前面。
RNA结构预测的领域迫切地需要引入其他技术,否则其精度暂时会落后于蛋白质结构预测。
王晟:CASP15之所以推出了RNA结构预测赛道,也就是借比赛,进一步提高大家对RNA结构预测的关注,提高RNA预测精度,推动整个领域的落地,即RNA疗法以及合成生物学。
常珊教授讲的这两点非常有意思。
第一点是RNA和小分子。目前常见的RNA药物,小RNA、寡RNA、RNA疫苗等等,基本都是利用其线性作用的特性,而不是利用其空间结构。
但真实场景下的RNA,都是通过其复杂、动态的结构发挥重要功能的,如果我们能够准确地捕获它的复杂动态结构,理论上就可以像蛋白质-小分子药物一样,设计出专门针对RNA小分子的药物,从而target巨头调控作用的RNA,不论是在疾病治疗还是其他领域,都有着非常重要的作用。
第二点,RNA-蛋白质的相互作用预测,对于合成生物学至关重要。
比如如何构造调控网络、如何理解RNA和蛋白之间的作用机制、能否设计更好的结构,让蛋白质表达得更多、如何调控transfer factor,设计出能够与RNA特异序列结合的蛋白质(RNA-binding proteins),以及构建出优越的底盘细胞(底盘细胞的选择和优化,是合成生物学链条上的核心步骤)。
张贵军:刚才熊鹏博士的发言我非常认同。
虽然蛋白质结构预测目前已经达到比较可观的精度,但我们还要考虑其动态性。
在生物体内,蛋白并非静止状态,而是时刻通过PPI相互作用,通过一致的原动力:电磁力导致最终形态发生变化,最终实现信号传导。
多态性是RNA和蛋白质同样面临的问题,蛋白在多态性方面的研究可能有助于提高RNA结构预测精度。
此外,目前RNA的数据不及蛋白质的数据全面。在蛋白质结构预测的数据库中,如今已经存在大量结构,且许多结构已经被证实是完备的。
在这种情况下,通过物理化学建模方法超越AI是有可能的。将来随着数据的增加或是新技术的突破,RNA结构预测也将会有所提升。
如同蛋白质结构预测的发展历程一样,在最初的CASP竞赛中,大家也曾质疑过是否能通过计算机来模拟蛋白质结构,这一点近年来已经得到证实,我相信未来RNA也可以达到这个水平。
我个人感觉RNA和蛋白质的相互作用非常重要,长期以来大家很关注基因组研究,一直被忽略的RNA为什么突然受到这么多关注?之前在技术上当然有一定难度。
然而,从药物研发的角度来讲,RNA起到的是桥梁的作用,同时又具有多态性,目前的药物靶标大部分还是蛋白靶标,未来RNA药物会是一片蓝海,有着广阔的落地场景。
郑伟:我没有参加RNA的赛道,对RNA研究也不是特别多,在这方面肯定没有熊鹏师兄这么有权威性,我谈一些简单的看法。
张贵军老师刚才谈到的蛋白质结构或者RNA结构所具备的多态性,或者我们可以叫变构,在CASP 15之前,组委会准备设置一个蛋白质变构赛道,但是比赛中并没有出现target,相当于这个赛道被取消了。
在CASP 15结束后,组委会成立了一个单独的蛋白质变构讨论组,对这个方向的讨论更多了,不知明年是否会单独设置相关赛道。
这也意味着,无论是蛋白质变构还是更遥远RNA变构,都是未来潜在的研究方向。
我记得贵军老师和西湖大学李子清老师,最近发了一篇蛋白质变构文章(Multiple conformational states assembly of multidomain proteins using evolutionary algorithm based on structural analogues and sequential homologues)。
总体而言,变构方面的研究太少,希望CASP16之后会有很大的变化。
此外,张贵军老师提到的RNA对制药领域或相关疗法的影响,我个人认为都非常对。以往的药物靶点大部分都是蛋白质靶点,但实际上RNA会成为一个比较好的潜在靶点,通过阻断RNA表达或阻断RNA与蛋白质形成复合物,从而阻断蛋白质形成功能,其疗效或许会更好。
未来研究RNA成为小分子靶点,在医药领域的落地也许会有比较好的发展。
刚才王晟博士提到一个问题,AlphaFold2预测蛋白精度比较高,RNA领域是否也会出现类似的机器学习算法,在未来引发RNA结构预测的革命?
我认为短时间内可能不太容易出现一个纯深度学习、全自动、不依赖任何人工参与,同时能够达到AlphaFold2相同精度的算法。
AlphaFold2能够成为一个很成功的深度学习框架,其中一个关键因素是具备大量的实验结构支撑其深度学习的训练。
AlphaFold2使用的PDB数据库已经建立了50多年,其中积累了数十万个实验解析的蛋白质结构,这样大规模的蛋白质数据能够为深度学习提供比较好的训练基础。
但PDB数据库中已经解析出来的非冗余的RNA结构只有数千规模,在没有大规模数据支撑的前提下,想要开发一个全依赖于深度学习框架的RNA结构预测算法,短时间内很难达到AlphaFold2的水平。
当然,这并不影响大家对深度学习框架的探索,比如一些课题组开发了基于距离约束的算法,还有课题组在尝试RNA的端到端的学习。
王晟:我补充一点。郑伟博士刚才讲到的几点,都是参考AlphaFold2框架做RNA结构预测。
智峪生科这次有一支参赛队伍就是采用了AlphaFold2的框架来做RNA三维结构的预测,叫做AIchemy-RNA。
从结果来看,虽然取得了AI方法中的第一名,但和物理的方法相比确实还是要差一些,原因正如刚刚郑博士所讲,主要在于数据量的问题,这是一个很大的约束条件。
其次,之前熊博士也讲到,对RNA的结构预测来说,MSA的影响是否像在蛋白质结构预测中一样强还是未知数。
第三,AlphaFold2的成功不仅仅在于其端对端的架构,而是将所有人类已知的序列信息利用起来了,使用了类似半监督学习的框架。
在这次比赛中,我们也把RNA的序列以及通过实验测得的二级结构等信息加入到模型之中。
从结果来看,虽然比不上物理的方法,但是在这次采取AI方法的参赛队伍中表现还是非常不错的。我们做的更好的是熊鹏老师的物理方法。
未来我们非常期待把AI的方法和物理的方法结合起来,取得更好的成绩。
熊鹏:首先说明一点,虽然我们这一组的方法在CASP 15的RNA组中获得了第一名,但是它的绝对精度并不高。
比如前面我们提到的两个RNA和蛋白质的复合物的结构,我们的误差在20埃左右,拓扑都是错的。
我们预测得比较好的target,比如人工设计的RNA,或者是几个天然的risen,精度在5埃、6埃左右,相对于蛋白质的结构预测精度还有很大的一段距离,而距离应用就更远了。
如果要实现RNA结构计算相关的应用,精度最好控制在两三埃左右,不论是对小分子设计还是对RNA的功能设计,都会有比较大的帮助。
所以,现阶段的水平离具体的应用依然有一定差距。
如果要从根本上去解决RNA预测精度的问题,还是需要神经网络直接学习RNA折叠的驱动力,也就是使用神经网络方法去训练一个精度更高的立场,但我自己并没有做太多的尝试,各位做神经网络的专家可以往这个方面尝试一下。
如果RNA的精度能够达到跟蛋白质预测差不多的水平,它应用方向到底哪里?在生物医药方面的应用主要在三个领域。
首先是大家关心最多的就是mRNA的优化或设计,这涉及到蛋白质的密码子优化的问题,以及mRNA稳定性的问题,这与RNA的结构在溶液中的状态也有很大关系。
当然,这个问题通过非结构的方法也许能够获得一些信息,但是有结构之后,能够对RNA的折叠判断更加准确,这对于mRNA的优化将会有非常大帮助。
第二个方向是针对RNA的target,或是针对RNA的小分子药物设计。在做药物的过程中,部分靶点很难找到小分子结合口袋,即不可成药靶点。
对于这些靶点来说,如果不直接抑制其蛋白质,而是去抑制控制蛋白质表达的Non-coding区,则为药物开发提供了新的思路。
这个方向依赖于两件事,第一是控制蛋白质基因表达,预测其准确的三级结构,第二是解决RNA和小分子的相互作用问题,针对特定的Non-coding区设计特定的小分子。这个方向国内有很多老师都在做尝试。
第三个方向是以RNA本身作为药物进入人体内发挥功能。目前的置放药物主要还是通过基因匹配抑制相关的基因表达。或是RNA本身作为功能分子实现基因调控、基因剪切等。比如设计特定的RNA切割特定位点,作为基因治疗的药物使用。
据我了解,有些组在尝试开发纯RNA的分子做基因编辑。目前基因编辑主要还是通过CAS蛋白体系,即蛋白质复合物+guide RNA,编辑特定的序列。如果我们直接设计一个纯RNA的分子,识别特定的位点,执行精编辑的功能,在理论上也是可行的。
总结一下这三个方向,第一是通过计算的方法优化mRNA的蛋白表达,优化其稳定性;第二是针对RNA target的药物设计;第三是将RNA本身作为新型药物。
雷峰网《医健AI掘金志》将于近日推出《GAIR Live | CASP 15冠军大论道:结构预测的下一个里程碑,将在何处?|(下篇)》,聚焦本届两大新增赛道:蛋白质-小分子复合体预测和RNA结构预测在应用层面的潜力,探讨当下火热的AIGC技术在AI生命科学领域的可能性,欢迎各位读者朋友关注。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。