0
“有些进入AI制药行业的人,尤其是风险投资者。他们只有计算机的背景,缺乏药学背景,并不真正了解药物设计,只是在跟风炒作一个概念。”
华东理工大学药学院教授唐赟在计算机辅助药物设计、化学信息学、网络药理学、计算毒理学、计算生物学等领域深耕多年。在此次对话中,唐赟也向《医健AI掘金志》表达了他对于AI制药行业当前情况的担忧。
唐赟教授毕业于中国科学院上海药物研究所,师从中国科学院院士陈凯先先生,曾先后在瑞典卡罗林医学院、美国国家卫生研究院癌症研究所等机构从事研究工作。
2004年,唐赟回国任复旦大学教授,后受中国科学院院士蒋华良邀请,协助创建华东理工大学药学院。
ChatGPT的出现,让AI制药重回三年前爆火时的盛况。
在今年的春季GTC大会上,英伟达宣布将与三井物产株式会社(Mitsui)就Tokyo-1项目合作,通过高分辨率分子动力学模拟和AIGC等技术,提高日本制药实力;
百度文心一言首个落地医药行业的产品GBI-Bot(医药垂类对话机器人)也于近期发布,基于百度灵医智惠在医疗健康行业的技术积累,实现了文心一言与GBI专业数据库的有机结合。
越来越多的资本涌入AI制药行业,试图在AlphaFold2之后,再次借助AIGC技术掀起生命科学领域新的革命。
但繁荣背后也有声音指出,“AI药物研发领域充满了投资人用钱堆出的泡沫,很快将要迎来自证实力的过渡期。”
唐赟指出,药物研发自有其发展规律,一些投资人期待两三年就能从中得到回报,这是不现实的,AI技术驱动研发的药物距离上市至少还要五年时间。
这个行业,还要经过一场大浪淘沙。
近日,雷峰网(公众号:雷峰网)&《医健AI掘金志》推出《AI制药十人谈》系列,探究AI制药的前景与隐忧。
以下为《医健AI掘金志》与唐赟的对话内容,《医健AI掘金志》做了不改变原意的编辑与整理。
医健AI掘金志:您早在1991年研究生期间就曾进行过计算机、神经网络等在药物设计中的应用相关研究,是国内非常早期进行这一领域研究的学者,您是怎么开始在药物设计的过程中尝试计算机相关技术的?
唐赟:我本科毕业于同济大学应用化学专业,当时中国科学院上海药物研究所的陈凯先先生刚从国外回来工作不久,只有四十多岁,是国内最早一批进行计算机辅助药物设计(CADD)的学者之一。
我本科的老师说,陈先生年轻有为,有很多好的想法,跟着他一定没错,我就报考了中科院上海药物所陈先生的研究生。
我从1991年读研究生开始,到1996年博士毕业,五年的时间专门跟陈先生学习计算机辅助药物设计。
当时做这个方向研究的人很少,也很少有学生会选择这样一个方向,我那时候对药物设计也不是很懂,但是我们相信跟着陈先生一定能做出一些东西来。
一入学,陈先生就给了我几篇英文文献,是他与国外同行交流时收到的文章单行本,就成为了我的第一个课题,将神经网络方法应用到药物定量构效关系(QSAR)研究中。
当时学习这个很艰苦,能找到的资料非常有限,也没有软件,我就自己学习用C语言写了一个有1400多行的神经网络计算程序,后来用这个程序发表了3篇英文文章。
没想到神经网络现在又火起来了,变成了深度学习,并带动了AI制药的发展。
之后陈凯先先生又带领我们参加了国家“863”计划的第一个药物设计项目“基于蛋白质和核酸三维结构知识的药物设计”,其中我主要承担了两个方面的研究。
首先是“G蛋白偶联受体(GPCR)三维结构模建和药物作用机制”的研究,我们是国内最早做“GPCR同源模建”的团队。
中国科学院院士金国章教授,当时正在研究“左旋千金藤啶碱(l-SPD)对多巴胺受体亚型结构的选择性”问题,我们帮助金院士模建了多巴胺D1、D2受体亚型结构,将左旋千金藤啶碱与多巴胺受体相结合的几个场景单独取出来,用量子力学半经验分子轨道法进行计算,并探索了四氢小檗碱类似物的选择性机制,帮助金国章院士解决了这个问题。
当时,我们还与池志强院士合作,模建了μ阿片受体三维结构,并预测了羟甲芬太尼的三个可能结合位点,后来经过点突变实验对此进行了证实。
其次,我采用三维定量构效关系(3D-QSAR)的方法,为氟喹诺酮类药物的结构改造提供了重要信息。
上海药物研究所2009年上市的安妥沙星,早期的研究工作就有我的参与,研发人员在我们研究的3D-QSAR指导之下,合成了比氧氟沙星具有更好抗菌活性的药物分子。
1996年,在“863”计划十周年成果展上,上海药物所将这些工作作为成果进行了汇报展示,受到好评,并于1997年获得中国科学院自然科学二等奖。
大家以前都觉得计算机辅助药物设计离自己很远,和日常的新药研究没有什么关系。
通过我们在“863”项目中取得的研究成果,上海药物所的药物化学家和药理学家也逐渐认可了计算机辅助药物设计的价值。
如果只是口头介绍这个东西有价值,别人看不到它的效果,是不会认可的,我们必须拿出实际的案例才有说服力。
我们做了非常多类似的基础性工作,推动计算机辅助药物设计在药物研发中的应用。
同时,由于当时国内做“计算机辅助药物设计”的人非常少,我在做研究的同时,也做了很多知识普及类的工作,把国外这一领域的文献、知识写成中文综述发表出来,一共有十来篇。
1996年,我博士毕业出国后,我的师兄蒋华良院士在国内继续推动相关工作,并于2000年成立了“药物发现与设计中心”,现在计算机辅助药物设计这个学科已经发展得非常好了。
医健AI掘金志:AI制药是一个交叉型的领域,更需要具有药物研发与AI交叉背景的从业者,华东理工大学药学院在培养交叉型人才的学科建设和师资配置、教学方案等方面,您有何心得?
唐赟:我2004年回国,开始是在复旦大学药学院任教,后来师兄蒋华良院士找到我,邀请我和他一起到华东理工大学新建一个药学院。
建院时的想法就是将药物设计作为药学学科的特色方向,并且聘请多名上海药物所药物设计方向毕业的博士来充实师资队伍。
2004年的时候,国内已经有不少人在做药物设计,但还没有系统性培养学生的方案。
我们当时就已经意识到国家将来肯定需要这方面的人才,所以很早就开始培养这个方向的学生,目标就是为张江药谷培养药物设计人才。
2005年到2015年这十年间,我一直在管理本科教学,牵头创办了药学专业,将药物设计学及药物设计实验作为本科生的必修课程,成为国内本科药学专业中最早开设相关必修课程的高校之一。
从2006年起,本科生正式开始上药物设计理论课和实验课,由我和我团队里的几个教师一起授课,讲义也是我们自己编写的,还有一些配套的课程,这样培养的本科生具有较好的理论知识和动手能力,有许多毕业生后来选择在药物设计方向进行深造。
我根据多年教学经验编写的《药物设计学》教材,2020年由化学工业出版社出版;我们编写的“药物设计实验”教程则包含在我主编的《药学专业实验》中,也在2020年由化学工业出版社出版。
在研究生培养方面,我非常注重对学生专业知识和技能的培养,既强化学生的新药研发背景知识,也要修一些计算机、数学类的课程,掌握编程的基本功,AI如今已成为学生们需要掌握的基本技能。
因此,我们实验室培养的研究生都具有较好的药物设计能力,深受业界欢迎。
现在我们课题组已经培养了近百名硕博生进入业界,恒瑞医药、翰森药业、海雁医药、药明康德、康龙化成、晶泰科技等等,不论传统药企还是新兴的AI制药公司,都有我们的学生。我平时到外面做报告、讲课的时候,总有制药公司的人来问我要学生。
医健AI掘金志:在AI制药领域,您和您的团队与业界之间有哪些比较印象深刻的合作项目?
唐赟:前几年和企业的合作不太多,这几年AI火起来了,找上门来合作的人就多了。
去年我们和重庆药友制药公司建立了合作,这是上海复星医药旗下一个全资医药公司,华东理工大学有很多校友在药友制药工作,他们的董事长刘强也是其中之一。
药友制药内部做药物设计的人不多,又想做创新药,于是就回母校来找我合作。
这是一个抗乙肝病毒的药物设计研究,我们利用深度学习方法,对一些活性已知的抗乙肝病毒的分子结构进行学习,生成了一批类似的分子结构,药友制药从中选择了一部分进行合成与生物活性测试,测试的结果他们非常满意。
我们提供的这些设计分子的方法,其中有一些还没有实际应用过,不知道设计分子的效果如何,但最后出来的结果很好,他们很满意,我们也很满意,因为证实了我们方法的价值。
目前他们正在和我们谈第二个合作项目,肿瘤药物的分子设计研究。
另一家做AI制药的公司索智生物,总部在嘉兴,在上海有分部,也跟我们合作过一年多。
索智生物对我们的网络药理学方法感兴趣,将我们的方法植入到他们自己的分子设计平台中,作为他们的研究工具之一去设计药物分子。
随后他们在成立不到两年的时间里,已获得3个PCC(临床前候选化合物)分子,进展很不错。
学校和企业之间是互惠互利的关系,我们为企业提供先进的研究方法,企业为我们提供具有实际需求的课题和实验验证的机会。
以前没有和企业合作的时候,我们研究出来的方法只能发篇文章就结束了,也没办法了解它的效果。现在通过与企业的合作,能够将研究成果向产业转化方向再推进一步。
相应地,企业把他们的需求告诉我们,我们利用AI等方法技术帮他们解决难题,也能将风险前置,从而降低分子合成与后期验证的成本。
医健AI掘金志:从计算机工具到AI工具的变革,对药物设计产生了哪些推动作用?
唐赟:现在行业里很多人号称在做AIDD(人工智能药物发现),实际上却并不是真正地了解这个行业的背景知识,而是最近两三年才“改行”进入这个行业。
他们有计算机背景,但是缺乏药学背景。
以我的理解,不论CADD(计算机辅助药物设计),还是AIDD,都是做药物设计,但药物设计应该包括两个方面:一是结构驱动,二是数据驱动。
传统的CADD是基于分子模拟技术,通过计算机的模拟、计算和预测药物与靶标之间的相互作用,从而设计和优化先导化合物结构,这叫做结构驱动。
新兴的AIDD是基于AI技术,叫做数据驱动。CADD中也有数据驱动,叫做QSAR,AIDD就是QSAR的延伸,是CADD的一部分。
现在很多人把CADD和AIDD当作两种事物来看,有的人甚至将二者对立起来,这是不对的,AIDD只是CADD的一个高级阶段。
我在外面参加学术交流时一直说,结构驱动与数据驱动,相当于一个硬币的两面,缺一不可,不能把它们割裂开来。
我们在做药物设计的时候,肯定是不能只靠数据驱动这一样东西,必须要采用一些传统的CADD技术。
现在只是因为进入了大数据和人工智能(AI)的时代,才会出现这个AIDD的概念。也是由于AIDD的出现,让世界范围内更多的人关注药物研发这个领域。
我们以前做CADD的时候,默默无闻,没有人关注我们做什么,只能通过国家自然科学基金等申请一些小的科研课题。
那时候搞新药研发的企业也不多,我们想和企业进行合作也比较困难。
AIDD出现后,这个行业才受到更多的重视,找上门来合作的企业也越来越多,研究资金也要多一些。
粗略统计,截至2022年底国内已经成立了73家AI制药公司,其中大部分成立于2019年—2021年间,也为行业引入了更多的风险资金,推动了整个行业的发展。
但是我对目前的情况也有一些忧虑,很多进入这个行业的人,尤其是风险投资者,有些只有计算机的背景,缺乏药学背景,并不真正了解药物设计,只是在炒作一个概念,有些急功近利。
有人认为只要两三年就做出新药开始盈利,这是不现实的。甚至有些公司的目标并不是去做出几款新药,而是想借助这个风口吸引到更多的资金,尽早上市。
将来一定会大浪淘沙,一些企业会倒闭,一些资金会退出去,最终留下的才是真正做药物研发的企业,毕竟我们制药人的初衷是做成药,做好药。
医健AI掘金志:虚拟筛选是先导化合物发现的主流方法,去年您的团队发布的适用于虚拟筛选的wSDTNBI算法,获得药明康德生命化学研究奖,这项新研究主要解决了虚拟筛选中的哪些问题?
唐赟:这是我们提出的一个新的虚拟筛选途径。传统的虚拟筛选途径:一个是基于靶标结构的方法,一个是基于配体的方法。虽然都取得了一定的成功,但也存在一些局限性。
比如,基于靶标结构的虚拟筛选,严重依赖于靶标的三维结构,如果找不到这个靶标结构的话,最终效果就要大打折扣。
从目前的情况来看,绝大部分靶标的蛋白结构还没有被测定出来。
虽然AlphaFold2号称已经预测出2亿多个蛋白的结构,在蛋白质结构预测方面取得了很大的进步,但这些结构还存在一些问题,导致应用在虚拟筛选时成功率不太高,或者说,还难以满足基于结构虚拟筛选的需要。
基于配体的虚拟筛选,则需要依赖配体阴性样本数。
这也是我们从十几年前就开始尝试解决的问题,化合物进入人体之后并没有那么听话,不是你想让它和哪个靶标作用,它就会和哪个靶标发生作用,而是可能会与人体内的很多蛋白发生作用,使结果变得不可控。
为了克服这些局限性,我们提出了“加权的基于子结构-药物-靶标网络推理(wSDTNBI)的方法”。
基于网络推理的方法,最早是应用在社会学领域中,我们学校商学院的周炜星教授,在2008年左右就开始研究社会领域中人与商品的网络关系与推荐算法。
他发现“人与商品的二元关系”和“药物与靶标的二元关系”是一样的,因此将这一方法推荐给我们。
我们也派了学生到他的团队合作学习,一起进行相关研究,在此对周教授的方法推荐表示感谢。
后来在这些研究的基础上,我们又进行了很多改进,最终形成了目前的一系列算法,也就是我们目前的研究方向--网络药理学。
相比其他虚拟筛选的方法,这个方法的优势在于,既不依赖于靶标三维结构,也不依赖于阴性样本。
我们仅仅需要使用实验测定的“药物-靶标相互作用”数据如K(i)、IC(50)值,建立药物-靶标相互作用网络,就能够完成虚拟筛选。
此外,该方法还有一些突出优点,比如可以同时针对多个靶标进行虚拟筛选,了解化合物的多向药理学性质,运算速度非常快。
在我们的案例中,利用wSDTNBI方法仅耗费数十秒时间,就完成了超过一万三千个化合物和近两千个人体靶标之间的相互作用预测。
这项研究成果2022年初发表在Chemical Science上,算法已整合到我们团队研发的免费在线预测系统NetInfer中(http://lmmd.ecust.edu.cn/netinfer/)。
使用wSDTNBI方法进行活性化合物筛选的示意图
医健AI掘金志:目前AI驱动研发的药物有些已经进入临床阶段,您认为AI技术在药物研发过程中,哪些工作是不可取代的?相比传统手段,AI技术更高效的成果是什么?
唐赟:这个问题要从AI的概念上入手去理解,AI的优势在于,可以对大量的数据进行学习,透过现象找到其内在联系,这是人工所难以做到的。
而药物分子设计过程,实际上是一个多目标优化的过程。既要使设计的分子具有良好的生物活性和安全性,又要保证分子具有良好的化学稳定性和药代动力学性质。
这个多目标优化过程就会涉及到大量数据处理的环节,AI承担着不可替代的作用,比如QSAR的作用就是如此。
我三十年前就在做这方面的工作,那时候还没有AIDD的概念,QSAR还属于CADD的范畴,但实际上,AI就是在QSAR的基础上进行的更深入的研究,因此在药代动力学和毒性预测、分子结构生成、虚拟筛选等方面具有自己的独特优势。
医健AI掘金志:虽然已经有少数药物进入临床阶段,但到目前为止,AI驱动研发的药物仍然没有一款成功获批上市,AI技术研发的药物距离上市还有多远?
唐赟:AIDD技术在发现药物的过程中会起到很大的作用。我也看到一些统计数字,比如一个药物研发项目,从启动到进入临床研究阶段,传统管线要五六年,现在利用AI制药技术可以缩短到一~二年。
这就是AIDD的优势,主要体现在药物发现的阶段。
但后期的临床试验阶段仍然要占据很多的时间,而AI技术在临床阶段能起到的作用却十分有限。
因为临床试验的工作仍然需要人工来完成,无法依靠AI技术来大幅缩短时间。
目前市面上已有一些公司,声称旗下进入临床研究阶段的候选药物是通过AI技术研发的,却一直没有药物成功上市,就是因为后期的临床试验阶段非常困难,我估计至少还要5年才能走完这个流程。
乐观估计,未来5至10年内,应该会有AI驱动研发的药物上市,毕竟AI这个概念进入药物研发领域也才短短几年时间。新药研发有自身的规律,还需时间来验证。
在药物发现的环节,AI技术也面临着一些困难,尤其是数据不足的问题。
AIDD本身要依赖大量的数据进行工作,但在新药研发领域,目前的数据量只在中小规模之间。
在以往的会议讨论中,我也提出过一个观点,就是AIDD未来的发展需要行业内部共享数据。
但很多制药公司不会把自己的数据公布出来,这是最要命的东西,即便是自己用不上的数据,也藏得像个宝贝一样,不会拿出来和人共享。
打破行业壁垒的关键就在于数据共享,目前行业中每个人都掌握了一些数据,但每个人的数据又都只有一部分。
我们在高校做研究,也只能用公开的一小部分数据,建模只能用公开数据,这对模型的准确率影响很大,只能达到百分之八九十。
数据、算法、算力是人工智能三要素,其中的关键就是数据,数据的质量与数量都非常重要,只要在数据上取得突破,其他问题都会跟着突破的。
医健AI掘金志:您对计算生物学有十分深入的研究,三年前AlphaFold2横空出世,掀起了蛋白质结构预测领域的革命,如今以ChatGPT为代表的AIGC技术再次引爆全球,您觉得将为行业带来什么样的影响?
唐赟:AlphaFold2的出现,提高了制药领域对AI技术的关注度,以往蛋白质结构预测是非常困难的事情。
同时,尽管AlphaFold2在这方面已经取得了很大的成功,但目前也只能预测一些单体蛋白,而多聚体蛋白或蛋白复合物,以及蛋白各亚基之间的结合模式的预测,AlphaFold2目前还难以实现。
毕竟,目前PDB库中虽然有超过二十万个蛋白结构,但其中只有八万多个纯蛋白,人体蛋白更是仅有三千个,更多的则是一些容易测定的蛋白与不同配体形成的复合物。等将来PDB库中的纯蛋白结构更多一些,AlphaFold2预测的结构也会更加准确些。
AIGC技术也是如此,分子结构生成就属于AIGC的一种,通过使用者输入的结构去随机生成一些相似结构,但它也很难去产生一个完全新的结构。
AI技术就是这样,你输入了哪些东西,它才能学习到哪些东西,再据此进行新的产出。
如果我们本身所具备的数据、知识不足,AI也不可能无中生有。所以AIGC的关键还是在数据。
但AI技术目前已经能够为我们提供很多选择,并且能够在已有的相似结构中找出最好的那一个,这也是很大的帮助。雷峰网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。