广州实验室陈红明：药企不开放化合物结构，数据共享只是「隔靴搔痒」｜AI制药十人谈

本文作者：乔燕薇

2023-06-08 16:21

导语：在数据共享中借助联邦学习技术对数据进行加密，的确可以避免泄露企业的核心数据资产：化合物结构，却也使得数据共享变成一场“隔靴搔痒”。

“大型药企在行业内耕耘多年，内部积累了非常多的数据，在AI制药这条赛道上，这些数据就是一条足够宽的‘护城河’，相比之下，AI制药公司获取数据的难度却高得多。”

陈红明博士是广州实验室研究员，曾在药企巨头阿斯利康工作十余年，在AIDD领域有着丰富的研究经历。近日，在与雷峰网《医健AI掘金志》的对话中，陈红明谈及了他的研究经历以及对AI制药行业的观点。

陈红明毕业于中科院化工冶金研究所计算化学专业，后赴德国拜耳制药公司乌帕塔尔研究中心从事博士后研究。

2001年，陈红明加入药企巨头阿斯利康（AstraZeneca）哥德堡研发中心，从事计算化学和新药开发方面的研究十余年，担任主任研究员(Principal Scientist)，主持了多个欧盟地平线2020科研项目。

2019年，陈红明回国后，全职加入生物岛实验室担任研究员。2021年5月，加入由钟南山院士领衔广州国家实验室，担任研究员。

陈红明在阿斯利康的最后几年，AI技术在制药领域开始大放异彩，他的研究兴趣也从CADD转向AIDD相关研究，并于2017年带领团队开发了业内著名的REINVENT算法。

他指出，相比近年来大批涌现的AI制药公司，以阿斯利康为代表的药企巨头，在AI制药这条赛道上有着天然的优势，他们有着多年来积累的药物数据，这是一条足够宽的“护城河”，将许多竞争者拦在门槛之外。

近日，雷峰网(公众号：雷峰网)《医健AI掘金志》推出《AI制药十人谈》系列，探究AI制药的前景与隐忧。以下为我们与陈红明的对话内容，《医健AI掘金志》做了不改变原意的编辑与整理。

《医健AI掘金志》：自1998年博士毕业投身药物研发领域以来，您经历了药物研发二十余年的变迁史。您此前工作的药企阿斯利康是最早使用AI方法进行药物开发的跨国公司之一。在您的研究历程中，是如何完成从CADD到AIDD方法的转变的？

陈红明：我最初在阿斯利康的药物发现部门的计算化学组，做一些与CADD相关的药物开发项目支持工作，在研究方向上，主要从事高通量药物筛选的数据分析，虚拟筛选以及药物性质预测等工作。

2016年，我们申请了一个欧盟的项目ExCAPE，用大规模深度学习的方法搭建预测模型，以此为契机，我开始接触深度学习中的神经网络等算法。

通过这个项目，我开始和当时在欧洲高校中做相关研究的教授和学者们，如奥地利林茨大学的Sepp Hochreiter教授，Günter Klambauer博士等进行合作，逐步转向AIDD的研究。

事实上，早在上世纪九十年代，基于定量构效关系的神经网络就曾在药物研发领域中被尝试用于分子的活性预测，但当时的神经网络技术在这项工作上表现并不太出色。

深度学习的兴起，一度让我认为AI技术将在药物性质预测，尤其是分子的生物活性预测和ADMET的性质预测等方面取得很好的效果。

抱着试试看的想法，我们开始使用深度学习的方法构建预测模型。然而，受数据问题所限，AI在药物性质预测领域虽有不错的表现，但并未取得革命性的突破。

这可能有两方面原因，一方面是制药研发领域数据获取成本非常高，导致整体数据量还不够多；

另一方面，生物实验数据本身存在实验误差，至今仍然没有一个有效的整合标准，加之开源的数据通常来自于许多不同的实验室，更是增加了数据整合的难度。

相比药物性质预测，AI在分子生成模型上的应用效果反而更好。我的研究方向开始从以往的药物性质预测转向分子生成模型和化学反应预测研究，2017年，我们团队研发了生成模型REINVENT算法（相关论文：M. Olivecrona, T. Blaschke, O. Engkvist, H. Chen, Molecular de-novo design through deep reinforcement learning, J. Cheminform., 2017, 9:48.）。

REINVENT模型使用SMILES 字符串作为分子结构的表示方法，首次使用RNN作为生成模型架构并结合了强化学习（RL）算法。

通过对这一算法的开发和实践应用，我们发现，在分子生成这一领域，深度学习和传统方法相比，已经取得了比较大的飞跃。

《医健AI掘金志》：2019年，您离开阿斯利康，加入广州国家实验室，当时有什么契机促使您做出这一决定？

陈红明：我在阿斯利康工作时，我所在的部门主要是做算法开发等工作，同时也为一些早期项目提供支持，但整体还是更偏重AI算法开发。

回国之后，我希望能够继续从事AI算法的开发工作，但考虑到在药企中工作，可能需要花费很多精力在项目上，最终还是选择了这样一个更适合做研究的机构。

我加入的是广州实验室的前身--生物岛实验室，是广东省省属的实验室。疫情爆发后，钟南山院士在广州建立了广州国家实验室，我所在的生物岛实验室大部分研究人员也转入其下管理。

《医健AI掘金志》：跨国药企与AI制药公司之间的合作情况怎么样？国内的AI制药企业一般有三种主要的商业模式，自研管线、CRO以及专门做技术平台，跨国药企对AI制药公司的CRO与AI制药软件态度如何？

陈红明：跨国药企对AI技术的态度是非常开放的，阿斯利康和其他药企近年来与AI制药公司之间常有合作，比如阿斯利康与AI技术公司BenevolentAI合作，基于AI算法寻找肾脏疾病的新药物靶点。

在服务模式上，大型药企可能更倾向于选择CRO企业，在这种合作模式之下，项目最终的评估指标非常明确。

而AI制药软件在使用的过程中，常常需要根据实际研发情况进行调整，很难以固定的模式进行工作。

因此，相比使用AI制药软件，CRO的效果更直观，也更便于评估，对大型药企来说，这种方式明显更方便。

《医健AI掘金志》：传统药企起家的公司与“跨界创业”的AI制药公司二者相比，在AI制药技术的开发上谁更具优势？

陈红明：传统药企是基于自身多年的专业积累和研发能力，在企业内部建立AI平台；AI制药公司则是以AI技术为基础搭建算法平台来做药。

我认为这两种方向各有特点，但在我个人看来，二者相比之下，大型药企开发AI平台或许会更具优势。

最根本的影响因素在于，AI药物设计是一个比较注重实验与数据的学科，企业在研发过程中每获取一个数据点，都要付出非常高昂的费用。

在医疗行业，数据属于稀缺资源，这也是医药行业区别于其他行业的地方，比如自动驾驶等行业，获取一个数据点的成本并不算高。

大型药企在行业内耕耘多年，内部积累了非常多的数据，在AI制药这条赛道上，这些数据就是一条足够宽的“护城河”。

相比之下，AI start up（指以人工智能技术为基础启动的公司）获取数据的难度却高得多。而AI start up的优势——AI技术人才，大型药企则可以通过雇佣AI人才或寻求外部合作来弥补。

《医健AI掘金志》：如您在上个问题中所讲，在AI制药领域，数据是稀缺资源，也是行业的“护城河”，药企之间能否通过数据共享的方式，打破数据对行业发展的制约？

欧洲的数据共享项目MELLODDY（Machine Learning Ledger Orchestration for Drug Discovery，机器学习分类帐编排的药物发现)，能否为国内药企提供参照？

（注：MELLODDY项目汇集杨森制药、安进、安斯泰来、阿斯利康、拜耳、勃林格殷格翰、葛兰素史克、默克、诺华和施维雅等10家顶尖制药企业，两所高校，四家初创公司，以及IT企业英伟达，旨在创建一个建模平台，在该平台上可以利用多家制药企业的数据，创建更准确的模型，以确定药物开发最有效的化合物。）

陈红明：在这个项目开启之初，大家都期待这样大规模的数据共享能够为企业的模型带来一定的提升，但我和以前阿斯利康的同事交流时，他表示相比阿斯利康自己原本的模型，提升并不算很大，这让我有一些失望。

我认为可能是由于不同公司的生化测试方法有所区别，导致数据之间存在一些系统性的误差。

此外，对药企来说，数据中最核心的化合物结构往往并不会公开，因此在数据融合的过程中也可能会存在问题。

另一个可能的原因则是，制药公司在药物靶点的选择上存在一定的共性，因此大家都集中在某些所谓热门靶点上进行分子设计，因此导致合成的分子骨架结构差别不大，那么在化学空间上的提升自然就不会很大，这也可能会导致模型的提升有限。

这是我作为局外人观察和猜测可能导致药企模型提升有限的几个原因，具体事实如何，还需进行大量的研究才能调查清楚。

MELLODDY项目这种数据共享模式暂时也不适合移植到国内，最重要的一个原因在于，国内的制药公司相比MELLODDY项目中的大型跨国药企，在数据积累上仍存在着非常大的差距。

目前比较常见的数据共享或交换的形式，往往是通过联邦学习等技术，将数据转换为描述符等形式，交由一个可信的中间机构来把关，化合物结构依然保密。

真正直接披露化合物结构的数据交换，在药物研发领域还是比较难以达成，比如此前阿斯利康和拜耳两家公司，曾商定交换相同数量的化合物，这是建立在两家公司体量相当、数据库规模也相当的情况下，进行平等的一对一交换，参与数据交换的人员数量也很少。

《医健AI掘金志》：加入广州实验室后工作后，在药企巨头的工作经验中对您来说有哪些可以借鉴？

陈红明：在阿斯利康的工作经历让我对于计算化学科学家在日常工作中面临的挑战有足够的了解。

虽然在阿斯利康工作时我主要从事算法开发，但也参加过一些药物开发的项目，对药物开发的流程比较熟悉，与项目中的核心人员有很多交流互动，更加了解在药物开发过程中，计算化学的方法和工具还存在哪些欠缺，从而更好地开发AI算法。

这些经验都可以应用在我现在的工作之中。

《医健AI掘金志》：相比传统的CADD方法，AI制药具有哪些优势？AIDD最终是将与CADD相互融合还是取代CADD?

陈红明：相比传统的CADD，AI药物设计有其独特之处，比如近年来才兴起的生成式AI，这在以往的药物设计中是没有的。

传统的药物设计方法往往是基于规则进行，而AI生成模型则是数据驱动的算法，完全不需要预定规则，即可通过从数据中学习到的规律进行分析。

但我认为，AIDD仍属于CADD这一大的范畴之中，属于是CADD的一个全新的扩展。

CADD常用的分子对接、利用分子描述符建模的算法，在AIDD之中仍有沿用，所以，AIDD并不会取代CADD，二者将会相互融合，AIDD成为CADD的一个新的发展阶段。

《医健AI掘金志》：在分子结构生成环节，相比陷入瓶颈的CADD，AI可以通过学习大量的化合物结构数据发现隐含的结构构成规则，更具创造力，因此越来越多的AI制药初创企业加入赛道，开发出许多不同的分子生成算法。

2021年5月，您的团队针对现有分子生成模型评估方法的局限进行研究，提出了一种基于化学空间覆盖度的生成模型效果评估方法，在这套评估方法之下，目前比较具有优势的算法有哪些？

陈红明：我们当时提出的评估算法，主要目的是选择合适的数据集来对分子生成模型进行评估。

在我们之前，也有其他的研究者提出过一些生成模型的评估方法，但他们当时所选择的数据集并不是平均的分布。

他们选择的数据集中，涵盖了针对不同靶点的分子，因此有些靶点的相关的特定结构类型会比较多，有些的结构类型则比较少，数据集的分布并不均匀。

但是评价生成模型，最好还是需要一个平均分布的数据集。

所以，我们当时选择了GDB13分子集合，这个小分子库包含将近10亿个重原子数小于13的分子结构，而且这些分子都是从理论上穷举出来的，分布更加均匀。

在GDB13分子集合的基础上，我们基于完整的分子结构、官能团和环系这三个维度，对“化学空间覆盖度”进行评估。

在当时的评估标准下，REINVENT算法的结果相对而言是比较好的，在这之后，国内也涌现出了许多很好的算法模型。

《医健AI掘金志》：以ChatGPT为代表的生成式AI技术，将会为药物研发带来哪些新的可能性？

陈红明：ChatGPT模型虽然很火爆，但我认为它目前仍处于比较早期的阶段，大语言模型依然在快速迭代的过程之中。

我们团队前不久也做了相关的评测，GPT3.5版本在生物医药的NLP数据集上表现是不错的，但是与SOTA模型相比，GPT3.5在项目中的表现还是有很大差距的，在未来的不断迭代升级之后，GPT也许会有更好的表现。

GPT模型在药物研发的流程中也能够起到很大的作用，一方面对知识图谱的构建会有很大的帮助，比如从海量的文章中提取关键信息，作为素材生成知识图谱，从而助力靶点发现等工作；

另一方面，也有人尝试用ChatGPT直接进行药物分子设计，目前来看这项工作还有些困难，但ChatGPT已经展现出知识综合的能力，只要给它一个靶点，即可据此描述出分子应该具有的特征。虽然还处于比较初级的定性阶段，但也为药物设计工作提供了一种新的可能性。

另外，也许还可以通过ChatGPT进行化学反应推理等各项工作，总而言之，以ChatGPT为代表的的大语言模型，在药物研发流程中或许会给人带来意想不到的惊喜。

讲座预约

为更加深入、系统地探讨国内医药企业在新药研发中面临的诸多问题，雷峰网将于6月8日晚8点至10点，举办主题为《「人机协同」模式下的新药研发》的线上圆桌论坛。

本次论坛，将由浙江大学药学院教授谢昌谕主持，北京大学药学院研究员刘振明、腾讯医疗健康AIDD技术负责人刘伟、浙江工业大学智能制药研究院院长段宏亮、清华大学智能产业研究院战略发展与合作部主任张煜参与讨论。

读者可扫描文章底部海报的二维码，进入专家社群，我们会将您的问题收集、汇总，反馈给参会嘉宾，并在讨论环节进行解答。

广州实验室陈红明：药企不开放化合物结构，数据共享只是「隔靴搔痒」｜AI制药十人谈

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

1人收藏

乔燕薇

主笔

关注医疗科技领域。微信号：qiaoyw186

扫描关注作者微信

发私信

当月热门文章