0
生物信息学和医学,能碰撞出什么火花?
余光创教授的科研实践,给出了这一问题的答案。
作为南方医科大学基础医学院生物信息学系的主任和教授,余光创的关注点在于,生物医学、数学和计算机科学的交叉融合。
这不算一条科研捷径,多学科的知识储备曾吓退一众学者。对于余光创来说,其中也有冒险的成分。
他的学术之路起于华南农业大学的生物技术专业,到安徽医科大学的生物化学与分子生物学,再到香港大学公共卫生学院的系统发育研究,再到如今的南医大基础医学院的教研工作,每一步似乎都愈发偏离原来的轨迹。
但用余光创的话来说,这是他的“特色”、“赶上了好时机”。
实际上,这段经历中还有段小插曲,他原本硕士报考的是中科院上海生命科学研究院,复试环节失之交臂,才有了调剂的一说,从此结下与医科类大学的不解之缘。
2018年,一通来自南医大生信系的前任系主任李金明教授的电话,将余光创的科研生涯扎在了那里。
应聘、入职、次年担任该系副主任、协调全系改革入选教育部“双万计划”,拔得全国唯一入选生信专业的高校头筹,这些工作开展得紧锣密鼓。
目前,余光创的研究重点集中在组学数据分析和工具开发。
他的团队通过多组学研究,开发了能够预测代谢组数据的 MMINP 工具,以及专门用于单细胞和空间转录组学研究的 SVP 软件包。
这些研究成果,为从微生物生态和系统发育关系的角度进行研究提供了新的切入点,更在疾病机理探索、药物靶点发现等领域展现出巨大的潜力。
如今,“生信人”已经成为余光创的一个重要标签。
他指出,生物信息学已经从辅助性角色转变为科研的主导力量。随着高通量数据的普及和成本的降低,生物信息学在数据分析和解读方面的重要性日益凸显。
同时,他也鼓励年轻学者积极投身于跨学科研究,“不同的学科背景意味着不同的视角,没有哪个背景绝对优越”,要善于利用不同学科的视角和方法,开展有特色、有创新性的工作。
近期,2024年度「第二届生物信息与转化医学大会」落下帷幕。本届大会以 “人工智能时代的转化医学”为主题,由北京携云启源科技有限公司承办,余光创教授受邀参会。
借此契机,雷峰网与余光创教授进行了深入对话,以下为对话全文(经编辑):
雷峰网:首先,请您分享下教育背景和研究领域?当时主要课题是什么,它们如何塑造了您的专业技能和研究视角?
余光创:我本科是华南农业大学生物技术专业。那是在2001年,正值人类基因组计划公布草图,生物技术迎来它的黄金时代。
本科期间,我对计算机科学产生了浓厚的兴趣,并自学了相关知识。硕士阶段,我本想转向生物信息学领域,但由于这是一个新兴学科,国内能提供该专业研究生教育的机构并不多。后来去了安徽医科大学,专业是生物化学与分子生物学,师从秦宜德教授。
硕士期间,我有幸跟随军事医学科学院的伯晓晨教授,继续从事生物信息学研究,并在他的指导下深入学习了编程和数据分析技能。当时,我们主要进行微阵列(microarray)数据分析,尽管二代测序技术开始兴起,但在国内尚不普遍。此外,我们还探索了基于“基因本体学语义相似性度量”的一些计算方法,这在当时也是一个较新的研究领域。
硕士毕业后,我在暨南大学生命健康工程研究院工作,主要进行蛋白质组学研究。在那里,我参与了与肿瘤相关的蛋白质组数据分析工作,专注于蛋白质层面的研究。
工作几年后,我意识到,仅有硕士学位在学术界的发展受限,因此决定攻读博士学位,并最终选择了香港大学。在那里,我加入了管轶(港大公共卫生学院)教授的实验室,管教授在非典疫情期间做出了重要贡献。在管教授的指导下,我从事了与流感等传染病相关的系统发育研究。
可以说,硕博期间让我接触到了截然不同的研究课题,也让我认识到拓宽思维和视野很有必要。
目前,我在南方医科大学基础医学院,主要进行组学数据分析和工具开发工作。尽管我现在不直接从事系统发育研究,但我一直在思考,是否可以从系统发育和微生物生态的角度,探索组学数据分析的新方法。
当前,无论是宏基因组还是单细胞空间转录组研究,都是对群体的测量,这为我们从微生态和系统发育关系的角度进行研究提供了新的切入点。
雷峰网:什么契机下加入了南方医科大学基础医学院?如今担任生物信息学系系主任,要承担哪些工作?
余光创:在港大毕业后,我留在了管教授的课题组,继续从事博士后工作,同时寻找工作机会。 当时,南方医科大学生物信息学的老主任李金明教授打来电话,向我介绍了学校和专业情况。李教授的介绍打动了我,我来到这里应聘,并在2018年顺利加入。
事实上,2018年和2019年是南方医科大学引进高层次人才的高峰期,不仅我们学校,许多其他学校也在大力引进人才。随着时间的推移,尤其是疫情的影响,学校经费有所减少,人才引进的力度也有所减弱。现在,学校更倾向于引进海外人才,并依托学校申请相关项目。我算是赶上了好时机。
2019年7月以来,我开始担任生信系主任,我的工作涉及更多的行政和教学任务,主要是为学生和系里的教师服务。
实际上,我们的生信本科专业成立于2005年,是国内较早开设此类专业的院校之一。就在2019年4月,教育部推出了“双万计划”,旨在建设一万个“国家级”一流本科专业、一万个“省级”一流本科专业。我们在专业建设上做了很多工作,包括硬件、软件、教材和课程改革。我们的专业也成为首批入选国家级一流本科专业建设点,而且是首批入选的生物信息学专业。
我认为,作为教师,除了科研,教学同样重要。这不仅有助于我个人成为一名更全面的教师,而且对教育下一代、促进社会和国家的可持续发展具有重要意义。
雷峰网:因为生物信息学融合了多个学科,包括生物医学、数学、计算机科学,您为什么对交叉研究感兴趣?
余光创:这要追溯到本科时代。那时我在图书馆偶然发现了一本名为《Developing Bioinformatics Computer Skills》的书,这本书可以说是我的启蒙之作,让我对生物信息学产生了浓厚的兴趣。
从那本书里我了解到,生物信息学是一个融合生物医学、数学和计算机科学的交叉学科。
我本身学习生物,而当时大家对生物技术的前景非常看好,加上我对计算机有着浓厚的兴趣,我认为这正好是我专业和兴趣的结合点。
因此,我决心朝这个方向发展,虽然当时还处于一个相对懵懂的状态,但内心充满了向往。
但我是直到研究生加入了伯晓晨老师课题组,才真正开始接触生物信息学,学习计算机和数学知识,并将其应用于生物学研究。
这让我有了实实在在的一手研究经验,并且我对这一领域始终保持着浓厚的兴趣。多年来,无论是工作还是继续深造,我都保持着这种兴趣驱动,这对我来说非常重要。
雷峰网:您刚才提到了人类基因组计划,这个全球性的项目对整个研究领域带来了哪些变化?生物信息学领域经历了哪些发展阶段,直至您目前的研究领域?
余光创:人类基因组计划对现代生物医学研究产生了深远的影响。
在该计划之前,研究工作主要集中在克隆单个基因及其产物上,研究进展相对缓慢。许多研究者可能一生都在研究一个基因或一个蛋白,而且通常是针对那些已知与疾病相关的基因。当时,我们对基因间相互作用的理解还非常有限。尽管人类与小鼠或黑猩猩的基因差异很小,但在调控层面的复杂性却有很大差异。
人类基因组计划完成后,我们获得了完整的人类基因组序列和较为完善的注释信息,这使得研究范式发生了根本性变化。
用一个比喻来说,以前的研究就像是在钓鱼,而现在则像是撒网捕鱼。
当下,我们可以先获取大量数据,然后让数据驱动研究,从而发现一些之前未曾预料到的线索。这种数据驱动的研究方式,不仅改变了研究策略,也加速了许多研究领域的发展,包括精准医学等。
如果没有人类基因组计划奠定的基础,这些进展是不可能实现的。
雷峰网:您目前的研究重点是哪块?近期有哪些新进展?
余光创:目前我的研究重点是组学数据分析和工具开发。我们进行了多组学研究,并针对微生物组学开发了 MicrobiotaProcess、MMINP、SVP 等软件包。
之于MicrobiotaProcess ,我们设计了一套数据结构来管理微生物组学数据,并提供了一系列分析工具。
之于MMINP ,可以通过微生物组学数据预测代谢组数据。许多人通过宏基因组或16S rRNA测序来鉴定肠道微生物,但往往缺乏相应的代谢物组学数据。我们开发的这个工具可以填补这一空白,做出更全面的分析。
此外,我们还开发了SVP软件包,专门用于单细胞和空间转录组学研究,可以在单细胞水平对细胞功能进行刻画,基于此,我们可以鉴定具有空间特异性的生物学功能。
目前,我们的工作主要集中在基础研究领域,尚未有具体的转化应用。但我认为这些研究成果是具有转化潜力的。
例如,我们通过预测得到的代谢物信息,理论上可以帮助我们节省研究成本。我们可以先通过计算方法进行初步探索,然后再通过靶向验证等方法进行深入研究。
雷峰网:您在开发生物大数据分析算法和软件时,有哪些方法论?这些工具如何帮助科研人员更好地探索和分析数据?
余光创:在开发算法和软件时,我们主要关注下游需求和应用场景。
在生物信息学领域,上游算法如序列比对等,通常注重准确性、速度和计算性能,而我们更专注于下游方法的开发和软件设计。即,如何将这些技术与生物学需求相结合,为生物学家提供实际帮助,发现分子机制。
在方法论和心得方面,我认为最重要的是,面向用户群体和软件生态系统。一个良好的生态系统和社区可以显著降低开发门槛,并促进不同软件包之间的协作与功能互补。
以我们开发的 clusterProfiler 软件为例,它面向广泛的科研人员,通过功能富集的数据分析,帮助他们探索分子机制,阐明各种生物学过程和通路如何受到扰动。
这种分析可以应用于多种疾病的研究,不局限于特定领域,而是可以适用于广泛的研究场景,因此它的使用范围非常广泛,受众群体也很大。
雷峰网:与此同时,这个过程中最大的挑战是什么?
余光创:在开发过程中,我主要是针对具体的应用场景,我们经常在数据分析中遇到一些问题,且手头并没有合适的工具。
其次,当前大数据时代,我们面临的一个主要挑战是计算能力,但算力并不总是容易获得。
例如,美国对中国的显卡出口限制对许多研究工作构成了限制。此外,许多大型IT公司也在进行类似的研究,与它们相比,高校在硬件资源上往往难以匹敌。
第三,问题的复杂性日益增加,团队合作变得越来越重要。当然团队协作可能是解决这些问题的一个关键因素,这本身也是一个挑战。
雷峰网:您目前的合作项目和伙伴有谁?
余光创:我目前有一个合作项目是与一位妇产科主任(宁波大学,陈夏)合作的,我们正在研究肠道菌群与多囊卵巢综合症之间的关系。
在这个项目中,我们收集了大量的宏基因组和代谢组数据。
在研究肠道微生物时,以往大多数研究都集中在细菌上。但我希望从噬菌体的角度来探讨这个问题,因为噬菌体可以感染细菌并调控其功能,并影响整个微生物群落的生态。
我们希望通过分析宏基因组数据,来探索噬菌体与宿主细菌之间的关系。此外,我们还自行收集了一些样本,使用特定技术捕获细菌和噬菌体之间的相互作用,并进行了相应的序列分析。
另一个合作项目是与神经生物学家(南方医科大学,曹雄和陶涛)合作,我们使用了小鼠抑郁症模型进行空间转录组研究。
我们在小鼠大脑具有代表性脑区的五个不同位置进行了空间转录组测序,希望通过这些数据找到与抑郁症相关的分子机制和信号通路。空间转录组技术能够在原位测试细胞,这对于神经科学研究来说是一个非常有前景的应用。
这项技术相对较新,我们目前正在进行这方面的合作和探索。
雷峰网:您在The Innovation、Gut Microbes、Molecular Biology and Evolution等期刊发表的论文中,有哪些特别有影响力的工作?这些研究成果对于生物医学领域的长远影响是什么?
余光创:如果要谈论影响力,我认为我们最有影响力的工作是之前提到的 clusterProfiler 工具。
它的第一版发表于2012年,已经过去十多年了。2021年,我们在《The Innovation》杂志上发表了一个新版本。这个工具被广泛使用,目前引用次数已超过25000次,对我们领域的研究产生了一定的影响。
实际上,许多学生和研究人员告诉我,他们在学习生物信息学时,首先接触到的就是我开发的这个工具包。因为它使用起来相对简单,能够快速为初学者提供反馈。分析完成后,我们可以得到许多可视化的结果,这有助于他们立即理解分析结果。
此外,另一个我认为有较大影响的工作是,我在博士期间开始的系统发育相关研究。
我们开发了一系列软件包,这些软件包不仅能够整合和可视化系统发育数据,还能帮助研究人员解析和映射各种数据到系统发育树上。随着实验技术的发展,我们现在拥有越来越多的高通量数据。将这些数据或分析结果映射到系统发育树上,可以帮助我们发现新的或意想不到的演化模式。
这些工作发表在《Molecular Biology and Evolution》杂志上,共有三篇文章;还有一篇文章最早发表在2017年的《Methods in Ecology and Evolution》上,后来该杂志在庆祝创刊十周年时,将这篇文章选为“十篇代表作”之一。
我还写了一本介绍这些工作的英文书籍,由国外的CRC出版社出版。这本书后来被翻译成中文版,并在国内由电子工业出版社出版。这本书受到了读者的喜爱,在京东上一度售罄。
这些工作可以说是我最具影响力的成果。很多研究成果的影响需要时间来验证,一开始可能不会立即被大家认为特别好,但随着时间的推移,如果使用的人越来越多,就说明这些工作经受住了时间的考验。
雷峰网:除了开发这些工具外,您是否也有数据库开发工作?
余光创:我们没有直接开发数据库。尽管数据库在生物信息学中扮演着非常重要的角色,但我们的研究重点并不在此。
当然,数据库的建立可能是一些研究者的工作重点,他们可能通过收集数据并发表文章来展示其成果。但有一个现象是,很多人为了发表论文而开发工具或数据库,一旦文章发表,他们就不再继续投入。
但我认为,数据库的真正价值在于,它能够持续积累数据资源,并促进研究者自身课题的研究进展。
雷峰网:您入选全球高被引学者、全球前2%顶尖科学家榜单和中国高被引学者。您能谈谈您的研究成果被广泛认可的经历吗?
余光创:对于我来说,我对自己开发的工具充满感情,始终在不断地维护和更新。比如,我之前提到的那个工具,从2012年发表文章到2021年发布新版本,这中间的九年时间里,我一直在持续进行维护和更新。
这种长期的维护和更新是可以看到的,也形成了一定的口碑。随着时间的推移,大家对我工作的认可度越来越高。因此,这也是一个积累的过程。当大家普遍认可你的工作,愿意使用你开发的方法和工具时,引用量自然会增加。正是由于大家的认可和支持,我才有幸入选了这些高被引学者的榜单。
雷峰网:我之前撰写了一系列关于生物信息学过去30年发展历程的文章,一些教授会提到过去生信研究者会处于一个尴尬的位置,可以说是辅助性角色,而非课题的主导者。现在这种状况有所改变吗?
余光创:情况确实在逐渐改善。
过去,我们的角色更像是辅助性的,因为我们不直接产生数据。其他课题组或基础研究、临床研究的同事产生数据后,他们可能不会分析,于是找到我们希望合作,我们基本上就成为了提供帮助的辅助方。
而且,我们在进行生物信息数据分析时,有时会遇到挑战,包括我刚才提到的,有时需要自己开发工具来解决问题,这并不容易,需要一定的专业背景和科研经验积累。
在基础研究或临床研究的同事眼中,他们有时可能会低估我们的贡献,认为我们只是个跑程序的工具人,因此我们的贡献在他们看来可能相对较小。这可能是因为他们自己的认知限制,难以准确评估合作者的贡献。这种情况以前让研究者感到尴尬。
但现在,情况有所好转。我们这一代可能比前辈们面临的挑战要小一些。
首先,现在获取数据的可及性更高。许多大型项目产生的大量数据都是公开的,我们可以根据这些公开数据进行研究。
而且产生数据的成本越来越低,以前数据生成成本很高,因此产生数据的研究者感到自己很重要。但现在,随着高通量数据方法的成本降低,我们越来越容易生成数据,生物信息学在分析和解读数据方面的需求和重要性越来越大。
另外,我们也可以通过数据驱动的方式,找到好的研究点或重要发现。继而可以寻找合作者来验证我们的假设和发现,这样我们就能够在一定程度上主导研究。
所以总的来说,随着生物大数据的普及,越来越多的研究者开始认识到生物信息学的重要性,它不是一个辅助学科,而是一个独立的学科,甚至在主导研究方面的作用将会变得越来越明显,认可度也会逐渐提高。
雷峰网:您认为未来几年内,这一领域将会有哪些新的趋势或突破?以及,您有哪些规划?
余光创:在规划方面,我认为当前的一个重点主题是人工智能。
这是一个无法回避的时代发展趋势,我们不期望人工智能完全取代或颠覆现有的方法,但至少能够赋予我们更多的能力,帮助我们解决更多问题。
在生信的应用场景中,人工智能的应用肯定会越来越多。众所周知,在蛋白质结构预测等领域,人工智能已经开始发挥作用,并有可能在转化研究中发挥更大作用。
虽然我和团队并非人工智能领域的研究者,但必须要拥抱人工智能,我的规划是,在我们擅长的领域内探索与人工智能的结合点。
雷峰网(公众号:雷峰网):关于人工智能,您和团队之前有在使用相关技术吗?
余光创:我们主要是用传统的机器学习方法。至于深度学习,我们之前并没有太多涉及。不过,在空间转录组分析中,我们正在尝试利用深度学习技术。
当前我们进行空间转录组的测量时,虽然是在谈论空间信息,但实际上我们处理的是二维的组织切片。我们正在尝试通过深度学习技术重建这些数据为三维结构,目前在这方面正在进行一些探索。
雷峰网:关于跨学科合作,您个人在这方面有哪些经验?或者对年轻学者有什么建议?
余光创:跨学科合作的经验,我认为关键在于多沟通、多交流。因为不同学科背景的人交流时,可能会存在语言和概念上的障碍。有时候你说的我听不懂,我说的你也听不懂。增加交流可以更好地理解彼此的需求和目标。
此外,跨学科交流还能打破学科界限,拓宽思路。无论是在合作项目中,还是在参加学术会议时,多听听别人的报告,都能开阔视野和思维。
对于年轻学者,我的建议是,跨学科学习确实不易,如我硕士导师所说,你需要准备好付出额外的努力。
但这并不等于,需要等到掌握了所有相关学科的基础知识才开始工作。这种方法是不现实的,因为你很难全面掌握所有知识,而且可能会偏离你的研究课题。相反,应该以项目为驱动,边做边学。
当然,跨学科也有其优势。不同的学科背景意味着不同的视角,没有哪个背景绝对优越。如果你能利用好自己的学科背景优势,并找到合适的切入点,你就能做出有特色、有特点的工作。
雷峰网:您现在还在指导学生吗?他们主要的专业背景是什么?
余光创:是的,我要指导学生。目前我的学生大多数是生物信息学专业的。他们在本科阶段可能就已经学习生物信息学,因为我们学校本身就有这个专业。
此外,还有一些学生来自生物技术、生物制药等生物领域。
计算机科学的学生在我们这里相对较少,因为我们是医科大学,学生可能更关注与生物医学相关的领域,因此这类背景的学生更倾向于选择我们。
我目前指导毕业的学生还不多。有的学生出国深造,有的在医院担任科研人员,还有人进入公司工作,从事生物信息技术开发和数据分析等与我们专业紧密相关的工作。
所以,他们的就业方向通常与生物信息学领域相关,无论是在高校、医院还是公司。
本文作者 吴彤 长期关注人工智能、生命科学和科技一线工作者,欢迎同道微信交流:icedaguniang
雷峰网雷峰网
雷峰网原创文章,未经授权禁止转载。详情见转载须知。