0
本文作者: 吴彤 | 2021-12-23 10:23 | 专题:GAIR 2021 |
近日,第六届全球人工智能与机器人大会(GAIR 2021)在深圳正式启幕,140余位产学领袖、30位Fellow聚首,从AI技术、产品、行业、人文、组织等维度切入,以理性分析与感性洞察为轴,共同攀登人工智能与数字化的浪潮之巅。
在医疗科技高峰论坛上,AIMBE Fellow、深圳理工大学计算机科学与控制工程院院长潘毅以《人工智能在生物医疗学工程中的应用》为题,分别讲述了医药研究中的数据特征、AI应用生物医学的研究案例,以及知识和数据对医疗AI的重要性。
今年2月,潘毅教授当选为美国医学与生物工程院院士。
他同时是英国皇家公共卫生学院院士、乌克兰国家工程院外籍院士、英国工程技术学会会士,在计算机和生物信息领域已发表250多篇SCI期刊论文,其中100多篇发表于顶尖期刊。
潘毅教授表示,当大家关注到事物之间的关系,用万物互联的思路解决问题,用AI探索万物互联,不仅能输出定量化病理诊断和疾病预后,还能推动病理研究向着更加自动化、更加精准的方向发展。
“今天很多的医药进步,已经不仅是通过临床实验做出来的,还是用数据分析出来的。人工智能的解释是逆向工程,这个工作非常复杂,但是非常值得研究。如果可以实现,那么,我们就可以找到压抑癌症、压抑肺病的某一个蛋白质,从而以靶标精准用药。”
以下为潘毅的现场演讲内容,雷峰网(公众号:雷峰网)&《医健AI掘金志》作了不改变原意的编辑及整理。
今天,我的演讲题目是《人工智能在生物医疗学工程中的应用》。人工智能是个大课题,生物医疗工程也很大。话题缩小一点,我们来谈谈AI制药。
生物医学进入大数据时代,但是很多人处理数据的水平不高。原因在于计算机专家不懂生物,生物学家不懂编程,成果都不是很好。
对研究人员来说,常常面临工程上的“够用”和研究上的“低智”的矛盾。比如刚开始花了五百万提高到97%,如果还要再花五百万推进1%的进步,就会面临技术边际效应递减的问题。
很多人就放弃了,这是研究界很头痛的问题。
归根溯源,是什么在阻挠技术的进步?首先是数据。
计算机数据的结构巨大,我们耗用了大量的硬件和软件。大家熟知的超算中心、云计算平台、存储器,因为存储数量大、运算速度快、可以共享资源。
国家基因库里面放了很多基因数据,现在深圳理工大学也成为国家的生物中心之一(北上深各有一个)。
这个基因库不光是存储,还要提供很多工具和软件,即平台库,输入一个数据就出来结果,无需下载软件。
数据量大不是难题,难题是数据的异构性、多样性、增加速度快。
什么叫异构性?
在医疗数据里,有影像数据、特征数据、医生诊断报告数据、病历数据,它们不仅是多模态数据,也是非结构化数据。
另外,医学数据还存在天然的不完整性、保密性、冗余性、时许性、多态性等特征。如何在浩瀚的数据原油里提炼转化,是非常重要的一点。
人工智能在大数据领域已经有很广泛的应用,比如用基因组学预测疾病,研究新冠病毒变异。
我的一位学生创立了一家公司,可以用一滴血或者唾液,预测人一辈子将会发生的疾病。
此外,在智能化时代,精准医药也变得十分重要,今天的主题是药,我着重讲一下AI在制药方面的应用,比如针对每个人的个体特征而控制药量。
回溯一下AI在医疗方面的应用。2017年,斯坦福大学教授做了一个研究,给皮肤照相来预测皮肤癌症,这也是今后我们要做疾病预测的一个方向。
2020年,哈佛大学成功用机器学习实现药物筛选,带动深圳几个药物筛选的AI公司发展起来。
我们的魏彦杰团队与药物所万晓春团队,与深圳市三院刘映霞团队合作,针对RdRp靶点,用人工智能技术筛选新冠病毒药物,发布了论文并应用到社区疫情预防中。
同样在疫情期间,尹凌研究员团队研发传染病时空预测与精准防控系统,基于大数据做疫情防控研究,形成了十余份内参文档和政策建议,为政府决策提供依据。
他们团队的方法是基于大规模手机信令数据、居民出行调查记录等多源时空大数据,对传染病时空传播过程进行城市级别的高分辨率模拟与预测,得出病毒的变种归规律、传播规律、感染规律等等。
• 新型冠状病毒2019-nCoV动物宿主朔源、及分子遗传变异规律研究
• 本地家庭、社区人群中传播效能、传播规律和驱动因素研究
• 人群大样本感染水平研究,确定病例隔离周期、评估隐性感染情况
所以,我们总是能够看到很多人工智能技术发挥医学价值的例子。但说到人工智能,Artificial intelligence,它到底是什么?
“假智能”?“伪智能”?还是“人造的智能”?
不管大家如何定义,我要说的一点是,我们不要神化AI。
第一代人工智能出现在三、四十年前。
在我求学时,我学习的“专家系统”是一个最典型的AI例子。它和中医诊断系统中的“因果说”很相似。比如说舌苔发黄,眼睛发红,很可能是得了感冒。专家系统也是一样的逻辑,就是用知识驱动知识。
那么,专家的知识从何而来?从老师那学,从书本上学,从经验里学。
那时候的AI技术为什么不成功?原因很简单,它只是一个很小的“玩具”。专家们只能搞点小玩意儿,发点小文章。在60年代到90年代,如果你说你是搞人工智能,是找不到的工作的。
那么,为什么现在的人工智能会被大家熟知?关键节点是出现了第二代AI系统。
如果说第一代AI系统是“照葫芦画瓢”,那么第二代AI系统是“无师自通”。
第二代系统由数据驱动,无需阐明数据之间的逻辑性,只需要放进大量的数据,利用深度学习就能找到数据背后的统计规律。
说得好听一点是深度学习,说得不好听就是算法,算法里面就是统计规律。
但是这时候的AI系统没有逻辑、也没有可解释性。
举个例子,AlphaGo第一次在围棋上打败人类,掀起了人工智能研究的热潮,但其实AlphaGo只是把五千年来所有的棋谱输入系统,然后在博弈的时候搜索最可能获胜的招数,以数据、算力和算法获胜。
当时我们也推出了一款新产品,命名为ShouZhuo,成功打败了AlphaGo,并尝试继续迭代算法,一举写出一篇好论文。不幸的是,两周以后Alpha Zero出来了。它不断跟自己对弈,不需要五千年的棋谱,练到最后棋法越来越好,把所有人类都打败了。
我们的想法是类似的,但是我们为什么不能成功呢?我们发觉,假如我们的算法也像Alpha Zero这样无休止对弈、训练,凭借我们实验室的硬件,大概要用1000多年的时间,1000多年之后这个算法肯定就没用了。
说到底,人工智能还不聪明,还是依靠“数据+硬件”驱动。在拼设备的年代,还能拼什么?
所以,这时出现了第三代AI系统。它将知识和数据结合起来,融汇了第一代AI系统和第二代AI系统。
举个例子,什么叫知识驱动?我女儿两岁的时候被蜜蜂蛰了一个大包,以后再见到蜜蜂就会跑开,这是数据驱动。什么是知识驱动呢?从小你家里人告诉你,猫不能碰、狗不能碰、蜜蜂不能碰、蛇不能碰,以后你见到这些东西就会远离。
但是知识驱动是有缺点的,因为图片是有限的,以后你遇到老虎、遇到大象还是会碰,因为没有先验知识。数据驱动也是有问题的,需要通过大量的数据完成“原始学习”,过程很慢。
如何将两种学习方式结合起来,将知识嵌入到机器脑中,这是第三代AI系统的问题。
举个例子,假如现在用100万张猫和狗图像训练好了一个神经网络,也就是设置好了参数,它会很轻松地分辨猫还是狗,但是准确性如何升高,如何再调整参数?
这时候就要用到梯度调节,这就是神经网络的概念。但是如何通过知识驱动,就是嵌入一个概念:比如我把“狗的耳朵比较大,猫的鼻子比较小”的概念放进去,这个算法就可以学得更好、更快。
所以,如何将知识图谱注入神经网络是很重要的课题。
举个例子,用神经网络抠出图片中的人。左边的图为无监督分隔,没有嵌入足够的知识图谱,所以分隔得十分粗糙。而右边的图为半监督分隔,事先学习了天是蓝的、云是白的、人脸是黄的,人的衣服是黑色的知识,图像识别的效果非常好。
同样的知识学习还体现在AI识别手写0—9这10个数字的实验中。
尽管每个人的笔迹都不同,写字风格千差万别,但假如我事先编写一组规则:有圆圈就是0、6、8、9,有一竖的就是1、4、7等等,这样AI的识别结果会好很多。
另一个方法是融合多模态数据,是把所有数据融合起来决策。
要预测什么菜好吃,我们说闻起来很香,炒起来看着很好吃,味道很甜美,口感很滑,颜色很漂亮,这就是好菜。
但是我要给你一个融合的算法,告诉你这个菜是臭的(臭豆腐),吃起来是很香的,颜色也是很糟糕的,你说是好还是不好?这个决策就很难了。
所以,这里面的融合,要决定哪个因素有多少的比例,大家投票说臭豆腐好不好,来训练这个神经网络。
比如应用在自闭症预测时,多模态融合的分析方法诊断率极高。
具体来说是三管齐下:
第一管,行为学分析;
第二管,基因分析,抽点血找到生物标记;
第三管,建立MRI影像,找到病灶。
我们现在讲三管齐下,实际上不止三管,比如行为学可以一管分成三、四管,细分为表情、语调、动作姿势、脑信号。最近我们又做了一个眼珠转动的研究,发现自闭症的孩子,眼珠转动也不一样。
但复杂问题是,各种模态的确诊率不一致,如何判断可信模态,如何用算法融合,是前融合、中融合还是后融合
例如,后融合就是每个人决定做好了,再来做预测;中融合是中间算法加了东西,前融合是数据结合起来一起融合。这就很难,因为每个数据都不一样。
下面我们讲到这个三步曲,第一步是行为观察,这是不用花钱的,第二步是抽血,花500到1000块钱,第三步是照影像,大概1000到3000块钱。
我们希望在3年到5年时间,我们预测疾病能达到90%的可能性,这样就比医生的水平高了,当然这里面就涉及到伦理和法律问题。
现在看起来,我们好像对人工智能不信任。但其实我们以前已经在相信机器了,比如说10年前你看个肺病,就是用X光扫描,X光不准怎么办,医生就那么准吗?
所以今后就是这个方向——如何健全法律,让使用者可以在使用AI的时候没有后顾之忧。
我们最近还做了一个癫痫实验,也是三步走:脑影像中的特征、磁共振影像(MRI、三维),功能性磁共振影像。
具体来说,先对大脑做MRI成像,抠出来51个小特征,并结合SVM(支持向量机,support vector machines)分析脑成像中的灰色地带等特征。比如说,如果灰色面积较大,则有可能是癫痫。
第二步,MRI建立三维神经网。第三步加入时间轴,建立四维fMRI图。考虑到诊断效率和算力水平,我们所用的四维方法是加入LSTM(长短期记忆,Long short-term memory)的三维图像,以便减少训练时间。虽然减少一点精度,但是实际应用效果还是很不错。
最后,在第三代AI系统中,还有一个方法是结果解释,这是一项逆向工程。
举个例子,如何让AI识别男女,我们经常是输入男性和女性的特征,比如头发的长短、身体的胖瘦、个子的高矮。但是从结果回溯,我们需要知道,AI到底基于什么比例做出的判断?
80%是因为你的头发比较长,10%的原因是你的个子比较矮小,1%的原因是你比较苗条。
为什么结果解释在医学中这么重要呢?
因为这是找到“靶标”的过程。
我来举个AlphaFold的例子。
大家知道氨基酸有20个字母,形成一个序列即氨基酸序列,这个序列可以产生一个结构。在生物界,蛋白质序列是很容易得到的,蛋白质结构是很难的。现在很容易基于氨基酸序列给出所有的预测结果,但如果由结果回溯,AI能不能得出序列?
如果可以实现,那么我们就可以找到压抑癌症、压抑肺病的某一个蛋白质,从而以靶标精准用药。
人工智能的解释是逆向工程,这个工作非常复杂,但是非常值得研究。
说到这,大家会问,为什么要用人工智能做药物筛选呢?人工智能技术在药物筛选流程中的哪一个环节?
在美国的药库中,目前有三万种药,在药物和小分子结构的耦合中,如果用生物实验来做匹配,至少要做3万多次实验,时间成本是多少?
人工智能能够用最快速的办法做筛选,最后排列出耦合度最高的前100种药物,再由人工实验选择出排名前几位的几种药物,极大降低研究人员的实验难度,缩小时间成本。
而在实际情况中,从药物筛选到药物上市,中间还要有经过生物实验、动物实验、一期、二期、三期临床,以便证明药的效果好,并且没有副作用。
如果我们在最初始阶段卡了脖子,整个过程将十分漫长。医疗济世,就会道阻且长。
可解释AI最近是个研究热点,而我们16年以前已经把可解释AI成功地应用于生物信息领域,有效指导了生物学家进行有选择性的生物实验,大大减少了生物实验成本。
之所以要用到可解释AI,是因为生物学家当时需要知道哪种氨基酸的变化引起了蛋白质结构的调整,以便下一步做有选择性的实验。
以上过程中能够看出,很多问题,如可解释AI,来自于实践,最后结果又用之于实践。
在2006年,我们发表了两篇可解释AI相关论文,一篇为《基于支持向量机和决策树的蛋白质二级结构预测的规则生成》、另一篇为《基于支持向量机和决策树的跨膜片段预测与理解》。
两篇文章用到了关联规则和决策树来记录人工智能的决策过程,以便回溯和解释整个决策的过程。
感兴趣的读者,可以阅读下面两篇文章:
https://ieeexplore.ieee.org/abstract/document/1603533
https://www.sciencedirect.com/science/article/pii/S0957417405002411
大家会提到基因组学、蛋白质组学、转录组学、微生物组学、代谢组学、病理组学、放射组学等等,组学研究越来越多。
之所以产生这些组学词语,是人们发现单纯研究某一方向(基因组、蛋白质组、转录组等)无法解释全部生物医学问题,开始从整体的角度出发去研究人类组织细胞结构,基因,蛋白及其分子间相互的作用。
通过整体分析反映人体组织器官功能和代谢的状态,为探索人类疾病的发病机制提供新的思路。
当大家关注到事物之间的关系,用万物互联的思路解决问题,用AI探索万物互联,不仅能输出定量化病理诊断和疾病预后,还能推动病理研究向着更加自动化、更加精准的方向发展。
总之,今天很多的医药进步,已经不仅是通过临床实验做出来的,还是用数据分析出来的。
随着科学的发展,医疗行业正在不断创新,科研力量的进步与医学界的需求,将共同促进医疗人工智能的发展。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。