达摩院迎战「癌王」

本文作者：任平

2023-11-22 15:26

导语：这或许是人类与胰腺癌的斗争中第一次掌握了主动权。

癌症早筛，普遍被认为是一个潜在的千亿级产业。

但胰腺癌，却是例外。

从商业角度看，这是一个长期“被否定”的选项。因为比起肺癌、结直肠癌、胃癌、肝癌等，胰腺癌并不属于高发性癌种，但擅长伪装、先天耐药、手术切除率只有两到三成。最致命、最难发现、扩散最快，“癌王”，成了胰腺癌的公认的代号。

要蹚胰腺癌这条路子，基本上可以预判：钱少事难，要么情怀，要么诈骗。

这也正是矛盾所在。在临床医生看来，胰腺癌作为癌王是“悲哀”的。无论是国内还是国外的临床指南，都不推荐胰腺肿瘤筛查，因为迄今为止，没有一种方法适合所有人，而且保证筛查结果可靠。

因此，超过80%确诊患者，一经发现即晚期，存活率在1年左右。但是根据美国约翰霍普金斯医院最近发表的重要临床工作，早期或者偶然发现的胰腺癌患者的生存率可以很高，比如9.8年。

胰腺癌是一次有组织的、秘密的人类攻击，从癌前病变进展到癌症1期2期可能10年，但是越到最后是突然间指数级增长。也就是说，上帝并没有宣判死刑，但几乎没有人会逃过诅咒。

五年前，一项最有望扭转这一困境的技术，CancerSEEK（基于ctDNA的检测方法），由全球癌症遗传学大牛Bert Vogelstein教授和团队提出，成果发表于Science期刊，曾一度解决了包含胰腺癌在内的多癌筛查问题，覆盖了大部分致命癌症，引发全美投资热潮以十亿美元计数。

时至今日，这一技术离转化为产品还遥遥无期，致命弱点就在于这一技术并不通用。

如果这场声势浩大且令人耳目一新的技术让人有过短暂的着迷，那么它真正的价值在于激起人类的挑战欲望。

阿里达摩院便是其中之一。

面对多癌筛查这一宏大且迷人的命题，达摩院毅然选择了另一条看似更易、实则更难的路径——AI。

迎战癌症之王

故事的开始，源于2018年的一次不幸。

来自上海市胰腺疾病研究所的曹凯医生，在某三甲医院临床轮转的时候，其导师A教授后来不幸确诊胰腺癌，发现时已是晚期，最终因医治无效在2018年逝世。

痛惜之余，曹医生在翻看A教授的病历数据时发现，其在确诊胰腺癌的十个月前曾在医院体检时拍过一次胸部平扫CT，仔细察看，胰腺部分有一丝病变痕迹。

这让曹医生萌生一种大胆的想法：假若所有胰腺癌患者都能在确诊前的十个月甚至更早，通过体检提前发现癌症病灶，并进行根治性的手术切除，将获得更好的生存质量。

Bert Vogelstein教授也持有类似的观点，任何一个穷凶极恶的晚期肿瘤也都是从癌前病变到1期2期一步一步进化而来。

这件事的难度相当于重新开辟一块“新大陆”。

由于平扫CT图像的对比度极低，多用于肺炎、肺结节等日常疾病诊断，医生也没有在平扫CT上受过癌症诊断的训练经验。而当年AlphaFold的面世，让曹医生意识到，通过引入人工智能的能力，是有可能识别CT上那些肉眼难以察觉的病灶信息，从而攻破胰腺癌的早筛难题，这也成为他此后的临床科研重点。

此去经年，曹医生一直在寻找合适的技术合作方。直至几年前，他与达摩院接触，发现这个研究部门很不一样，既有充足的AI技术储备，同时也有着丰富的临床实践经验。

达摩院医疗AI团队长期注重以技术解决临床的真实需求，与一线医生保持紧密的科研联动，了解到曹医生的科研方向与其导师的故事，也敏锐注意到，假如AI能把最难识别的胰腺癌都搞定，这将极大推动这一领域的前进。

双方一拍即合，随即联同全球10多家顶尖机构发起研究课题，正式向“平扫CT+AI”的大规模胰腺癌早期筛查发起挑战。

其中包括：上海市胰腺疾病研究所、浙江大学医学院附属第一医院、中国医科大学附属盛京医院、复旦大学附属肿瘤医院、上海交通大学医学院附属新华医院、约翰霍普金斯大学、布拉格查理大学第一附属医院、哈佛大学等。

这显然是一支堪称豪华的研究团队。这种阵容的组合搭配，或许才是人类与“癌症之王”在这场旷日持久的斗争中胜出的底气所在。

11月21日，Nature Medicine正式刊发这项研究成果，一个名为“PANDA”（PAncreatic cancer Detection with AI）的胰腺癌早筛模型正式亮相。

PANDA的发布意义在于，证实了在平扫CT上使用AI进行胰腺癌筛查的可行性、而且是中国放射影像领域的科研成果首次刊登Nature Medicine。

达摩院迎战「癌王」

论文题目：基于非增强CT和深度学习的大规模胰腺癌检测

达摩院是怎么做胰腺癌早筛的？普通人什么时候能用上？以及一个直击灵魂的拷问：这真的不是企业AI研究院做着玩？

论文成果一出，围绕着AI能否用于胰腺癌筛查的争论也刚刚开始。

近日雷峰网(公众号：雷峰网)对话达摩院医疗AI团队负责人、IEEE Fellow吕乐，他回复到：Nature Medicine在审稿时也是这样的疑问。首先要看你的training code，然后还要三位资深审稿人独立审稿，其中有一位美国医生在审稿里面问了我们58个问题，说明他这个大临床专科医生（从他提出的的问题的专业性，广度和深入程度上看，肯定是胰腺癌这方面的大专家）多多少少是有点不太相信的。

“因为我们的最大创新之处在于，首次证实了在平扫CT上使用AI进行胰腺癌筛查的可行性，并达到了之前认为可能达不到的高性能。”

直白点说，要把“大规模胰腺癌早筛”这个问题拆解开，最终会发现，这不仅是个技术问题，也是一个是经济问题。

对于任何一个关乎临床的服务，大规模临床数据是技术的最有力背书，再进一步转化为产品，则需要配合现有医疗条件降低落地成本。

有着临床医学背景，曾在美国爱荷华大学和国立卫生研究院（NIH）临床中心从事疾病和人工智能研究的张灵，是达摩院本次胰腺癌早筛工作的项目负责人。

他补充到：“在我们之前，大家不知道平扫CT可以用来检查癌症。过去对肿瘤的检测和诊断，主要使用增强CT，需要给病人注射或者口服造影剂，并不适合大规模筛查使用。”

相比较而言，平扫CT普遍被百姓所接受，在体检和门诊等场景中更为常见，不增加额外费用、检查、辐射等。因此，“让AI配合影像，而非影像配合AI”，成为达摩院最先确立的准则。

达摩院迎战「癌王」

吕乐、张灵

在实际应用中，敏感性（即不易漏诊）和特异性（即不易误诊）是评价医学影像类AI筛查工具的两大标准，但往往需要在一定程度上进行权衡。提高敏感性可能会增加误诊的风险，而提高特异性可能会增加漏诊的风险。

这里分享一组真实的数据和案例：

在历时一年多的开发与验证中，通过对在20530名真实世界连续病例的多场景验证，达摩院训练的这款胰腺癌早筛工具达到了92.9%的敏感性、99.9%的特异性，发现了31例临床漏诊病变，有2例早期胰腺癌病患已完成手术治愈。

其中1例是患者每年都会定期去某三甲医院体检中心进行体检，并安排胸部CT检查，在今年的体检并没有发现任何异常。在其体检后的第7个月，该患者的CT图像数据被纳入到该研究的回顾性临床验证，被检出“有95%概率患有胰腺神经内分泌肿瘤（PNET）”。

在经过多学科会诊后，院方决定召回患者进行磁共振增强检查并成功手术，后续结合术后病理报告，这名患者最终确认为属于早期PNET（G1级别，1.5cm）。接下来半年的随访显示，这位患者的肿瘤并没有复发或转移。

这是实实在在的早发现、早治疗的临床案例。吕乐表示，“癌症如果治疗得当，在指数生长之前抓住它，这个人就有治了，就是会很好治。在美国，一半的医疗费用是患者死前的三个礼拜花掉的。”

这项研究已在阿里云上开放API调用接口，以便医生体验和使用。目前已在医院、体检等场景被调用超过50万次，本地化部署的模型每次检测耗时约40秒，每检测1000次只出现一次假阳性，随着迭代未来还有提升空间。

怎么定义一款好用的AI？

针对这次的研究成果，Nature Medicine罕见地刊发评论文章，称“基于医疗影像AI的癌症筛查即将进入黄金时代”。

论文共同一作、上海市胰腺疾病研究所的曹凯医生认为，“PANDA将拓宽业内对胰腺癌筛查的认知边界，推动临床治疗的发展。”

另一位共同一作、复旦大学附属肿瘤医院放射诊断科的汤伟医生表示，“PANDA提出了一种有潜力的大规模胰腺癌筛查方法，在提升检出率的同时，又不会给病人带来额外的辐射与经济负担。”

上述观点，反映了当下临床医学的一大趋势：在医疗数据与人工智能的交织碰撞下，医生面对各种疾病时的治疗思路和就诊流程都会发生直接变化。

张灵提到，医生是否愿意使用一个AI工具，评价标准非常直观：临床价值、产品力。

前者是指，这个AI产品真正创造了不可或缺的临床价值，给病人解决了性命攸关的生存问题。所以“做什么”是非常关键的；

后者是指，好用、易用，比如一个医学影像的AI工具需要同时保证特异性、敏感性、精度等，还要与临床流程打通集成，无需切换工作流。所以“怎么做”也非常关键的。

这一观点也得到了吕乐的认同，他举了一个用“普通X光+AI”来检测骨质疏松的例子。

通常来说，骨质疏松的诊断需要借助“双能X光”进行骨密度检测。理想状况下，中国每百万人得配12个双能X光机，但是现在中国每百万人仅有0.2个。这时候用“普通X光+AI诊断”，反而是一种更具普及性的选项。

“好的X光图像通常具有3000*4000的分辨率和12位色深，但现在电脑屏幕的分辨率通常是1920x1080和8位色深，这为医生带来了细节上的困扰，需要调整参数以获得准确诊断。”

相比之下，AI的优点在于，能够更准确地处理和分析图像中的像素，而且并不需要额外的成本，因为病人的数据已经在医院的数据库中。AI可以快速处理数据，找到那些需要特定接受进一步骨质疏松筛查的病人。

进一步来说，临床无小事，评估一款医疗AI产品的好坏，不能过于追求技术上的所谓先进性，因为很多时候“高级”和“好用”并不等价。

就拿骨质疏松的模型来说，很多内分泌科医生对AI的理解很深，相信AI来检测骨密度会做得很好，所以寄希望于AI在这个子任务（Narrow Task）上取得超人的效果，而不是像LLM那样可以做许多其他任务的“通用模型”。

作为真正的AI用户--医生感知很重要，直接决定了医院愿不愿意为工具付费。因为绝大多数医生不会关心企业采用的究竟是什么模型和算法，他们只关注你最终交付的是什么样的成品。

回到本次胰腺癌的主题上，显然单纯的公开数据集无法训练出一款好用的AI模型，前提还得是真实的患者数据、专业医生数据标注、以及到医院场景里亲自跑上几遍。

张灵介绍了PANDA模型的训练策略，着重指出三点：

1、依托多家合作的三甲医院，我们构建了迄今最大的胰腺肿瘤CT多中心数据集，其中训练集3000例，但这样的规模对深度学习不算大，设计怎样的算法能最大化精度且保证良好的泛化性？我们尝试过目标检测、语义分割、图像分类、影像组学结合机器学习、联合分割分类等技术路线，最终是级联的联合深度分割分类模型最佳。

2、训练AI筛查模型需要医生手工标注大量肿瘤，而平扫CT图像对比度极低，医生几乎无法标注，我们请医生先在增强CT上勾画，创新性地采用适用于腹部CT图像配准的算法，把增强CT上的勾画迁移到平扫CT上，并以病理金标准确认的肿瘤类型为标签监督模型的学习，从而使PANDA能突破人类医生在平扫CT上检测诊断胰腺癌的天花板。

3、为验证PANDA的临床表现，我们将模型部署至合作医院的IT基础设施与工作流中，进行了2轮大规模的在真实世界多场景（体检、门诊、急诊、住院）连续病人群体的回顾性临床试验。最终达成99.9%特异性，即每1000例测试出现1次假阳性。换句话说，这千分之一的“不完美”就交给医生了。

实践证明，在PANDA检测出胰腺癌的病人中，56%-74%的病人是真胰腺癌，其余的是医生比较容易排除掉的病变（脂肪浸润，胃肠内容物等）。

达摩院迎战「癌王」

达摩院工程师进入合作医院，实地调试部署PANDA

可以看出，与过往的医疗影像AI工具相比，达摩院在打造这款胰腺癌早筛的专用工具时，“数据价值”被不断放大。

吕乐表达了一个观点：为什么OpenAI很强大，发挥出LLM的智慧，因为模型性能最终取决于数据的质量和数量。如果数据比OpenAI的差得很远，一定很难在性能上超越它，因为所有模型本质是一个统计模型。有时候算法改进带来的性能提升，远比不上高质量数据带来的效果更明显。

随后他开玩笑地提到，这或许可以概括为“data curation AI”。尤其是医学领域，大家应该踏踏实实地与临床工作相结合，认识到这是未来发展的趋势。

一个强大、好用且贴合临床实际需求的AI工具，正逐步成型。

吕乐表示，“这次胰腺癌的成果只是达摩院医疗AI多癌筛查的众多研究之一，下一步是推动实现‘8+5’平扫CT一扫多查，覆盖13种致命癌症、慢性病，最终目标是用一个平扫CT检查，通过AI就能够帮病人解决多种疾病的智能筛查、辅助诊断与定量分析。”

Why Me？Why DAMO？

“为什么这件事一定是达摩院来做？”

达摩院本身的定位不是事业部，也不是传统的AI中台，它既摆脱了这两种类型的俗套，又借鉴了它们，因此成为一种奇特的存在，以解决社会问题为导向。

“21世纪的公司，只有解决社会问题才能活下来，不解决问题活不下来的。”2017年达摩院成立初期，马云称。

达摩院重点投入AI for Science，布局医疗、农业、电力等领域，聚焦中长期的科学技术研究以解决社会问题。2020年新冠疫情初期，达摩院紧急研发出“CT影像新冠肺炎AI辅助诊断系统”，曾让阿里达摩院医疗AI团队一战成名，被科技部评为科技抗疫先进集体。

多年下来，达摩院积累了丰富的计算机视觉、深度学习等AI技术，并与医学界、工业界保持紧密合作，将大量前沿技术转化用于临床实践。

总体来说，达摩院都是用“AI来解决那些尚未得到解决、而病人又真切需要的临床需求。”2021年8月起，吕乐担任阿里达摩院医疗AI团队负责人，便定下这条医疗技术第一性原则。

在加入达摩院之前，吕乐已是业界富有盛名的医学影像科学家；加入达摩院后，基于医学影像的癌症筛查和研究进展频出。

2022年10月，达摩院初步验证AI与平扫CT结合的技术可行，有望在体检中查早期食管癌，敏感性特异性超过专家医生水平，相关论文发表在MICCAI 2022。同月，基于深度学习对头颈癌症42个危及器官进行高效精准自动勾划，可有效减少放射治疗的并发症，相关论文登上国际医学期刊Nature Communications。

2023年6月，聚焦于视觉领域著名的OOD（分布外检测）难题，提出了全新的医学图像语义分割框架，能够让AI更准确地识别肿瘤中的疑难罕见案例，目前已在胰腺肿瘤和肝脏肿瘤上获得验证，被计算机视觉国际顶会CVPR 2023评为Highlight论文。同月，基于增强CT的胰腺肿瘤鉴别诊断，发表在医学图像处理顶会IPMI 2023。

2023年8月，发布多癌影像分析通用模型CancerUniT，借助增强CT，可辅助诊断八种主流癌症，该模型的论文成果已被计算机视觉顶会ICCV 2023收录。同月，发布第一个可以分割全身143个器官的连续深度学习框架，该模型的论文成果已被计算机视觉顶会ICCV2023接受。

不久后，达摩院免费开放100件AI专利许可，其中有3件是专门针对癌症的精准治疗，和解决关键的医疗图像配准问题（后来在10月份MICCAI 2023 Learn2Reg竞赛上，达摩院相关医疗图像配准技术以比较明显的优势，获得所有两个赛道的冠军）。

2023年10月，基于CT图像的肝脏肿瘤筛查与诊断、胃癌筛查、肺结节自动检测及良恶性鉴别、胰腺癌预后等几项工作也在MICCAI 2023发表。

2023年11月，达摩院联合全球10多家顶尖研究机构首次提出以“平扫CT+AI”进行大规模的胰腺癌早期筛查，发布胰腺癌早期检测模型PANDA，相关论文成果登上了国际医学顶刊Nature Medicine。

这些标志性成果将达摩院医疗AI与精准医疗紧密联系在一起，也是AI for Science的生动范例。

在吕乐的设想中，未来AI不仅可以辅助医生进行肺结节、癌症等脏器疾病筛查，同时进行心脏病CVD事件十年定量风险打分，腰椎、盆骨的骨骼疾病筛查，从而实现多个检查的同时进行。

“从脖子到骨盆的躯干位置，都可以通过平扫CT+AI输出多个筛查报告，医生结合专业判断再给出最终的诊断总结。”

吕乐表示，云端部署将是医疗AI最好的服务形态，所见即所得，省去很多繁琐的步骤，模型能够实现快速的迭代、部署和应用，为更多病人提供帮助。

“我们不少模型已在阿里云上开放API调用接口，以便我们的合作伙伴，医生与医疗机构使用，最近每天为大概8万人次的病人提供智能化医疗服务。”

透过医疗AI，达摩院找到了前沿技术跟社会问题完美契合的平衡。至于要回应马云“它要活得比阿里更久”的期许，达摩院显然已经走上了正轨。

本文作者吴彤长期关注医疗科技领域，欢迎添加微信互通有无：icedaguniang。

雷峰网