深度 | CMU 邢波教授团队最新成果：利用 AI 自动生成医学影像报告

本文作者：李雨晨

2017-11-30 12:41

导语：雷锋网消息，近日，由卡内基梅隆大学机器学习系副主任邢波教授创立的 Petuum 公司近期发表了几篇论文，介绍了如何使用机器学习自动生产医疗图像报告，从而更好地辅

雷锋网消息，近日，由卡内基梅隆大学机器学习系副主任邢波教授创立的 Petuum 公司近期发表了几篇论文，介绍了如何使用机器学习自动生成医学影像报告，从而更好地辅助医生做治疗与诊断。

医学影像在临床实践中被广泛应用于诊断和治疗。专业医师阅读医学影响并撰写文字报告来描述自己的发现。对于没有经验的医生来说，撰写报告很可能会出错，对于人口众多的国家的医生来说，这样的工作又耗时又枯燥。为了解决这些问题，邢波教授的团队研究了医学影像报告的自动生成，作为人类医生更准确高效地生成报告的辅助工具。

为了应对这些挑战，邢波的团队建立了一个多任务学习框架，共同执行标签的预测和段落的生成；提出一个共同注意机制（co-attention mechanism），将包含异常的区域标注出来；利用一个层次LSTM模型来产生长的段落。

医生不愿撰写“医学影像报告”

放射学和病理学的医学图像被广泛用于医院和诊所，例如肺炎、气胸、间质性肺病、心力衰竭、骨折等等。他们通过撰写文字报告（图1）来描述在影像学检查中所检查的每个身体部位的发现，特别是每个部位是否被发现是正常的，异常的或潜在的异常。

深度 | CMU 邢波教授团队最新成果：利用 AI 自动生成医学影像报告

图 1. 一个包含三部分信息的胸部 X 光报告示例。在 impression 部分，放射专家结合 Findings、病人临床历史及影像学研究的指导做出诊断。Findings 部分列出了影像学检查中所检测的身体各部分放射学观察结果。Tags 部分给出了表示 Findings 核心信息的关键词。这些关键词使用医学文本索引器（MTI）进行标识。

对于经验较少的放射科医师和病理科医师，特别是那些在医疗保健条件落后的医生，写医学影像报告是一件困难的事情。要正确读取胸部X线图像，他们需要以下的几项技能：

对胸部正常解剖结构和胸部疾病的基本生理学的全面了解
通过固定模式分析射线照片的技能
评估随时间变化的能力
临床表现和病史知识
与其他诊断结果（实验室结果、心电图、呼吸功能检查）相关的知识

但是，对于有经验的放射科医师和病理学家来说，撰写影像报告又过于繁琐和费时。在中国这样人口众多的国家里，放射科医生每天可能需要阅读数百张放射图像。将每幅图像的分析结果输入计算机大约需要5-10分钟，这占用了他们大部分的工作时间。

邢波的团队认为，自动生成医学影像报告是一件有意义而且有必要的事情，但同时，这项任务也面临几个挑战。

首先，一份完整的诊断报告由多种不同信息形式的内部报告组成，如图1所示，胸部X射线的报告包含 Impression描述，通常是一句话；Findings 是一段描述；Tags 是一列关键词。用一个统一的框架生成这样的不同信息，对技术提出的要求很高。我们通过构建一个多任务框架来解决这个问题，该框架将标签的预测作为一个多标签分类任务来处理，并将长描述（例如生成 Impression 和 Findings）的生成视为文本生成任务。在这个框架中，两个任务共享相同的用于学习视觉特征的CNN并且共同执行。

其次，一个影像报告通常更多地集中于描述异常的结果，因为它们能直接指出疾病并指导治疗。但如何定位图片中的病变区域并附上正确的描述非常困难。我们通过引入共同注意机制（co-attention mechanism）来解决这个问题，同时参与图像和预测到的标签，并探讨视觉和语义信息的协同效应。

最后，成像报告中的描述通常很长，包含多个句子甚至多个段落。生成长文本是非常重要的，我们没有采用单层LSTM（这种LSTM不能模拟长序列），而是利用报告的组成性质，采用分层LSTM来生成长文本。结合共同注意机制，层次型LSTM首先生成高级主题，然后根据主题生成详细的描述。

数据集方面，研究人员使用的是印第安纳大学胸部X射线组（IU X射线），这是一组与相应的诊断报告对应的胸部X射线图像集。该数据集包含7470对图像和报告。每个报告包括以下部分：impression, findings, tags, comparison and indication 。邢波团队将impression和findings中的内容视为要生成的目标，并将MTI生成的标记作为报告的标记。

定量结果

我们使用以下文本生成评估手段（BLEU 、METEOR 、ROUGE 和 CIDER）度量段落生成（表 1 上半部分）和单语句生成（表 1 下半部分）的结果。

如表1的上半部分所示，对于段落生成来讲，使用单个 LSTM 解码器的模型的表现明显要差于使用层级 LSTM 解码器的模型。表1中的Ours-No-Attention和CNN-RNN 之间的唯一区别在于，Ours-No- Attention采用层级LSTM解码器，而CNN-RNN 仅采用单层LSTM。这两个模型之间的比较直接证明了层级LSTM的有效性。

深度 | CMU 邢波教授团队最新成果：利用 AI 自动生成医学影像报告

这个结果并不令人惊讶，众所周知，单层LSTM不能有效地模拟长序列。此外，单独使用语义注意（Ours-Semantic-Only）或单独使用视觉注意（Ours-Visual-Only）来生成主题向量似乎帮助不大。潜在的原因可能是视觉注意力只能捕捉图像分区域的视觉信息，而不能正确描述。虽然语义注意只知道潜在的异常，但不能通过查看图像来确认其发现。最后，我们的完整模型（Ours-CoAttention）在所有的评估指标上都取得了最好的结果，说明了提出的共同注意机制的有效性。

对于单句生成的结果（如表1下半部分所示），我们模型的控制变量版（Ours-Semantic-Only和Ours-Visual-Only）与其他版本相比，要优于所有的基线模型，这表明了所提出的共同注意机制的有效性。

定性结果

段落生成

三个模型生成影像病理报告的示例见图3，分别为Ours-CoAttention模型，Ours-No-Attention模型和Soft Attention模型。值得注意的是，下划线的句子是对异常情况的描述。首先，我们可以观察到三个模型生成的报告所包含的句子比真实报告多。其次，三个模型生成的报告和真实报告大多数的语句都是对于正常区域的描述，而只有几句话是关于异常情况的。这个观察可以解释为什么 Ours-No-Attention模型在一定程度上不能达到非常好的水平。

深度 | CMU 邢波教授团队最新成果：利用 AI 自动生成医学影像报告

图 3. 协同注意力、无注意力、软注意力模型生成的段落图示。划线句子是检测到异常情况的描述。第二个图是胸部侧面 x 光图像。前两个例子的结果是与真实报告相一致的，第三个出现了部分失败，最底下的图像完全失败。这些图像来自测试数据集

当我们深入了解生成文本的内容时，发现不同句子具有不同的主题，这是令人惊讶的。第一个句子通常是对图像的整体描述，而以下的句子分别描述图像的其他区域，例如：肺脏、心脏等。另外值得注意的是，Soft Attention模型和Ours-No-Attention模型只能检测图像中的异常情况，往往检测到的异常情况还是错误的。但是，Ours-CoAttention模型在前三幅图像中均能够正确描述图像中异常情况。结果表明，与Ours-CoAttention 模型及Ours-No-Attention模型相比，层次型LSTM可以更好地生成病理报告。

在第三张X射线图中，Ours-CoAttention模型成功检测到右下叶肺部有异常。然而，它没有准确地描述这种异常。相比于其他X射线图来说，第三张X射线图比较暗，这可能就是Ours-CoAttention模型描述错误的潜在原因，我们的模型对这个变化非常敏感。Ours-CoAttention模型对于第四张X射线图的描述是一个失败案例。虽然模型错误地判断了图像中的主要异常，但是它确实找到了一些不寻常的区域。比如：左下叶肺部异常。此外，发现模型给出的报告中有“这可能表明”的字眼，说明模型试图推断所患疾病，这是十分令人惊讶的。

为了更好地理解模型检测疾病或潜在疾病的能力，我们在表2中，给出了三大模型正态性和异常性的概率。我们认为句子包含“否”、“正常”、“清除”、“稳定”作为句子描述正常。很显然，Ours-CoAttention模型在正态性和异常性的概率上最接近真实情况。

深度 | CMU 邢波教授团队最新成果：利用 AI 自动生成医学影像报告

表3中的结果表明，Ours-CoAttention和VGG-19 网络对于标签预测的执行非常相似。尽管多任务学习没有改进，但我们认为，这个模型是一个端到端的模型，避免了管理复杂的流水线模式。

图4显示了共同注意的可视化。图4所示的第一个特性是 Sentence LSTM 能够关注图像的不同区域和语句的不同标签，并在不同的时间步骤生成不同的主题。第二个特性是视觉注意力可以指引模型关注图像的相关区域。例如，第一个例子的第三个句子是关于“有氧”的，视觉注意力集中在心脏附近的区域。类似的行为也可以被发现的语义注意：对于第一个例子中的最后一句话，我们的模型正确地集中在作为句子的主题“退化变化”。

此外，第二个例子中的第一句话的内容与语义注意力的集中矛盾是令人惊讶的。单一关注机制不太可能发生。这种矛盾意味着共同关注机制具有一定的容错性，因此共同注意可能比单一关注更为强大。

最后，最后一个例子的第一句话是由于对标签不正确的注意而导致的错误描述。我们相信通过建立一个更好的标签预测模块可以减少不正确的注意力。

深度 | CMU 邢波教授团队最新成果：利用 AI 自动生成医学影像报告

图 4. 协同注意力在三个示例上的可视化。每个示例由四部分组成：（1）图像和视觉注意力；（2）真实标签，预测标签以及预测标签上的语义注意力；（3）生成的描述；（4）真实描述。对于语义注意力而言，注意力分数最高的三个标签被突出显示。加下划线的标签是在真实标签中出现的标签。

图4还提供了标签预测的一些定性结果。结果表明，除了与图像相关的标签之外，该模型还产生许多不相关的标签。尽管共同注意机制可以过滤掉很多干扰标签，但不相关的标签仍然会误导模型，产生很多误报。我们相信一个更好的标签预测模块将有助于建模来关注正确的标签，从而帮助提高生成文本的质量。

结语

雷锋网了解到，近年来，人工智能，尤其是深度学习的成熟使得市场上出现了很多AI辅助诊断产品。人类基因组测序技术的革新、生物医学分析技术的进步、以及大数据分析工具的出现，为病人提供更精准、高效、安全的诊断及治疗。虽然，人工智能+影像领域也是参与企业最多，产品最丰富、涉及疾病种类最多的疾病诊断领域。，但是AI也能够参与疾病的筛查和预测、写结构化的病历、在基层担任全科医生助手的角色，AI在减少医生工作时间、提高诊断治疗效率方面起到非常大的作用。

邢波的研究团队认为，他们工作的主要贡献是：提出了一个多任务学习框架，可以同时预测标签和生成文本描述；引入一个用于定位异常区域的共同注意机制，并生成相应的描述；建立一个分层的LSTM来产生长句和段落；进行大量的定性和定量的实验，以显示实验方法的有效性。

雷锋网认为，邢波教授团队的研究成果不是第一家，相信也不会是最后一家。未来，随着产品迭代的不断升级，算法层面的不断打磨，医学影像结构化报告的生成方面的研究，将陆续有其他玩家进入。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

7人收藏