康奈尔大学王飞博士：AI处理医疗数据面临的8大挑战

本文作者：张利

2017-07-26 21:32

导语：数据质量、数据量、数据标准……

雷锋网按：本文转自HC3i中国数字医疗网，作者王飞博士，他是康奈尔大学威尔医学院助理教授，IBM沃森研究中心顾问，法国液空集团研究顾问。曾任职于康涅狄格大学以及IBM沃森研究中心。主要研究方向包括数据挖掘，机器学习技术在医疗信息学中的应用。王飞博士已经在相关方向的顶级国际会议和杂志上发表了近190篇学术论文，引用超过5000次，H指数38。

随着国务院发布新一代人工智能发展规划，“人工智能”这个已经在最近家喻户晓的名词再一步被推向了风口浪尖。对于医疗健康这一与人类息息相关的行业来讲，一个自然而然的话题便是如何让人工智能来帮助其发展。

人工智能的一个核心问题是让计算机算法从数据中发现有价值的东西。这里的“价值”依具体问题而定。例如对IBM的沃森，价值便是从无数文献当中总结出来的知识；而对于AlphaGo，价值便是从无数棋谱中总结出来的可以致胜的规则。近些年来也不断有一些将人工智能技术应用于医疗的尝试，例如斯坦福的研究员利用神经网络来分析图像中的皮肤病变是否有可能是癌症，Google利用深度学习来通过眼底图像分析识别病人是否患有糖尿病。

随着各种各样与人工智能相关的技术，例如计算机硬件和软件的快速发展，我们能够接触到合理用的数据越来越多。然而，要将AI应用到医疗数据当中，并从医疗数据中发现真正的价值，我们还需要考虑如下一些问题。

第一，数据质量

与很多其他应用领域（例如图像，语音）的数据不同，医疗数据种类繁杂，标准不统一，并且质量参差不齐。例如电子病历数据，只有当病人去过医院或是诊所的时候才会有记录，并且病人通常只有在感觉不适的时候才会去医院，这就导致了电子病历天然的不完整性。并且病人并不一定会严格尊重遗嘱进行检查或是吃药，这就造成了电子病历的不规律性。还有电子病历在录入的时候经常会发生错误，并且在很多检查中由于仪器的差别记录的精度和数值也都不同。在这种情况下，有效的评估数据质量就成为了在挖掘数据价值之前必须要解决的问题，因为在低质量的数据上不大可能挖到有价值的信息。

第二，数据标准

不同的国家有不同的语言以及不同的卫生体系，这也就导致了他们医疗数据的标准不同。甚至对于同一个国家，例如美国，也存在着如Epic，Cerner，NextGen等几套不同的电子病历系统。通常要从数据中挖掘有效信息的一个前提条件是要有足够大量的数据。将医疗数据标准化，便是统一不同电子病历系统，获得更多病人数据的首要任务。在这方面，OHDSI (ObservationalHealth Data Sciences and Informatics)是一个面向健康数据标准化的国际组织，而我们也已经成立了OHDSI中国工作组，致力于推动中国电子病历标准化，构建国内的大型观察性健康医疗数据网络。

第三，数据量

当前的健康医疗数据分析，尤其是在精准医疗的大环境下，大都是基于病人的分析。而全世界也只有七十亿人，再细化到每一个国家，每一个地区，甚至每一个医院，我们能够利用的数据的样本量实际非常的少。从这个角度讲，与其说健康医疗数据分析是一个大数据问题，倒不如说是个小数据问题。除去电子病历，有很多其他类型的健康数据，例如通过可穿戴设备或是传感器采集的数据，就更是小样本。随之也出现了一些新的概念，例如N-of-1 Trial研究的就是基于单个患者的多重交叉设计的临床实验。如何让数据分析方法在小样本下发挥作用，是一个非常重要的问题。

第四，数据维度和异质性

由于疾病的机理异常复杂，我们可以用海量的特征和指标刻画每一个病人的体征，从临床数据到基因数据，从电子病历数据到调查问卷数据，从病人本身的数据到环境数据，从结构数据到非结构数据，从文本到图像等等。在这样的情况下数据的维度可以成千上万甚至百万，并且数据的性质，包括类型，值，特点均不尽相同。而本条也与刚刚提到的第三条紧密相关：因为我们没有办法得到足够多的病人，那我们就需要采集尽可能全面的信息来刻画描述每一个病人。如何集成这些各种各样的病人数据来挖掘有效的信息，是对数据分析方法的另一个挑战。

第五，数据偏倚以及模型的推广性

由于前面所说的种种挑战，我们通常进行的分析是基于某一特定的病人人群，例如一个医院或是一个地区。在这些病人的数据上训练出来的模型只能保证在这些病人，或是与这些病人类似的病人上是有效的。如何增强模型的推广性与互操作性，使其能够在不同的人群上面有效，是一个很重要的问题。举个例子，生成对抗模型(GAN)是最近深度学习领域一个非常流行的样本生成模型，其主要目的就是通过对抗来生成尽可能“真”的样本，使得人无法区分哪些样本是真实的，那些是由GAN生成的。由于病人样本有限，一个自然的想法便是用GAN来生成虚拟病人。但是由于GAN是根据训练样本来生成新的样本的，其真伪也只能根据训练样本来判断。这样的话，如果我们用GAN来生成虚拟病人，就会更加增加数据偏倚，而在这些病人上面训练的模型推广性就会变的更差。

第六，模型的可解释性

在医疗健康领域，只有模型的准确性是不够的，模型的可解释性同样重要。这是因为医疗健康与每个人的生活息息相关，我们不仅需要知道结论，更需要知道为什么会有这个结论。这样就使得白盒算法，例如决策树，再医疗数据分析中的应用就远多于黑盒算法。而这也对黑盒算法，例如大多数的神经网络或是深度学习算法提出了挑战。而可以帮助解释模型的技术例如可视化，人机交互乃至统计就显得异常重要。

第七，模型的适用性

这也是最容易被大多数计算机行业的从业者，特别是算法设计和开发人员忽视的一点。由于人工智能技术的流行，大家容易追逐技术热点而忘记了医学问题本身。例如由于AlphaGo的成功，强化学习变得家喻户晓。而很多从事医疗健康数据分析的研究人员也都在试图将强化学习应用于医学问题当中。然而强化学习的一个必备环节是要与环境进行交互，从而判断每一步的策略是否能够对最终的目标产生最大的效果。而这一环节在医学问题当中是否存在？如何能够穷尽所有可能的选择并且判断一个临床路径当中每一步的选择对最终结果的影响？这些都是需要仔细考虑的问题。

第八，数据和模型的隐私性

隐私性是医疗健康数据有别于其他数据的一个重要特点。各个国家都有不同的法案在保护病人数据的隐私，例如美国的HIPAA法案，而卫计委也一再强调在发展健康医疗大数据的同时一定要警惕数据安全，保护患者隐私。因此我们在研究医疗健康数据挖掘算法的同时一定要注意隐私保护。此外，除了保护数据隐私，保护模型的隐私也同样重要。举个例子，2014年维斯康辛大学与Marshfield Clinic在计算机安全顶级会议USENIX Security Symposium上发表了一篇文论，讨论在精准医疗大环境下药物基因组学的隐私性研究。该文论指出了通过华法林的计量可以通过逆向工程推断患者的基因信息。而通过数据扰动等方式保护患者隐私通常会产生严重的后果，甚至患者致死。该文章指出，在精准医疗的大环境下这类隐私问题会越来越多。这样一来，我们不仅要保护数据，同样要保护数据上建立的模型。而该论文也获得了当年会议的最佳论文。

总之，人工智能的时代已经到来，为了拥抱人工智能数据分析一定会带来一场医疗健康的技术革命。如何正确的挖掘医疗健康数据，从数据中得到有价值的信息，是一个值得每一个从业者仔细考虑的问题。我们相信，人工智能一定会把医疗变得更美好，把每个人变的更健康。

更多关于雷锋网人工智能升级传统行业的文章，请关注雷锋网AI商业化垂直微信公众号：AI掘金志（ID：HealthAI）。

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

6人收藏

张利

编辑

我是雷锋网医疗科技编辑，欢迎与我交流：zhangli@leiphone.com

扫描关注作者微信

发私信

当月热门文章