AI 诊疗为何还停留在实验室？数据是硬伤

本文作者：奕欣

2016-09-19 16:00

导语：这条路比想象的要长。

想象一下：在未来的某一天，如果 AI 诊疗成为了现实，你就能直接在医院用电脑看病了。通过化验的数据，系统很快就给了你一个诊断结果，让你乖乖去开药吃药，甚至决定要不要手术……虽然这个过程听上去很便捷也很美好，但要抵达 AI 诊疗的乌托邦，实际上并没有那么简单，且不论它的砖瓦尚在建设当中，要走向乌托邦的路途，同样没有想象中的容易。

停留在实验室里的 AI 诊疗

AI 诊疗的用户群体并不只局限于辅助医生，按照服务群体的不同，可以分为四个层面：

回复患者咨询；
辅助导诊人员、药店人员、医疗在线客服；
基层医生及全科医生的临床辅助决策；
面向医生的患者康复跟踪。

而以上功能要和 AI 诊疗扯上关系，医疗创业公司如果没有大量的数据，要做成一个成熟的产品简直无从谈起。

创业公司在数据匮乏的情况下，目前的主要方式是和医院或数据中心合作，获取相关的数据。而这些数据主要的用途尚不是用于医院实战诊断，而仅仅是前期的积累工作——通过海量临床数据来优化算法。

人工智能诊断新星 Enlitic 的创始人 Jeremy Howard 曾一度表示，缺乏数据是制约它们发展的主要原因。而它在去年获得 Capitol Health 领投的 1000 万美元融资，通过后者提供的放射科数据完善诊断算法。通过海量医疗数据的挖掘，实现对医学影像的实时准确诊断，提供患病概率预测，并辅助医生决策。

而目前最为成功的 AI 诊疗系统非 IBM 的Watson 莫属了。根据东京系统与软件开发研究所 Watson Health Cloud 的软件工程师林雪婷此前向雷锋网的介绍，系统需要有可以进行合作的研究中心，以获取准确的数据来源。 Watson获取数据的做法主要是和美国第二大连锁药店 CVS 合作，获取用户的行为信息、临床数据、购药数据及保险信息等，或是和各地的实验室及研究中心合作。

然而，目前的研究工作主要还是局限在实验室中。即便有着 Watson 诊断白血病的成功案例，它距离临床实验还有一定距离。

AI 诊疗为何还停留在实验室？数据是硬伤

hsnewsbeat

数据的有效性

AI诊疗最大的硬伤在于为医疗研究所收集的数据，与真实问诊还有距离。

一个原因在于数据规模小。目前大部分科技公司的做法是，通过向医院机构获取数据，而予以定制化解决方案作为交换，但这些临床数据只能算是“小打小闹”。

雷锋网简单为大家算笔帐：仅仅在英国，每天就有接近200人无法看到明天的英国雨景（顺手一黑）。而到2020年，全球因AMD（一种因糖尿病继发的视网膜病变）而失明的人将达到2亿人。

但是，就算是谷歌DeepMind和英国百年老医院 Moorfields这样的强强联手，到目前的训练数据也只能达到 100 多万张匿名扫描图。这样一对比，独立医院所能提供的数据和全球患者相比简直是沧海一粟。而与此同时，对于疾病的数据获取就会受到地域甚至是病种的局限，这就让数据的有效性打了个折扣。

另一个问题在于数据的质量有待提高。电子化程度不够，数据采集方式良莠不齐、缺乏标准体系及结构化程度低的数据来源，更让临床试验带来了困难。

医疗数据不像金融数据一样，颗粒度和专业度已经比较成熟，目前医院的 HIS及 EMR 的程度还远远不够。“数据的质量是有效分析的基础，目前数据清洗工作占据了太多工作量，终究还是质量的问题。”树兰医院 CEO 郑杰如是说。他认为，使用医院信息系统的多为平均年龄较大的医生，对接纳最新信息系统的排斥度较高，且没有进行数据分析的迫切动力，因此“也就很难建立优秀的数据结构和数据质量” 。

雷锋网询问了几位一二线医院的医生，他们表示目前医院并没有引入相关的人工智能诊断设施，因为准确率并不乐观，尚处于观望状态，但不排除“在法规允许的情况下，将人工智能诊断做为辅助诊断。”

康夫子 CEO 张超对雷锋网表示，“目前市面上的诊断（做了很多年的专家系统），主要还是基于症状，少数能加入化验数据，但实际上，病史、用药、诱因等等都需要逐步学习。”化验的数据，更多的是做为一个当下的参考，而医生的“望闻问切”，则是对症状、诱因、病史、用药史等多个维度的综合考量。而数据的质量不佳，必然会阻碍人工智能的学习。

除却数量和质量外，法律的缺失也给数据的有效性打了个问号。

且不论这些到手的数据质量的信息化水平如何，更不要说此前，DeepMind 因为和 NHS 达成了每年160万的数据交换而引致舆论攻击了。而苹果在最新的规范中同样不允许开发者将数据存储在 iCloud 上，也是科技公司为了规避泄漏数据伴随而来的风险所做的规范。

截至现在，国内外都没有相应的 AI 诊疗相关法规，对于相关的责任主体及就诊流程，也缺乏一个明确的规范。目前国外第三方只能根据 HIPPA 协议使用个人数据的统计信息，这个颁布于 1996 年的医疗保险携带和责任法案旨在保护患者隐私和健康有关的电子数据，并且让数据的交换过程尽可能标准化。

HIPAA 的安全原则所定义的技术保障并不要求使用某一项具体的技术，而是一个可调整的框架，要求机构为了保护数据安全，尽可能多地采用适宜的技术，而这些安全方案需要实现“检查控制、信息完整、数据传输等” 多种要求。

医学数据出于隐私的顾虑，通常不可能大范围地进行分享，而囿于人们对病痛的天然排斥，对于患病的化验数据自然更是不愿意向他人“分享”的，各家医院的“信息孤岛”问题又加剧了这一现状。

venturebeat

小结

简单说来， AI 诊疗未能快速发展的主要原因，在于数据的数量和质量在目前阶段尚不足以支持真实问诊环节。诊疗是一个非常个性化及私人化的活动，要让就诊数据得到大规模的开放和运用，除了在基于语义的自然语言处理上进行大数据分析外，也需要法律的支持和保护。

这样，医疗大数据才能在有效性上真正服务于人工智能的探索，为 AI 诊疗提供帮助和支持，说不定在不远的未来，我们就能抵达乌托邦，享受到电脑看病的便利了。