哥伦比亚大学副教授翁春华：大量的医疗数据不正确、不完整并且不可用

本文作者：张利

2017-06-27 10:26

导语：数据质量不高、数据不完整、信息不具体、数据重复、数据分布不均与、信息不集中……

雷锋网消息，近日，由HC3i中国数字医疗网、中关村移动互联网产业联盟移动医疗专委会主办的《2017中美智能医疗大数据峰会》在北京召开，众多专家出席探讨了智能医疗大数据存在的问题。

其中哥伦比亚大学医疗信息学系副教授翁春华以“云计算和大数据带来了很好的机会，但拥抱的同时也应该知道数据可能存在的局限性”开始了她的演讲，她指出医疗数据现状令人担忧。

据翁春华副教授介绍，医疗大数据存在的问题有数据质量不高、数据不完整、信息不具体、数据重复、数据分布不均与、信息不集中等。

哥伦比亚大学副教授翁春华：大量的医疗数据不正确、不完整并且不可用

以下是其演讲内容，雷锋网做了精简编辑。

数据不正确

医院常用的疾病分类标准是ICD9/10，诊断信息最常见的问题是粒度不够。ICD的信息本来都是统计出来的，所以真正有意义的深度信息和表型信息应该来自于文本或者是其它更有意义的数据类型。另外，ICD9/10有漏诊和过渡诊断的问题。

如果生成的数据是医生特别忙的时候，他们可能没有时间把正确的代码找出来，只是找几个特别有用的或可以代表病人疾病的数据，漏掉其它非主要的疾病。如果诊断信息不是医生生成，而是专门人员生成，他们可能会漏掉一些经济价值不高的信息。

我们有一次做研究寻找高血压病人，让他们参与有关高血压的临床测试，结果我们发现所有病人都没有关于高血压的ICD9/10数据，医生说因为所有人都有高血压，所以懒得把信息放在病例里，病人患其它疾病时才会把信息放在病例里。可以看到，电子病例的很多信息是否记录是基于记录人的需要，之后信息会被用来重用或做其他研究分析，如果不知道当初记录信息时的筛选标准，有可能产生误导。

还有就是过度诊断的问题，患者的情况不断变化，有可能以前患有的病现在已经治好了，但这些信息还继续留在那里，当你拿到电子病例的时候，可能以为这个病人还患有这种病。如果基于这些信息分析的话，有可能会被误导。

数据不完整

衡量数据是否完整有4个维度，分别是：有多少医疗事件会被记录；数据类型有多少；同一数据类型是否有完整的数据收集结果；是否有具体的数据值。

长老医院有450万病人的电子病历记录，可以说数据是非常庞大的，但如果用这四个维度衡量一下，结果让人大吃一惊。

我们的实验中纳入了390万个病人信息，只有一半左右的病例满足其中一种完整性标准；1/4满足更严格的数据完整性要求，比如其文本信息和来访时间记录吻合或有多个来访记录等；仅有小部分有充分信息或有研究价值；只有0.6%的病历完全符合4种数据完整性定义。

在此之前，我们乐观地认为有海量数据，可以做很多事情。但分析之后，我们才知道在用数据之前衡量一下数据能做什么非常重要。

数据不可用

数据的重复性严重影响数据挖掘的算法结果解释。病人疾病进展记录中54%是重复的，出院记录的30.7%和登记记录完全一样。电子病例中有很多没有价值、不产生新信息的数据，这些数据分析影响特别大，带来偏见和噪音，降低数据的可用价值，其实其中很多信息根本没用。大家都继续粘贴和复制，更加加大了数据的不一致性。如果需要使用要寻找真实的信息和信息来源，但这个过程很困难。如果欲根据其中数据概念的频率了解概念和疾病的相关性，不能直接用，因为频率受重复性的影响，很多概念是通过拷贝生成的。

更多关于雷锋网的人工智能升级传统行业文章，请关注雷锋网AI商业化垂直微信公众号：AI掘金志（ID：HealthAI）

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

3人收藏

张利

编辑

我是雷锋网医疗科技编辑，欢迎与我交流：zhangli@leiphone.com

扫描关注作者微信

发私信

当月热门文章