6
本文作者: 奕欣 | 2016-08-11 11:39 |
如果用上帝视角观察医生的一天,你会发现医生实际上要进行不少重复性劳动。
重复性劳动可以体现在三个方面:交互、发现和决策,而这些都可以为机器所胜任:
交互层面:医生在问诊时和患者的询问性交互,针对患者的用药指导、患者追踪等;
发现层面:保险审核人员在医保单据审核中的机械重复性劳动,医生对治疗方案的校对审核等;
决策层面:医生根据患者的症状表现、辅助检查,给出诊断结果,根据诊断结果给出治疗建议等。
整体说来,医学是一门知识驱动类学科,只要从多维度收集足够多、足够可靠的知识,就能在辅助决策层面发挥巨大的价值,把医疗人员从繁杂的重复性劳动中解放出来,进而去做更多有创造性的事。
如果能利用人工智能帮助医生在浩如烟海的医学知识里对应症状和疾病,甚至辅助医生决策并对症下药,无疑能够提升医疗资源的优化效率。康夫子CEO张超做的正是这样一个“医疗大脑”——利用人工智能技术,从医学文献中自动学习知识、构建知识图谱、实现知识推理,再将普通公众对症状的描述及疾病的理解准确地映射在严肃医疗平面。
北京康夫子科技有限公司CEO 张超
张超在百度工作五年,担任自然语言处理部资深研发工程师、文本知识挖掘方向负责人。和网民的搜索行为打交道,已经成为他工作的常态。
一次偶然的机会,张超发现网民对一些医疗健康类问题往往在百度上会翻看很多页结果,但呈现的内容实际上良莠不齐。由此,张超产生了利用人工智能代替网民整理页面的有效信息,以提升用户体验的想法。
当时张超瞄准了对营养最为看重的一个群体——孕妇人群来构建知识图谱,推出了一个“饮食记录分析”的功能。通过孕妇的日常饮食记录,用户可以判断营养摄入是否均衡,进而获取更科学的膳食指导。
想法很美好,然而在实际操作中收效甚微。张超告诉雷锋网,在产品上线后,只有不到20%的孕妇会去尝试去记录自己的饮食,不到8%的孕妇能连续记录1周。
张超由这次创业中得到了教训:虽然孕妇人群对营养的要求关注甚高,但在现阶段,网民对营养还处于“叶公好龙”的阶段。“营养不是刚需,在一定程度上还带着“反人性”的特征。”
而一些B端公司了解到康夫子在做的知识图谱,希望能以付费形式来使用他们的服务。而考虑到相对于“营养”,“医疗”的痛点更加突出,也让张超开始想做刚需,想做“我们最擅长的事”。
而这一切,就从优化医疗行为中的重复性劳动开始。
在今年3月份,康夫子开始为B端提供知识和技术服务,而它们也从原来的“饮食建议服务商”转向成为“医疗人工智能技术、知识、数据提供商”。
知识图谱在数据表现层面由两部分组成:首先是实体节点,其次是实体之间的关系。举个例子:疾病名、症状名、药品名、化验指标这些数据是实体节点,每个节点和节点之间都有一一对应的关系,比如疾病和症状的对应关系、某种疾病需要使用什么药品、疾病需要做哪些化验等。而在实际的诊断中,还会涉及更多的对应关系。
康大夫在做的知识图谱,主要就是教会计算机在阅读海量文本后,自动给出描述某种知识的书写规律,并进行大规模的知识自动抽取(Information Extraction)。
数据抽取主要分为四步:
1. 数据预处理,比如,数据清洗、分词、专名识别、指代消岐等任务;
2. 模式学习,基于上亿条文本,自动去发现这些文本的书写规律;
3. 知识抽取,针对上亿条文本,以继续学习到的模式进行二次抽取;
4. 增强学习+Bootstrapping,基于一些标注数据、判断准则,不断重复第2、3点,并给出准确率超过99%的结果数据。
有了完善的知识图谱,还远远不够,系统要具备推理能力才能实现智能诊断。在康夫子系统上,这体现在两个方面,一是知识向量化表示,这一步也是构建口语化医学和文献专业术语的桥梁的关键步骤。也就是,将患者描述的通俗语句“翻译”为专业术语(如“抽筋”和“痉挛”的对应关系);二是判断多种症状综合下和疾病之间的权重,配合诊断模型,提升诊断的命中率。
而比起其它知识图谱的构建有所不同的是,医学知识的分散性及无结构化这两大特性,导致医学图谱的构建更加困难。比如在娱乐领域,从娱乐站点、百科知识就能快速挖掘明星的作品、配偶等知识关系,但在医学领域,需要阅读大量权威文献后进行抽取,才能达到预期效果。
再有一点就是逻辑应用,医生囿于知识壁垒及医学本身的复杂性,在诊断领域无法面面俱到的情况下,康大夫能够给予交互,根据患者的回答情况进一步判断病症。
康夫子的主要业务内容主要包括API服务和临床辅助决策两部分。根据张超的说法,康夫子已经完成了对药物知识图谱的构建,目前覆盖近30万种药物,针对100种常见病的典型症状准确率已超过90%,针对4000种热门疾病的典型症状的命中率也超过80%。
虽然在诊断效果上已经超过绝大部分全科医生,但康夫子系统仍不能独立完成诊断。除了伦理因素外,实际场景的诊断复杂度也使人工智能技术目前只能针对特定任务进行处理。这也让张超坚定了服务于B端的想法,“我们不直接服务与患者,但是患者可以通过我们的B端合作伙伴获取服务。”
在张超的理解中,作为一门60年的学科,针对特定任务的人工智能应用在未来3-5年会融入到每个人的生活当中。而以自动驾驶、围棋为代表的逻辑驱动,和以医疗为代表的知识驱动就是人工智能的两个“引擎”。当然,除了在智能诊断领域继续完善知识图谱外,张超同样希望以知识为动力的医疗智能化能在逻辑层面更好地服务人类,比如虚拟助手、药物挖掘、智能诊断方案等,让医生真正从繁杂的劳动中解放出来。
雷穿戴是雷锋网旗下公众号,关注运动健康方面的产品和技术。如果你想聊聊自己的创业故事,可加小编微信417423625,或发邮件至 guoyixin@leiphone.com。
雷峰网原创文章,未经授权禁止转载。详情见转载须知。