宜远智能CEO吴博：医学影像的数据标注、算法方法与算力优化

本文作者：刘伟

2017-12-28 19:37

导语：《未来医疗大讲堂——医学影像专题》第四期总结文。

雷锋网AI掘金志《未来医疗大讲堂——医学影像专题》第四期总结文：一个只给医疗AI从业者、影像科医生、名校师生、CFDA工作人员看的系列课程。

注：90分钟的视频信息量巨大，文章仅为冰山一角，强烈建议观看完整版视频（含57页PPT），请点击链接：http://www.mooc.ai/open/course/384

宜远智能CEO吴博：医学影像的数据标注、算法方法与算力优化

一、数据篇（17页PPT）

1.医学影像数据资产盘点

2.标注工具——脱敏：大框架、小技巧

3.标注工具第一类——PC+文件夹处理

4.标注工具第二类——专用IT系统和工具：客户端系统与网站系统

5.第三方标注工具LabelImg

6.自建工具

7.标注工具开发心得

8.标注工具第三类——专用工具+AI辅助标注

二、算法篇（31页PPT）

1.关于数据分割比例

2.迁移学习

3.框架选型：Pytorch、Caffe、TensorFlow、MXnet

4.目标检测用于面部皮肤疾病分析

数据脱敏及预处理、皮肤疾病检测

5.目标检测用于宫颈基液细胞分析

基于深度学习+GBDT的Two Stage模型

multi CPU+multi GPU宫颈病理三分类系统

6.3D目标检测用于肺结节CT分析：

数据处理、肺结节预测框架、Faster RCNN框架、Online hard Example mining、Loss 函数、框架选择、我们的模型框架、FROC效果提升、模型网络结构（150层+，Unet+Resnet）、分类器与融合

三、算力篇（9页PPT）

1.架构选型决策：品牌 VS DIY

Intel CPU+Nvidia GPU
Power CPU+Nvidia GPU
Intel CPU
Intel +ASIC
Intel +FPGA

2、选型决策：云VS自建

亚马逊云、美团云、阿里云

3.算力优化：CPU GPU 宽带优化、CUDA

吴博从数据、算法和算力三个层面，详细介绍了自己在AI医学影像落地方面的实战经验和心得。

他指出，医疗数据的价值评估与钻石类似，可以从数据质量、同分布来源的影像数据尺寸和数据标注程度这三大维度来考核。没有经过标注的数据就像未经加工的原石，无法体现其价值，因此数据标注是AI医学影像落地过程中至关重要的一环。

吴博对数据标注工具进行了分类，并分享了自己在开发数据标注工具方面的心得。他指出，通过自建工具能够更好地满足项目推进过程中的用户管理、权限管理、多人协作审核，以及模型迭代标注调整等需求。

数据层面，企业能做的决策不多，只能“看菜吃饭”，但在算力层面，企业有很多的选择，比如选择什么样的框架，选择品牌设备还是DIY设备，选择云服务还是自建机房等。在课程的最后部分，吴博详细介绍了许多选型决策和算力优化方面的技巧。

嘉宾介绍：

宜远智能CEO吴博：医学影像的数据标注、算法方法与算力优化

吴博，宜远智能CEO

学术背景：吴博先后在清华大学、香港浸会大学求学，并在英国利兹大学完成博士后，师从计算机视觉专家唐远炎教授等人。与此同时，他也在ICML/ACL等顶级会议发表多篇人工智能论文。

工业界经验：2017年创立医疗AI公司：宜远智能，该公司集结了20多名人工智能博士以及众多海内外医学顾问，为医疗健康领域提供AI增强解决方案，并与多家知名医院达成合作，并推出成型产品。

创立宜远智能之前，吴博曾在爱立信大数据研究院任职。还主导过百亿级虚拟品电商、数字货币系统的业务及数据架构建设与运营。

2017年成果：吴博领导的宜远智能团队在医学影像领域，取得以下成绩：

1.阿里天池医疗AI大赛GPU环节国内最佳；开源系统荣获大赛人气奖。

2.面部皮肤诊断分析API、SDK已经进入商业化，并在2017年世界互联网大会展出。

3.宫颈基液细胞学诊断AI在权威评测中，超出医生水平。

以下图文为雷锋网AI掘金志节选的吴博课程部分内容：

一、数据篇

如何评估数据价值？

医疗人工智能建立在海量数据的基础之上，但优质的医疗数据十分稀缺，其价值随之凸显。如何准确评估数据的价值，是医生和投资人非常关心的话题，对此业内尚未形成共识。

吴博认为，医疗数据可以类比为钻石。钻石的价值评估对应着颜色、净度、切工和克拉这四个维度，医疗数据也可如此类比。

颜色越纯、净度越高的钻石，价值也就越高。对于医学影像数据来说，它的价值也取决于其干净、规范、清晰和标准化的程度。如果是从胶片、PACS系统和诊断报告中翻拍而来的数据，必然会包含一些杂质，其价值将大打折扣。吴博指出，高质量的数据需要是Raw Data，比如mhd格式的DICOM影像和openslide病理图像。

钻石单颗克拉数越高，价值也就越大。吴博认为，钻石的克拉数可类比同分布来源的影像数据尺寸。所谓同分布来源的影像数据，对CT来说就是来自同一设备的，参数和曝光强度都相同的影像数据；对病理图像来说，则指采用同一染色方法和色度、同一扫描仪及倍数，以及相同存储格式的影像数据。

虽然AI企业的最终目标是开发出一套通用性强的算法，能通吃各种数据；但作为数据资产方，同分布同来源的影像数据规模越大，其价值就越高。

有些医院虽然拥有大量数据，但它们来自不同的科室，格式也不尽相同，这种数据的价值是要打一些折扣的。

宜远智能CEO吴博：医学影像的数据标注、算法方法与算力优化

钻石成为商品前需要经过切割等加工，医疗数据同样要经过标注等处理才能释放其价值。钻石的切割工艺分为许多个层级，医疗影像数据的标注亦是如此。从基础的类别标注到类别+病灶方框标注，再到类别+像素级勾画，标注的精细度逐级提升，数据的价值亦水涨船高。

如何选择数据标注工具？

工欲善其事，必先利其器。要想对医疗影像数据进行精细化的标注，首先得有好的标注工具。

吴博将标注工具划分成了三大类别，他将最基础的一类称作“pc+文件夹处理”，即让医生在pc和工作站上对数据进行分拣。对于医生来说，专业的数据标注软件有一定的学习成本，原始的分拣处理减少了学习成本，而且往往行之有效，还具有不受网络影响、安全性较高等优点。不足之处则在于，对后期的数据清洗要求更高，而且过程繁杂，十分消耗人工物力。

宜远智能CEO吴博：医学影像的数据标注、算法方法与算力优化

更高阶的有专用IT系统和工具，包含第三方工具和自建工具。以MIT 的 Pascal VOC 标准标注工具 labelImg为代表的第三方工具虽然功能强大，但在通用性和灵活性方面还有所欠缺，因此企业经常不得不开发一些自建工具。

宜远智能在开发数据标注工具方面积累了许多心得。吴博指出，通过自建工具能够更好地满足项目推进过程中的用户管理、权限管理、多人协作审核，以及模型迭代标注调整等需求。

尤其是在医学影像领域，标注的数据大多为图片，天然具备便于展示的优点，因此可以本着方便易用的原则采用H5的canvas来设计标注工具，同时结合css3的变换，满足图像缩放、标注的需求。标注人员只需打开浏览器即可标注，无需复杂软件部署。

鉴于有些标注图片太大（比如一例CT数据多达几十甚至上百兆，一例病理数据有可能多达1G），网络传输效率低下，有时候需要对标注数据做本地处理。小的项目可以采用数据本地化的方式，使用fiddler等代理软件将网络图片请求代理到本地。大的项目则可以做内网的分布式部署，将标注系统部署在内网服务器上，由标注人员在内网进行标注。

基于这些自建工具，标注人员可以根据需求选择本地标注或在线标注，操作集中于鼠标，交互非常友好。标注人员可根据不同标注需求绘制点/线/框，无需复杂设置，打开浏览器即可标注，也可以清楚看到哪些已标哪些未标。

宜远智能CEO吴博：医学影像的数据标注、算法方法与算力优化

随着技术发展，数据标注本身也呈现出了AI化的趋势。比如基于以往的标注，可以通过AI模型对数据进行预处理，然后由标注人员在此基础上做一些校正。

二、算法篇

（算法篇共有31页信息量极大的PPT）

三、算力篇

吴博认为，算力优化本质上是跟预算做斗争，因为任何一家企业的预算和资源都是有限的，必须做很多的决策，要有所取舍。

数据层面，企业能做的决策不多，只能“看菜吃饭”，有多少数据就做多大的事。但在算力层面，企业有很多的选择，比如选择什么样的框架，选择品牌设备还是DIY设备，选择云服务还是自建机房等。

宜远智能CEO吴博：医学影像的数据标注、算法方法与算力优化

就框架而言，Intel CPU + Nvidia GPU的框架是目前为止的首选，特别是在需要做模型训练的情况下。但企业也可以根据自身需求选择其他框架，比如IBM体系的Power CPU + Nvidia GPU框架，性能也很优异，在CPU与CPU、CPU与GPU、GPU与GPU之间都可以提供非常出色的带宽支持，构成比较高端解决方案。

而且为了追赶Intel CPU + Nvidia GPU的框架，Power CPU + Nvidia GPU提供了很多扶持计划。对于研发团队来说，加入它们的foundation获得算力上的支持是个不错的选择。而且Power和浪潮的合作非常紧密，这意味着它的国产化将不成问题。

此外，还有Intel CPU、Intel + ASIC、FPGA等多种框架，它们各有优缺点，企业可以视自身情况作出选择。

……