CNCC 人物 | 深度学习处理器领军人物 —— 陈云霁

本文作者： no name

2016-10-11 15:12

专题：2016中国计算机大会(CNCC 2016)

导语：传统的 CPU 和 GPU 芯片在进行神经网络处理时有严重的性能和能耗问题。陈教授研发在深度学习处理器方面的开创性工作，能大大优化性能，并将能耗降低多个数量级。

陈云霁，男，1983 年生，江西南昌人，中国科学院计算技术研究所研究员，博士生导师，CCF 会员，曾获 2014 年度“CCF青年科学家奖”。同时，他担任了中国科学院脑科学卓越中心特聘研究员，以及中国科学院大学岗位教授。目前他带领其实验室，研制寒武纪系列深度学习处理器。他在包括 ISCA、HPCA、MICRO、ASPLOS、ICSE、ISSCC、Hot Chips、IJCAI、FPGA、SPAA、IEEE Micro 以及 8 种 IEEE/ACM Trans. 在内的学术会议及期刊上发表论文 60 余篇。陈云霁获得了中国青年科技奖、首届国家自然科学基金“优秀青年基金”、首届国家万人计划“青年拔尖人才”和中国计算机学会青年科学家奖，入选 2015 年度《麻省理工科技评论》35 岁以下的全球最佳 35 名创新人士。他还作为负责人带领科研团队获得了全国“青年文明号”和中央国家机关“青年文明号”的称号。

《麻省理工科技评论》曾发文称赞道：陈云霁 14 岁进入大学，24 岁取得计算机博士学位，令人印象深刻。他正在设计能深度学习的处理器，以优化机器学习的基本模块，这可能让深度学习的功能未来在移动设备或可穿戴设备上实现。

陈云霁教授毕业于中科大少年班，后师从龙芯首席科学家胡伟武，曾任龙芯 3 号总设计师。龙芯是中国科学院计算所自主研发的通用 CPU，采用简单指令集，类似于 MIPS 指令集。龙芯 1 号的频率为 266MHz，最早在 2002 年开始使用。龙芯 2 号的频率最高为 1GHz。龙芯 3A 是首款国产商用 4 核处理器，其工作频率为 900MHz ～ 1GHz。龙芯 3A 的峰值计算能力达到 16GFLOPS。龙芯 3B 是首款国产商用 8 核处理器，主频达到 1GHz，支持向量运算加速，峰值计算能力达到 128GFLOPS，具有很高的性能功耗比。

10 月 22 日，陈云霁教授将参加 2016 中国计算机大会，并作为本次 CNCC 大会的特邀嘉宾发表主题报告《深度学习处理器 deep learning processor 》。

以深度学习为代表的人工神经网络是机器学习最重要的方法之一，在云端和终端都有非常广泛的应用（例如广告推荐、自动翻译、语音识别、图像识别等）。然而传统的 CPU 和 GPU 芯片在进行神经网络处理时遇到了严重的性能和能耗瓶颈。近年来，陈云霁教授所在课题组和法国 Inria 合作设计了国际上首个深度学习处理器及首个多核深度学习处理器，能将深度学习处理能耗降低多个数量级。相关工作获得了 ASPLOS'14 和 MICRO'14 的最佳论文奖（亚洲迄今仅有的两次获计算机体系结构顶级国际会议最佳论文），并入选了 CACM 评选的研究亮点，引起了国际同行的广泛关注。

陈云霁教授去年曾对《麻省理工科技评论》说：“5 年或更久以后，我认为每一部手机都可以像谷歌大脑一样先进。”

今年 7 月，中科院计算所与寒武纪公司提出了国际上首个稀疏深度学习处理器 Cambricon-X，相关工作被计算机体系结构领域顶级国际会议 MICRO 2016（International Symposium on Microarchitecture）接收。自 2014 年中科院计算所的陈云霁博士（寒武纪公司首席科学家）、陈天石博士（寒武纪公司创始人和 CEO）与法国 Inria 的 Olivier Temam 博士（现供职于 Google）在 ASPLOS 2014 共同开创了深度学习处理器方向之后，深度学习处理器已经成为 MICRO、ISCA、ASPLOS 和 HPCA 最关注的研究方向之一。

MICRO与 ISCA、ASPLOS 和 HPCA 并称计算机体系结构领域最顶级的四大国际学术会议。MICRO 2016上有超过 1/7 的论文引用寒武纪团队成员的工作来进行智能处理器的探索（分别来自包括 Intel、NVIDIA、佐治亚理工、UCSB 等顶尖研究机构）。

深度学习是一类借鉴生物的多层神经网络处理模式所发展起来的智能处理技术。基于深度学习的围棋程序AlphaGo 甚至已经达到了职业棋手的水平。稀疏深度学习可大幅度削减神经网络中连接数量，因此被业界广泛采用。但其计算和访存模式非常不规则，给相应的芯片设计带来了巨大的挑战。寒武纪团队针对稀疏深度神经网络特殊的计算模式和访存特性，提出采用一维稀疏表示、专用的数据访问引擎和动态计算调度策略来实现稀疏深度学习的专用处理器 Cambricon-X，能高效处理各种类型的稀疏深度神经网络（包括卷积神经网络和递归神经网络等）。在 TSMC 65nm 工艺下，Cambricon-X 峰值性能可达 0.5 Tops/s，面积开销仅为 6.38 平方毫米，稀疏深度学习速度相较于主流高端 GPU 提升性能 10 倍，能耗仅为其 3.4%。相关工作已于 2016 年 1 月申请国内和 PCT 专利，此后 UCSB 也参与了 Cambricon-X 的进一步学术探索。

此前，陈教授所在的中科院计算所还提出了国际上首个深度学习处理器结构（与法国 Inria 合作完成）、国际上首个多核深度学习处理器结构（与法国 Inria 合作完成），研制了国际上首个深度学习处理器芯片，提出了国际上首个深度学习指令集，多次获得计算机体系结构顶级会议最佳论文奖。Cambricon-X 的工作进一步夯实了中科院与寒武纪在深度学习处理器领域的国际领导性地位，也证明了陈教授在该领域的探索非常具有开创性。

（文章中部分资料援引中科院计算所官方新闻、陈云霁教授个人主页）

福利放送：我们会随机向赠送价值 2300 元的非 CCF 会员票，凭此票可以参加 19 - 22 日包括陈教授在内的 16 位嘉宾精彩的特邀报告、30 个论坛及 50 场活动（除晚宴外）。报名请扫描下面的二维码在公众号后台发送“CNCC”报名，我们会每天从报名者中选出一名送出门票~~

CNCC 人物 | 深度学习处理器领军人物 —— 陈云霁