Deep Learning模型最近若干年的重要进展

本文作者： camel

2018-04-08 10:37

导语：四条脉络

雷锋网 AI 科技评论按：近日，清华大学 唐杰副教授 及其学生丁铭结合其 Aminer 数据库整理出 Deep Learning 模型最近若干年的重要进展，共有 4 条脉络。雷锋网获其授权转载，在此分享。

Track.1 CV/Tensor

1943 年出现雏形，1958 年研究认知的心理学家 Frank 发明了感知机，当时掀起一股热潮。后来 Marvin Minsky（人工智能大师）和 Seymour Papert 发现感知机的缺陷：不能处理异或回路、计算能力不足以处理大型神经网络。停滞！

1986 年 Hinton 正式地提出反向传播训练 MLP，尽管之前有人实际上这么做。

1979 年，Fukushima 提出 Neocognitron，有了卷积和池化的思想。

1998 年，以 Yann LeCun 为首的研究人员实现了一个七层的卷积神经网络 LeNet-5 以识别手写数字。

后来 SVM 兴起，这些方法没有很受重视。

2012 年，Hinton 组的 AlexNet 在 ImageNet 上以巨大优势夺冠，兴起深度学习的热潮。其实 Alexnet 是一个设计精巧的 CNN，加上 Relu、Dropout 等技巧，并且更大。这条思路被后人发展，出现了 VGG、GooLenet 等。

2016 年，青年计算机视觉科学家何恺明在层次之间加入跳跃连接，Resnet 极大增加了网络深度，效果有很大提升。一个将这个思路继续发展下去的是去年 CVPR Best Paper Densenet。CV 领域的特定任务出现了各种各样的模型（Mask-RCNN 等），这里不一一介绍。

2017 年，Hinton 认为反省传播和传统神经网络有缺陷，提出 Capsule Net。但是目前在 CIFAR 等数据集上效果一半，这个思路还需要继续验证和发展。

Track.2 生成模型

传统的生成模型是要预测联合概率分布 P(x,y)。

RBM 这个模型其实是一个基于能量的模型，1986 年的时候就有，他在 2006 年的时候重新拿出来作为一个生成模型，并且将其堆叠成为 Deep Belief Network，使用逐层贪婪或者 Wake-Sleep 的方法训练，不过这个模型效果也一般现在已经没什么人提了。但是从此开始 Hinton 等人开始使用深度学习重新包装神经网络。

Auto-Encoder 也是上个世纪 80 年代 Hinton 就提出的模型，此时由于计算能力的进步也重新登上舞台。Bengio 等人又搞了 Denoise Auto-Encoder。

Max Welling 等人使用神经网络训练一个有一层隐变量的图模型，由于使用了变分推断，并且最后长得跟 Auto-encoder 有点像，被称为 Variational Auto-encoder。此模型中可以通过隐变量的分布采样，经过后面的 decoder 网络直接生成样本。

GAN 是 2014 年提出的非常火的模型，他是一个隐的生成模型，通过一个判别器和生成器的对抗训练，直接使用神经网络 G 隐式建模样本整体的概率分布，每次运行相当于从分布中采样。

DCGAN 是一个相当好的卷积神经网络实现，WGAN 是通过维尔斯特拉斯距离替换原来的 JS 散度来度量分布之间的相似性的工作，使得训练稳定。PGGAN 逐层增大网络，生成机器逼真的人脸。

Track3 Sequence Learning

1982 年出现的 Hopfield Network 有了递归网络的思想。1997 年 Jürgen Schmidhuber 发明 LSTM，并做了一系列的工作。但是更有影响力的是 2013 年还是 Hinton 组使用 RNN 做的语音识别工作，比传统方法高出一大截。

文本方面 Bengio 在 SVM 最火的时期提出了一种基于神经网络的语言模型，后来 Google 提出的 Word2Vec 也有一些反向传播的思想。在机器翻译等任务上逐渐出现了以 RNN 为基础的 seq2seq 模型，通过一个 encoder 把一句话的语义信息压成向量再通过 decoder 输出，当然更多的要和 attention 的方法结合。

后来前几年大家发现使用以字符为单位的 CNN 模型在很多语言任务也有不俗的表现，而且时空消耗更少。self-attention 实际上就是采取一种结构去同时考虑同一序列局部和全局的信息，Google 有一篇耸人听闻的 Attention Is All You Need 的文章。

Track.4 Deep Reinforcement Learning

这个领域最出名的是 DeepMind，这里列出的 David Silver 是一直研究 RL 的高管。

Q-Learning 是很有名的传统 RL 算法，Deep Q-Learning 将原来的 Q 值表用神经网络代替，做了一个打砖块的任务很有名。后来有测试很多游戏，发在 Nature。这个思路有一些进展 Double Dueling，主要是 Q-learning 的权重更新时序上。

DeepMind 的其他工作 DDPG、A3C 也非常有名，他们是基于 policy gradient 和神经网络结合的变种（但是我实在是没时间去研究）

一个应用是 AlphaGo 大家都知道，里面其实用了 RL 的方法也有传统的蒙特卡洛搜索技巧。Alpha Zero 是他们搞了一个用 Alphago 框架打其他棋类游戏的游戏，吊打。

雷锋网注：

本文获唐杰副教授授权转自其微博。唐杰老师带领团队研发了研究者社会网络 ArnetMiner 系统，吸引了 220 个国家 277 万个独立 IP 的访问。AMiner 近期持续推出了 AI 与各领域结合的研究报告，可访问 AMiner 官网了解更多详情。

AMiner：

清华大学 AMiner 学术搜索引擎，是一个以科研人员为中心，通过领先的语义分析和挖掘技术，提供在线实时的人才、科技评估报告的情报平台。

系统自上线 10 年以来，汇集了全球 1.3 亿科研人员，2.7 亿篇论文，吸引了全球超过 220 个国家 800 万个独立 IP 的访问，是除了谷歌 scholar 之外最大的学术搜索系统。为全球最大学术期刊出版社 Elsevier，以及 KDD、ICDM、WSDM 等 20 余个重要国际会议提供审稿人推荐及语义信息服务。AMiner 项目获 2013 年中国人工智能学会科学技术进步一等奖，核心理论部分获 2013 年中国电子学会自然科学二等奖、2017 年北京市科技进步一等奖。

AMiner发布计算机领域知识图谱，包括20多万条专家信息、50多万篇出版论文

清华Aminer团队发布「AI 与自动驾驶汽车研究报告」，阐述 AI 研究现状

清华AMiner团队：AI 之机器人学研究报告

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

23人收藏

camel

编辑

持身秉正

扫描关注作者微信

发私信

当月热门文章