不用写代码就能实现深度学习？手把手教你用英伟达 DIGITS 解决图像分类问题

本文作者： AI研习社

2017-06-16 14:44

导语：英伟达 DIGITS，真的不用写代码。

雷锋网按：本文作者刘志，现于西安电子科技大学智能感知与图像理解教育部重点实验室，攻读博士学位，主要研究方向包括机器学习、深度学习、数字图像处理等。本文系作者独家供稿，雷锋网首发。

引言

2006年，机器学习界泰斗Hinton，在Science上发表了一篇使用深度神经网络进行维数约简的论文，自此，神经网络再次走进人们的视野，进而引发了一场深度学习革命。深度学习之所以如此受关注，是因为它在诸如图像分类、目标检测与识别、目标跟踪、语音识别、游戏（AlphaGo）等多个领域取得了相当优秀的成绩，掀起了又一波人工只能浪潮。深度学习技术逐渐成为机器学习领域的前沿技术，近年来得到了突飞猛进的发展，这得益于机器学习技术的进步以及计算设备性能的提升。英伟达公司研发的图形处理器（Graphics Processing Unit，GPU），无疑为深度学习的发展提供了强有力的硬件支撑！

英伟达想必大家都有所耳闻，但对英伟达开发的深度学习训练系统(NVIDIA Deep Learning GPU Training System, DIGITS) 知之甚少，今天我们介绍如何使用DIGITS，实现基于深度神经网络的图像分类，包括数据集创建、模型创建、模型训练、模型测试等等。

面对众多的深度学习开发框架，你是不是安装配置深度学习开发框架环境中，是不是苦于码代码、调试改Bug中。那么，今天你将发现，世界上还有一款超级简单易用的深度学习平台工具，是的，这就是DIGITS。说到底，DIGITS是对现有流行深度学习开发框架的最高级的抽象封装，你所需做的只不过是点点按钮、改改参数，就能轻松实现基于深度学习模型的图像分类、目标检测、分割等任务，并以图形界面的方式展现出来。目前DIGITS支持 Caffe、Torch，7月份将开始支持Tensorflow，开发人员，正在努力工作，使其支持更多的深度学习框架，如下图所示：

不用写代码就能实现深度学习？手把手教你用英伟达 DIGITS 解决图像分类问题

DIGITS支持的深度学习框架（来自英伟达官网）

下面，让我们一起学习如何使用DIGITS，实现基于深度卷积网络的手写体图像分类任务，让我们一起成为人工智能时代的弄潮儿！

DIGITS安装

由于本文重点介绍如何使用DIGITS实现深度学习图像分类，这里仅给出安装参考与注意事项。

现今，DIGITS已经有了三种安装姿势：

● Ubuntu 包管理器
● Docker
● 源码编译

具体请移步 NVIDIA DIGITS Installation。2015年时，DIGITS出道时还只有源码安装方式，时隔一年竟然有了 deb 安装方式，果断试用，按照官方说明分分钟安装完毕～.～

注：Ubuntu16.04下安装Caffe，会有比较多的坑，跳进去再跳出来就行了，不过，对于初学者，可能得几个小时，甚至几天的时间才能跳出来。

无论哪种安装姿势，都要确保有以下核心实料：

● 装有GPU卡的PC机（有服务器更好）；
● Linux系统（建议Ubuntu，本文 Ubuntu16.04 LTS）；
● CUDA驱动（本文版本8.0，Linux版有 run 和 deb 两种安装包，前者需要卸载系统自带驱动，一不小心可能就进不去图形界面了，需谨慎，具体安装方法，参见英伟达官方安装手册）或自行搜索；
● 深度学习框架：如 Caffe, CNTK, TensorFlow, Theano and Torch 等其中的一种或多种（目前支持Caffe和Torch）；
● DIGITS

Ubuntu deb 包安装

很简单，打开终端（快捷键 Ctrl + Alt + T），执行如下命令，既可以自动安装 digits, caffe-nv, torch7-nv, libcudnn，其中，xxx-nv 是指英伟达 fork 的xxx框架版本。具体安装方法，参见：DIGITS Ubuntu Installation。

DIGITS Ubuntu deb 安装命令

#添加源
# For Ubuntu 16.04
CUDA_REPO_PKG=http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/cuda-repo-ubuntu1604_8.0.61-1_amd64.deb
ML_REPO_PKG=http://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1604/x86_64/nvidia-machine-learning-repo-ubuntu1604_1.0.0-1_amd64.deb

# Install repo packages
wget "$CUDA_REPO_PKG" -O /tmp/cuda-repo.deb && sudo dpkg -i /tmp/cuda-repo.deb && rm -f /tmp/cuda-repo.deb
wget "$ML_REPO_PKG" -O /tmp/ml-repo.deb && sudo dpkg -i /tmp/ml-repo.deb && rm -f /tmp/ml-repo.deb

# Download new list of packages
sudo apt-get update
# Install
sudo apt-get install digits

源码安装

DIGITS的源码可以在GitHub上找到，即这里：GitHub DIGITS，具体编译构建安装过程参见：NVIDIA DIGITS Source Installation。

提示：

安装过程若提示错误：ImportError: No module named setuptools 可以使用 sudo apt install python-setuptools 解决。

cd ~/sfw
git clone https://github.com/NVIDIA/DIGITS.git

DIGITS使用入门

终于可以开始使用DIGITS了，首先打开你的浏览器，然后：

● 对于使用deb包安装的童鞋，在浏览器地址栏输入 http://localhost/ 访问 DIGITS server 主页；
● 对于采用其他安装方式（using digits-devserver）的童鞋，在浏览器地址栏输入 http://localhost:5000/ 访问 DIGITS server 主页；

现在开始吧！DIGITS server主页界面如下，可见使用DIGITS做深度学习应用，非常简单明了人性化，就是点点按钮的事；点击图中Images下拉菜单按钮，可以看到，如今DIGITS已经支持 图像预处理、分类、目标识别、分割：等多种学习任务。

不用写代码就能实现深度学习？手把手教你用英伟达 DIGITS 解决图像分类问题

DIGITS Server Home 页简介

废话少说，开始正题，使用 DIGITS ，基本分三步：

● 第一步：准备并创建数据集
● 第二步：设计并创建任务模型
● 第三步：训练测试模型

下面以手写体分类为例，说明如何利用 DIGITS，轻松实现基于深度学习中的卷积神经网络的图像分类任务。

使用DIGITS实现基于深度学习的图像分类

● 数据集：手写体数据集 MNIST：含 0～9 十个数字，60000个训练样本，10000个测试样本；

● 网络模型：卷积神经网络 LeNet-5：一种卷积神经网络。

详情参见 Yann LeCun 主页。

下载MNIST数据集

你可访问上述数据集链接下载并解压数据，也可以使用 DIGITS 提供的数据集下载工具直接下载解压数据，数据会被下载到你指定的目录下（yourdir），本文中：

python -m digits.download_data mnist ~/yourdir/mnist

下载完成后，在你指定的目录下可以看到如下文件：

不用写代码就能实现深度学习？手把手教你用英伟达 DIGITS 解决图像分类问题

创建数据集

在DIGITS server Home页，以此选择 Datasets > New Dataset > Images > Classification ，然后随便取个用户名（username），提交（Submit），在弹出的页面中，按下图所示填写数据集信息。

不用写代码就能实现深度学习？手把手教你用英伟达 DIGITS 解决图像分类问题

DIGITS MNIST 数据集创建页面

创建完成后，可以在MNIST数据集页面查看验证数据集信息，如下图所示：

不用写代码就能实现深度学习？手把手教你用英伟达 DIGITS 解决图像分类问题

创建好的MNIST数据集页面

创建好的MNIST数据集的训练集统计信息如下图所示：

不用写代码就能实现深度学习？手把手教你用英伟达 DIGITS 解决图像分类问题

训练集统计信息——频率直方图

创建模型

我们使用经典的LeNet模型来实现手写体图像的分类，LeNet是一个卷积神经网络，它依次包含一个输入层（INPUT）、卷积层（C1）、池化层，也叫下采样层（S2）、卷积层（C3）、下采样层（S4）、卷积层（C5）、全连接层（F6）和一个输出层，由于有0～9个数字，所以输出层的神经元的个数是10。这么复杂的结构，宝宝得写多少行代码，宝宝不想当程序猿～,～

不用写代码就能实现深度学习？手把手教你用英伟达 DIGITS 解决图像分类问题

用于手写体分类的LeNet网络结构

然而，你不用担心，使用DIGITS，你只需要点点按钮，改改参数即可，由于是经典模型，这里连该参数都不用，点按钮就行了。点击左上角的 DIGITS 按钮，返回主页，此时，可以看到数据集（DataSets）页面多了个刚刚创建的MNIST数据集。依次选择 Models > New Model > Images > Classification 弹出模型设置界面，依次按如下步骤操作：

● 在Select Dataset 区选择 “MNIST” 数据集；
● 在下面的Standard Networks 标签页选择Caffe 版的 LeNet network；
● 选择GPU；
● 给模型命个名字；
● 点击 Create 按钮创建模型

如下图所示：

不用写代码就能实现深度学习？手把手教你用英伟达 DIGITS 解决图像分类问题

用于手写体分类的LeNet网络模型训练与测试设置

当然，你也可以设置训练代数、验证间隔（代数）、优化方法、学习率等参数。

训练模型

创建完模型后，DIGITS 开始网络的训练，并实时显示训练损失、验证损失、验证正确率、学习率变化、GPU资源占用等信息，如下图所示，非常直观和友好，有木有，~.~

不用写代码就能实现深度学习？手把手教你用英伟达 DIGITS 解决图像分类问题

DIGITS MNIST LeNet分类网络训练过程图

喝杯咖啡，或出去溜达溜达即可！

测试

现在到了测试你的模型的时候了，如下图所示，有三种选择：

● Classify One：单幅图像分类，可以可视化数据、权重、隐藏层输出等；
● Classify Many：多幅图像分类，可以查看多幅图像的分类结果统计信息；
● Top N Predictions per Category：每类的Top N分类预测图示。

不用写代码就能实现深度学习？手把手教你用英伟达 DIGITS 解决图像分类问题

测试你的手写体分类模型

上述手写体分类模型，对数字6的某幅图像分类结果如下图所示，非常直观友好有木有，宝宝瞬间喜欢上人工智能了耶：

不用写代码就能实现深度学习？手把手教你用英伟达 DIGITS 解决图像分类问题

上述手写体分类模型，对10000个测试样本图像的分类统计结果如下图所示，哇，这么高大上的矩阵我也有了：

不用写代码就能实现深度学习？手把手教你用英伟达 DIGITS 解决图像分类问题

上述手写体分类模型，Top N分类统计结果如下图所示，宝宝决定要搞深度了，谁都不能阻挡我：

不用写代码就能实现深度学习？手把手教你用英伟达 DIGITS 解决图像分类问题

后记

本文介绍了 DIGITS 及其安装，以及使用 DIGITS 进行图像分类的步骤与方法，包括数据集的创建、模型的创建与训练、模型测试等等。总结起来，使用DIGITS做深度学习应用，简直就是点点点，免去了使用Caffe等其它框架繁琐的环境配置、枯燥的码代码 Debug 的过程，你不需要去学习Python等语言，你甚至都不需要了解模型算法原理，就能轻松享受深度学习的乐趣，这一切 DIGITS 都已经为你做好，简直太爽啦！~.~ ~.~ ~.~

如果你不是程序猿，如果你不了解深度学习，如果你不知道选择何种深度学习框架，如果你不想把精力耗费在码代码上，而你却非常想了解深度学习，以至于你想成为人工智能时代的弄潮儿，那么DIGITS是你最好的入门选择！生活原本很简单，为什么要过得复杂呢？

如果你已经迫不及待地想在 DIGITS 上一试身手，如果你想找个深度学习“老司机”领路，如果你有诸多深度学习技术相关的难题有待解决，那么这里正好有个绝佳的机会：

7 月 8 日，在第二届 CCF-GAIR 2017 全球人工智能与机器人峰会上（详情链接），雷锋网将联合英伟达深度学习学院（Deep Learning Institute，DLI），面向 AI 技术从业者，特别推出一个深度学习开发者专场。对深度学习和英伟达 GPU 加速感兴趣的开发者们，可以通过这次活动跟英伟达官方认证工程师来一次面对面的技术畅谈。

具体议程安排如下：

不用写代码就能实现深度学习？手把手教你用英伟达 DIGITS 解决图像分类问题