我赢得 Kaggle 竞赛的第五名，这些经验分享给你

本文作者： AI研习社-译站

2018-08-02 10:04

导语：我的这些经验通用性很好，可以应用到其他的图片分类任务中。

雷锋网按：本文为AI研习社编译的技术博客，原标题 Kaggle #1 Winning Approach for Image Classification Challenge，作者为 Kumar Shridhar 。

翻译 | 京鹏张小恬蒋华烈程磊校对 | 余杭整理 | MY

我赢得 Kaggle 竞赛的第五名，这些经验分享给你植物幼苗分类比赛冠军

这篇文章记录了我参加 Kaggle 植物幼苗分类比赛所采用的方法。我曾连续几个月占据榜首，并最终名列第五。这些方法通用性很好，可以应用到其他的图片分类任务中。

Kaggle 是一个预测建模和分析竞赛的平台，在这里，统计人员和数据挖掘者参与竞争，以产生预测和描述公司和用户上传数据集的最佳模型。这种众包的方式依赖于这样一个事实，即有无数的策略可用于任何预测性建模任务，并且事先不可能知道哪种技术或分析最有效。[1]

任务概览

你能从作物幼苗中区分出杂草吗？

有效的解决方案意味着更好的作物产量及更好的环境管理。

奥胡斯大学信号处理组与丹麦南方大学合作，发布了一个数据集，其中包含不同生长阶段的 12 个种类大约 960 种植物的图像 [1] [2]。

我赢得 Kaggle 竞赛的第五名，这些经验分享给你

植物样本之一：繁缕 [3]

上述图像数据库已公开发布。它包含带注释的 RGB 图像，分辨率约为每毫米 10 个像素。

采用基于 F1 分数的指标对分类结果进行评估。数据集链接在 URL 里 [13]

以下图像是描述数据集中所有 12 个类的示例：

我赢得 Kaggle 竞赛的第五名，这些经验分享给你

图片分类任务包含以下5个步骤：

步骤 1:

机器学习中的首要任务是分析数据集，然后才能进行任意算法。为了解数据集的复杂性，这一步很重要，这最终将有助于该算法设计。

图像和类的分布如下：

我赢得 Kaggle 竞赛的第五名，这些经验分享给你

如上所述，此包含 12 个类共 4750 个图像。但是，以上可以看出，各类值分布不平均，图像类数值分布从最大 654 张到最小的 221 幅不等。这清楚地表明数据是不平均的，但为获得最好的结果我们需要权衡数据。步骤 3 中我们将达成此任务。

我赢得 Kaggle 竞赛的第五名，这些经验分享给你

每类的图像分布

现在对图像进行可视化十分重要，以便能更好了解数据。因此，我们将展示每个类中的部分示例，查看图像的不同之处。

我赢得 Kaggle 竞赛的第五名，这些经验分享给你

所有的图像看起来都相差无几，几乎没有什么内容可以从上面的图像群中获得。因此，我决定使用一个称为 t 分布随机邻域嵌入（t. SNE）的可视化技术观察图像分布。

t 分布随机邻域嵌入（t. SNE）是一种特别适合于高维数据集的可视化降维技术。该技术可以通过巴恩斯-小屋逼近模型实现，这允许该技术应用于现实世界的大型数据集。[14]

我赢得 Kaggle 竞赛的第五名，这些经验分享给你

数据集的 t-SNE 可视化

在仔细观察后，我们几乎看不出各类间差异。所以，掌握是仅仅对人类而言这些数据是难以分辨的，还是对于机器学习模型同样如此十分重要。为此，我们将为它做一个基本的基准。

训练以及验证集合

在模型基准开始之前我们需要将数据划分为训练数据和验证数据集，对原始测试集进行测试之前验证集起到测试数据集作用。所以，模型基本上在训练数据集上进行实验，并在验证集上进行了测试，之后模型随着集合的多次验证得以改进。一旦我们对验证集的结果感到满意，就可将模型应用于实际测试数据。我们能够以此看到模型在我们的验证集上为超拟合或是欠拟合，这可以帮助我们更好地调整模型。

我们通过保持 80% 图像作为训练数据集及 20% 作为验证集来划分 4750 图像的数据集。

我赢得 Kaggle 竞赛的第五名，这些经验分享给你

训练和验证数据拆分

步骤 2：

一旦我们得到了训练集和验证集，我们就从数据集的基准开始着手。这是一个建立在测试集上的一个分类问题，我们需要把测试集中的每一个实例划分为 12 类中的一类。所以我们将会用一个卷积神经网络（CNN）去完成这个任务。

有很多途径去创建一个 CNN 模型, 但是作为初学者, 我们最好使用 Keras 深度学习库. 我们也将使用 Keras 上提供的预训练模型, 这些模型是在 ImageNet 数据集上训练过的并且我们可以通过微调这些模型以用于我们这里的任务。

从头开始去训练卷积神经网络实际上是非常低效的。所以，我们采用在有着 1000 类的 ImageNet 数据集上预训练过的 CNN 模型参数，并且在微调时，我们固定住一些层的参数，其他层的参数继续在我们这里的数据集上继续训练。这样做的原因是因为比较前面的一些层是用来学习图像的基本特征的，我们没有必要去训练并且可以直接在我们的任务里直接采用。一个值得我们注意的重要事情是，我们要去检查我们这里的数据集跟 ImageNet 相似性如何以及有多大。这两个数据集的特性决定了我们该如何进行网络微调。想要获取关于网络微调的详细资料，请参考 Andrej Karpathy 的博客：

对于我们这里的例子，数据集是很小的，并且还跟 ImageNet 有点相似。所以我们首先直接用 ImageNet 上的权重，并加上有着 12 个类别的最终输出层来构建我们的第一个基准程序。接着，我们去把一些后面的层给「松开」并只训练这些层。

因为 Keras 提供很多的预训练模型，我们将用 Keras 去完成我们最初基准程序，我们将在我们的任务上用 ResNet50 和 InceptionResNetV2 这两个模型。为了理解在给定模型下，我们是过拟合还是欠拟合数据集，为数据集准备一个简单模型和一个复杂模型作为基准是非常重要的。

我赢得 Kaggle 竞赛的第五名，这些经验分享给你