利用深度学习自动评价数百万张酒店图像

本文作者：图普科技

编辑：杨晓凡

2018-07-24 17:43

导语：德国比价网站idealo.de训练了两个深度神经网络来评估图像的美学质量和技术质量。

雷锋网按：本文由「图普科技」编译自Using Deep Learning to automatically rank millions of hotel images

德国比价网站idealo.de训练了两个深度神经网络来评估图像的美学质量和技术质量。

利用深度学习自动评价数百万张酒店图像

基于训练模型的美感可视化（美观性按从左到右的顺序逐渐增加）

idealo.de是欧洲领先的价格比较网站，也是德国最大的电商门户网站之一，可提供市场上最好的酒店价格比较。对于每家酒店，我们都会收到数十张图片，我们需在的优惠对比页面上为每个优惠项选择“最具吸引力”的图片，这是一项具有挑战性的工作，因为照片和评论一样对顾客是否预订有着举足轻重的影响。我们拥有全球百万家酒店的近亿张酒店图像，需要对其进行“吸引力”评估。

我们基于谷歌发布的研究论文“NIMA：神经图像评估”，通过进行美学和技术质量分类来自动评估图像质量。NIMA由两个卷积神经网络（CNN）组成，旨在分别预测图像的美学质量和技术质量。我们通过迁移学习来训练模型，其中ImageNet预训练的CNN会针对每个质量分类任务进行微调。

在本文中，我们将介绍我们在整个过程中使用的训练方法和一些见解。然后，我们将尝试通过可视化我们训练模型的卷积滤波器权重和输出节点来阐明训练模型习得的内容。

我们在GitHub上发布了训练模型和代码。提供的代码支持人们使用Keras中任何预训练的CNN，因此我们希望为探索利用其他CNN进行图像质量评估的作出贡献?。

训练

美学和技术分类器通过迁移学习方法进行训练。我们将MobileNet架构与ImageNet权重相结合，并将MobileNet中的最后一个密集层替换为输出为10个类（分数为1到10）的密集层。

Earth Mover损失函数

NIMA的一个特点是使用Earth Mover损失（EML）作为损失函数，与分类交叉熵（CCE）损失相反，该函数通常应用于深度学习分类任务。EML可以理解为使两个概率分布相等需要移动的“泥土”的量。该损失函数的一个有用属性是它可以捕获类的固有顺序。在我们的图像质量等级评估中，得分为4，5和6比得分为1,5和10的相关性更高，即在真实得分为10时，我们对得分为4的预测的惩罚比真实得分为5时更多。CCE无法获得这种关系，并且在目标分类任务中通常不需要使用CCE。（例如，将树错误分类为狗与将其归类为猫同样糟糕）。

为了使用EML，我们需要每个图像在所有十个分数类别中的分布概率。对于用于训练美学质量分类的AVA数据集，可以使用这些分布概率。对于用于技术质量分类的TID2013数据集，我们根据为每个图像给出的平均分数推断出其分布。有关我们的分布推断的更多详细信息，请查看我们的GitHub repo。

微调阶段

我们的模型训练分为两个阶段：

1.我们首先训练具有较高学习速率的最后一个密集层，以确保将新添加的随机权重调整为ImageNet卷积权重。如果没有这个老化期，你可能会在训练开始时需要兼顾卷积权重，从而拖慢整个训练过程。

2.在老化期之后，我们训练学习速率较低的CNN中的所有权重。

利用深度学习自动评价数百万张酒店图像

对于美学和技术模型，训练损失和验证损失曲线分别在第5和第25个时间段后变平。这是一个很好的指标，说明新增加的权重已经学会尽可能好地分类不同美学和技术质量的图像，并且是时候开始训练所有权重了。

对于美学分类器，一旦我们也开始训练卷积权重，损失会显著下降（如左图中的虚线），这表明我们正在调整美学质量分类任务的卷积权重。对于技术分类器，损失的下降幅度较小，这首先是反直觉的，因为图像技术质量应该是对象不可知的，但ImageNet权重被优化以便识别对象。小幅下降可能是由于规范小型TID2013数据集训练所需的学习速率很低。

您可以在我们的GitHub repo中找到用于训练的所有超参数

结果

利用深度学习自动评价数百万张酒店图像

MobileNet美学预测

利用深度学习自动评价数百万张酒店图像

MobileNet技术预测

上述预测表明，美学分类器正确地将图像按照美观性进行了排列，从非常美观（最左边的日落图像）到最不美观（最右边的无聊的酒店房间）。类似地，对于技术质量分类，分类器预测的未失真图像（左起第一和第四张图像）比进行了jpeg压缩（第二和第五张）或模糊（第三和第六张）的图像分数更高。

可视化

为了更好地理解CNN如何评估图像的美学质量，我们使用了Lucid包来显示Aesthetic MobileNet中的习得卷积滤波器权重和输出节点。特征可视化这篇博客文章提供了最先进的CNN可视化技术的精彩互动概述。

利用深度学习自动评价数百万张酒店图像

第23层滤波器可视化（顶行是ImageNet MobileNet，底行是Aesthetic MobileNet）

较早的卷积层通常与更简单的结构相关联，例如边缘，波形图案和网格。上图显示了与MobileNet第23层中的六个滤波器相关联的图案 - 顶行中的六张图像是由原始的MobileNet ImageNet权重（ImageNet MobileNet）生成的，而底行图像是由根据美学质量评级的AVA数据集微调的MobileNet权重（Aesthetic MobileNet）生成的。从滤波器可视化中我们可以看到，较早的卷积滤波器在整个微调过程中受到的影响不大，因为它们与原始图像非常相似。

利用深度学习自动评价数百万张酒店图像