人类和 DNN 的目标识别稳健性比较_诺佳网—

深度神经网络在很多任务上都已取得了媲美乃至超越人类的表现，但其泛化能力仍远不及人类。德国蒂宾根大学等多所机构近期的一篇论文对人类和 DNN 的目标识别稳健性进行了行为比较，并得到了一些有趣的见解。机器之心对该论文进行了编译介绍。

摘要

我们通过 12 种不同类型的图像劣化（image degradation）方法，比较了人类与当前的卷积式深度神经网络（DNN）在目标识别上的稳健性。首先，对比三种著名的 DNN（ResNet-152、VGG-19、GoogLeNet），我们发现不管对图像进行怎样的操作，几乎所有情况下人类视觉系统都更为稳健。我们还观察到，当信号越来越弱时，人类和 DNN 之间的分类误差模式之间的差异会逐渐增大。其次，我们的研究表明直接在畸变图像上训练的 DNN 在其所训练的同种畸变类型上的表现总是优于人类，但在其它畸变类型上测试时，DNN 却表现出了非常差的泛化能力。比如，在椒盐噪声上训练的模型并不能稳健地应对均匀白噪声，反之亦然。因此，训练和测试之间噪声分布的变化是深度学习视觉系统所面临的一大关键难题，这一难题可通过终身机器学习方法而系统地解决。我们的新数据集包含 8.3 万个精心度量的人类心理物理学试验，能根据人类视觉系统设置的图像劣化提供对终身稳健性的有用参考。

图 1：在（有可能畸变的）ImageNet 图像上从头开始训练的 ResNet-50 的分类表现。（a）在标准的彩色图像上训练后的模型在彩色图像上的测试表现接近完美（优于人类观察者）。（b）类似地，在添加了均匀噪声的图像上训练和测试的模型也优于人类。（c）显著的泛化问题：在添加了椒盐噪声的图像上训练的模型在具有均匀噪声的图像上进行测试时，表现时好时坏——即使这两种噪声类型在人眼看来并没有太大的区别。

1 引言

1.1 作为人类目标识别模型的深度神经网络

人类在日常生活中进行的视觉识别速度很快，似乎也毫不费力，而且很大程度无关视角和物体的方向 [Biederman (1987)]。在单次注视过程中完成的主要由中心凹进行的快速识别被称为“核心目标识别（core object recognition）”[DiCarlo et al. (2012)]。比如，在查看“标准的”图像时，我们能够在不到 200 毫秒的单次注视内可靠地辨别出视野中心的目标。[DiCarlo et al. (2012); Potter (1976); Thorpe et al. (1996)]。由于目标识别速度很快，所以研究者常认为核心目标识别主要是通过前馈处理实现的，尽管反馈连接在灵长类大脑中无处不在。灵长类大脑中的目标识别据信是通过腹侧视觉通路实现的，这是一个由区域 V1-V2-V4-IT 组成的分层结构，来自视网膜的信息会首先传递至 V1 的皮层 [Goodale and Milner (1992)]。

就在几年前，动物视觉系统还是已知的唯一能够进行种类广泛的视觉目标识别的视觉系统。但这种情况已然改变，在数百万张有标注图像上训练之后的脑启发式深度神经网络已经在自然场景图像中的物体分类上达到了人类水平 [Krizhevsky et al. (2012)]。DNN 现在可用于各种类型的任务，并且创造了新的当前最佳，甚至在一些几年前还被认为需要数十年时间才能通过算法解决的任务上取得了超越人类的表现 [He et al. (2015); Silver et al. (2016)]。因为 DNN 和人类能达到相近的准确度，所以已有一些工作开始研究 DNN 和人类视觉的相似和不同之处。一方面，由于大脑本身的复杂性和神经元的多样性，所以 DNN 的网络单元得到了很大的简化 [Douglas and Martin (1991)]。另一方面，一个模型的能力往往并不取决于对原有系统的复现，而在于模型取得原系统的重要方面并将其从实现的细节中抽象出来的能力 [如 Box (1976); Kriegeskorte (2015)]。

人类视觉系统最显著的性质之一是稳健的泛化能力。即使输入分布发生很大的变化（比如不同的光照条件和天气类型），人类视觉系统也能轻松应对。比如，即使在一个物体前面有雨滴或雪花，人类对物体的识别也基本不会出错。尽管人类在一生中肯定会遇到很多这样的变化情况（对于 DNN，即是我们所说的“训练时间”），但似乎人类的泛化方式非常普适，并不局限于之前看过的同种分布。否则我们将无法理解存在某些全新之处的场景，之前未见过的噪声也会让我们束手无策。即使一个人的头上还从未被撒过彩片碎纸，但他仍然可以毫无压力地辨认出花车巡游中的目标。很自然，这样通用稳健的机制并不只是动物视觉系统所需的，要让人工视觉系统具备超出其训练时间所用分布的“眼界”，从而处理各种各样的视觉任务，也将需要类似的机制。用于自动驾驶的深度学习可能就是其中一个突出案例：即使系统在训练时间从没见过彩片碎纸雨，在花车巡游时也需要有稳健的分类表现。因此，从机器学习角度看，因为终身机器学习所需的泛化能力并不依赖于在测试时间使用独立同分布（i.i.d.）样本的标准假设，所以对一般噪声的稳健性可用作终身机器学习的高度相关的案例 [Chen and Liu (2016)]。

1.2 泛化能力比较

人类和 DNN 的目标识别稳健性比较

相关阅读

本类排行

相关标签

本类推荐

栏目热点

猜你喜欢