为什么深度学习仍未取代传统的计算机视觉技术？

electech

2018-03-20

本文作者认为，深度学习只是一种计算机视觉工具，而不是包治百病的良药，不要因为流行就一味地使用它。传统的计算机视觉技术仍然可以大显身手，了解它们可以为你省去很多的时间和烦恼；并且掌握传统计算机视觉确实可以让你在深度学习方面做得更好。这是因为你可以更好地理解深度学习的内部状况，并可执行预处理步骤改善深度学习结果。

本文的灵感同样来自论坛中的一个常见问题：

深度学习已经取代了传统的计算机视觉吗？

或是换种说法：

既然深度学习看起来如此有效，是否还有必要学习传统的计算机视觉技术？

这个问题很好。深度学习确实给计算机视觉和人工智能领域带来了革命性的突破。许多曾经看似困难的问题，现在机器可以比解决的比人类还好。图像分类就是最好的印证。确实，如从前所述，深度学习有责任将计算机视觉纳入行业版图。

但深度学习仍然只是计算机视觉的一个工具，且显然不是解决所有问题的灵丹妙药。因此，本文会对此进行详细阐述。也就是说，我将说明传统的计算机视觉技术为何仍十分有用，值得我们继续学习并传授下去。

本文分为以下几个部分/论点：

深度学习需要大数据
深度学习有时会做过了头
传统计算机视觉将会提升你的深度学习水平

进入正文之前，我认为有必要详细解释一下什么是「传统计算机视觉」，什么是深度学习，及其革命性。

背景知识

在深度学习出现以前，如果你有一项诸如图像分类的工作，你会进行一步叫做「特征提取」的处理。所谓「特征」就是图像中「有趣的」、描述性的、或是提供信息的小部分。你会应用我在本文中称之为的「传统计算机视觉技术」的组合来寻找这些特征，包括边缘检测、角点检测、对象检测等等。

在使用这些与特征提取和图像分类相关的技术时，会从一类对象（例如：椅子、马等等）的图像中提取出尽可能多的特征，并将其视为这类对象的「定义」（称作「词袋」）。接下来你要在其它图像中搜索这些「定义」。如果在另一个图像中存在着词袋中相当一部分的特征，那么这个图像就被归为包含那个特定对象（如椅子、马等等）的分类。

这种图像分类的特征提取方法的难点在于你必须在每张图像中选择寻找哪些特征。随着你试图区分的类别数目开始增长，比如说超过 10 或 20，这就会变得非常麻烦甚至难以实现。你要寻找角点？边缘？还是纹理信息？不同类别的对象最好要用不同种类型的特征来描述。如果你选择使用很多的特征，你就不得不处理海量的参数，而且还需要自己来微调。

深度学习引入了「端到端学习」这一概念，（简而言之）让机器在每个特定类别的对象中学习寻找特征，即最具描述性、最突出的特征。换句话说，让神经网络去发现各种类型图像中的潜在模式。

因此，借助端到端学习，你不再需要手动决定采用哪种传统机器视觉技术来描述特征。机器为你做好了这一切。《连线》杂志如此写道：

举例来说，如果你想教会一个 [深度] 神经网络识别一只猫，你不必告诉它去寻找胡须、耳朵、毛或是眼睛。你只需展示给它成千上万的猫的图像，它自然会解决这一问题。如果它总是会将狐狸误认为是猫，你也不用重写代码。你只需对它继续进行训练。