深度学习初学者必读：张量究竟什么？

Donie

2017-06-20

选自Kdnuggets

作者：Ted Dunning

机器之心编译

参与：晏奇、吴攀

今天很多现有的深度学习系统都是基于张量代数（tensor algebra）而设计的，但是张量代数不仅仅就只能用于深度学习。本文对张量进行了详细的解读，能帮你在对张量的理解上更进一步。本文作者为 MapR Technologies 的首席应用架构师 Ted Dunning。

深度学习初学者必读：张量究竟什么？近段时间以来，张量与新的机器学习工具（如 TensorFlow）是非常热门的话题，在那些寻求应用和学习机器学习的人看来更是如此。但是，当你回溯历史，你会发现一些基础但强大的、有用且可行的方法，它们也利用了张量的能力，而且不是在深度学习的场景中。下面会给出具体解释。

如果说计算是有传统的，那么使用线性代数的数值计算就是其中最重要的一支。像 LINPACK 和 LAPACK 这样的包已经是非常老的了，但是在今天它们任然非常强大。其核心，线性代数由非常简单且常规的运算构成，它们涉及到在一维或二维数组（这里我们称其为向量或矩阵）上进行重复的乘法和加法运算。同时线性代数适用范围异常广泛，从计算机游戏中的图像渲染到核武器设计等许多不同的问题都可以被它解决或近似计算，

关键的线性代数运算：在计算机上使用的最基础的线性代数运算是两个向量的点积（dot product）。这种点积仅仅是两个向量中相关元素的积（product）之和（sum）。一个矩阵和一个向量的积可以被视为该矩阵和向量行（row）的点积，两个矩阵的乘积可以被视为一个矩阵和另一个矩阵的每一列（column）进行的矩阵-向量乘积的和。此外，再配上用一个值对所有元素进行逐一的加法和乘法，我们可以构造出所需要的线性代数运算机器。

计算机之所以可凭极快速度求出用线性代数编写的程序值，部分原因是线性代数具有规律性。此外，另一个原因是它们可以大量地被并行处理。完全就潜在性能而言，从早期的 Cray-1（译者注：Cary-1 是世界上最早的一台超级计算机，于 1975 年建造，运算速度每秒 1 亿次）到今天的 GPU 计算机，我们可以发现性能增长了超过 30000 倍。此外，当你要考虑用大量 GPU 处理集群数据时，其潜在的性能，在极小成本下，比曾经世上最快速的计算机大约高出一百万倍。

然而，历史的模式总是一致的，即要想充分利用新的处理器，我们就要让运算越来越抽象。Cray-1 和它向量化的后继者们需要其运行程序能够使用向量运算（如点积）才能发挥出硬件的全部性能。后来的机器要求要就矩阵-向量运算或矩阵-矩阵运算来将算法形式化，从而方可尽可能地发挥硬件的价值。

我们现在正站在这样一个结点上。不同的是我们没有任何超越矩阵-矩阵运算的办法，即：我们对线性代数的使用已达极限。

但是，我们没有必要把自己限制在线性代数上。事实证明，我们可以沿着数学这棵大树的枝叶往上再爬一段。长期以来，人们都知道在数学抽象的海洋中存在着比矩阵还要大的鱼，这其中一个候选就是张量（tensor）。张量是广义相对论重要的数学基础，此外它对于物理学的其它分支来说也具有基础性的地位。那么如同数学的矩阵和向量概念可被简化成我们在计算机中使用的数组一样，我们是否可以将张量也简化和表征成多维数组和一些相关的运算呢？很不幸，事情没有那么简单，这其中的主要原因是不存在一个显而易见且简单的（如在矩阵和向量上类似的）可在张量上进行的一系列运算。

然而，也有好消息。虽然我们不能对张量使用仅几个运算。但是我们可以在张量上写下一套运算的模式（pattern）。不过，这还不不够，因为根据这些模式编写的程序不能像它们写的那样被充分高效地执行。但我们还有另外的好消息：那些效率低下但是编写简单的程序可以被（基本上）自动转换成可非常高效执行的程序。

更赞的是，这种转换可以无需构建一门新编程语言就能实现。只需要一个简单的技巧就可以了，当我们在 TensorFlow 中写下如下代码时：