芯片战争:英伟达质疑英特尔深度学习芯片的比较结果

英特尔最近发布了一些 Xeon Phi 的基准测试结果,并声称其基于 Atom CPU 而非 GPU 的「集成众核(Many Integrated Core/MIC)」Phi 构架,在深度学习上明显要比 GPU 表现得更好更高效。不过看起来英伟达不同意这个声明,并发布了一篇推文详细说明了为什么它相信英特尔的结果存在许多深层的漏洞。

芯片战争:英伟达质疑英特尔深度学习芯片的比较结果

GPU Vs一切

不论谁是完成任务的最佳选择,目前并没有太多关于 GPU 是否是训练深度学习神经网络的主流方式的讨论。这是因为训练神经网络对精度计算的要求较低(低至 8-bit ),并不要求高精度计算,这点 CPU 完全能满足。某天,GPU 是否会被大多数用户用更高效的替代品代替,也有待观察。

在过去的几年中,英伟达并不只是在为机器学习优化 GPU,它也投入了许多资源来开发能让开发者更简单地训练神经网络的软件。 这也是研究者通常使用英伟达来进行机器学习,而不选择 AMD 的主要原因之一。英伟达说,比起 Pascal 软件时代,Kepler 软件的表现已经提升了一个数量级。

然而,GPU 并不是训练深度神经网络的唯一选择。随着该领域的不断繁荣,出现了各种公司,不论新生的还是年长的,都在试着分享深度学习优化芯片的市场。

有些公司关注机器学习的逻辑门阵列(FPGA),也有公司研制自定义深度学习芯片,例如谷歌、CEVA 和 Movidius。英特尔则希望在 Xeon Phi 品牌下,通过使用几十个 Atom(处理器)核心代替 GPU 以与其竞争。

英特尔的声明

在英特尔的一份声明中,它声称四块 Knights Landing Xeon Phi 芯片比「四块 GPU」要快 2.3 倍。英特尔还声称在多节点系统中, Xeon Phi 芯片的能比 GPU 更好地扩展 38% (高达 128 节点,根据英特尔的声明,GPU 没法达到)。英特尔说 128 块 Xeon Phi 的服务器组成的系统要比单块 Xeon Phi 服务器快 50 倍,暗示着 Xeon Phi 服务器的扩展性相当好。

英特尔还在文中说到,当使用英特尔优化版的 Caffe 深度学习框架时,Xeon Phi 芯片要比标准 Caffe 实现快 30 倍。

芯片战争:英伟达质疑英特尔深度学习芯片的比较结果

英伟达的反驳

英伟达的主要反驳点看起来是英特尔使用了其旧的基准测试结果,比较 GPU 时会产生误导,特别是因为一旦英伟达的 GPU 从 28nm 的平面工艺转移到 16nm 的 FinFET 工艺上时,其性能和效率都有巨大的提升。不仅如此,在过去的几年里,英伟达也为其 GPU 优化了各种软件框架。

这就是为什么英伟达声称如果英特尔使用更新一点的 Caffe AlexNet 实现结果的话,它就会发现四块上代英伟达 Maxwell GPU 实际上比四块英特尔 Xeon Phi 服务器集群快 30%。

关于 Xeon Phi 「更好地扩展 38%」,英伟达也说英特尔的比较中包括它最新的 Xeon Phi 服务器和最新的互联技术,而英特尔将其与四年前的基于 Kepler Titan X 系统作比较。英伟达提到百度已经证实,通过 128 节点的 Maxwell GPU,语音训练负载几乎是线性扩展的。

芯片战争:英伟达质疑英特尔深度学习芯片的比较结果

英伟达也相信,对于深度学习,更少的高性能节点无论如何都会比更多低性能节点好。英伟达补充了一点,它最新的 DGX-1 「盒子中的超级计算机」比 21 个 Xeon Phi 服务器集群快一点,比四个 Xeon Phi 服务器集群快 5.3 倍。

考虑到非营利性的 OpenAI 是 DGX-1 系统的第一位客户,所以英特尔没有将该系统与 Xeon Phi 芯片作比较可以理解。然而,如今基于 Maxwell 的系统是相当老的,所以并不清楚英特尔为什么决定将它最新的 Xeon Phi 芯片与这块来自 18 个月之前的软件的前几代的 GPU 作比较。

人工智能芯片竞赛愈演愈烈(以良性的方式)

涉及到深度学习,Xeon Phi 可能还是要落后于 GPU 系统的,不论是表现上还是软件支持的方面。然而,如果英伟达的 DGX-1 能勉强打败 21 个 Xeon Phi 的服务器集群的话,这也意味着 Xeon Phi 芯片在价格上是相当有竞争力的。

目前一块 DGX-1 的售价是 129,000 美元,然而 一块单独的 Xeon Phi 服务器芯片不论在哪的售价都在 2000 美元到 6000 美元之间。甚至是在使用 21 块英特尔顶级 Xeon Phi 芯片的时候,该系统的价格仍然比英伟达 DGX-1 要低。

虽然英伟达和英特尔之间的战争似乎在接下来的几年内还会逐步升温,但更有趣的是,像谷歌 TPU 这样的 ASIC-like 芯片是否会成为最后的赢家呢?

英特尔已经在它的 Phi 协处理器中使用更多的「通用」核心,并且英伟达仍然在考虑为了游戏优化其 GPU。这意味着两家公司可能不能更大程度地走自定义深度学习芯片的优化路线。然而,软件支持也会是深度学习芯片选购的关键,而英伟达可能拥有当今最强大的软件支持。

本文选自:Tom's Hardware,作者:Lucian Armasu;机器之心编译;

相关推荐