深度学习硬件对比评测：英特尔FPGA和英伟达GPU哪个更好？

qinrui

2017-03-24

选自Nextplatform

作者：Linda Barney

参与：李泽南、晏奇、黄小天、吴攀

FPGA 会随着深度学习的发展占领 GPU 的市场吗？英特尔的研究人员对目前最好的两种芯片做了对比。

社交媒体和物联网正持续不断地以指数级方式产出语音、视频、图像等数字数据，这带动了对于数据分析（让数据变得可理解与可执行）的需求。数据分析经常依赖于机器学习（ML）算法。在众多机器学习算法中，深度卷积神经网络在重要的图像分类任务中具有当前最高的精确度，因而被广泛采用。

在最近的「2017 现场可编程门阵列国际大会（ISFPGA）」上，来自英特尔加速器架构实验室（AAL）的 Eriko Nurvitadhi 博士展示了有关「在加速新一代深度神经网络方面，FPGA 可否击败 GPU」的研究，其研究使用最新的 DNN 算法在两代英特尔 FPGA（Arria10 与 Stratix 10）与目前最高性能的英伟达 Titan X Pascal GPU 之间做了对比评估。

论文地址：http://dl.acm.org/citation.cfm?id=3021740

英特尔 Programmable Solutions Group 的 FPGA 架构师以及论文的联合作者之一 Randy Huang 博士说：

深度学习是人工智能之中一个最激奋人心的领域，其取得了人工智能领域的最大进展，并催生出了最多的应用。尽管人工智能和 DNN 研究者喜欢使用 GPU，但我们发现英特尔新一代 FPGA 架构与应用领域之间存在着一个完美的契合。我们关注着即将来临的 FPGA 技术进步，DNN 算法的快速进展，并考虑着未来的高性能 FPGA 在新一代 DNN 算法的表现上能否胜过 GPU。通过研究我们发现在 DNN 研究中 FPGA 表现很好，并可用在人工智能、大数据或机器学习等需要分析大量数据的研究领域。当使用剪枝过的或紧密的数据类型 VS 全 32 位浮点数（FP32）时，被测试的英特尔 Stratix 10 的表现胜过了 GPU。除了性能之外，FPGA 同样很强大，因为其适应性强，并且可通过复用一个现存的芯片而容易地实现变化——一块芯片就可帮助一个团队在 6 个月内把一个想法做成原型，而打造一个 ASIC 则需要 18 个月。

测试中使用的神经网络机器学习

神经网络可以被表示为由加权边（weighted edges）互连起来的神经元图。每个神经元（neuron）和边（edge）都分别与一个激活值与权重相关联。神经网络结构由多层神经元组成。如下图 1 所示：

深度学习硬件对比评测：英特尔FPGA和英伟达GPU哪个更好？

图 1：深度神经网络概观。该图由 Intel 提供。

神经网络的计算在网络中逐层传递。对于一个给定的层，每个神经元的值由前一层神经元的值与边权重（edge weight）累加相乘计算而成。计算在很大程度上基于乘积-累加操作。DNN 计算由正向与反向通过组成。正向通过在输入层获取一个样本，然后遍历隐藏层，在输出层产生一个预测。对于推理而言，只需要正向通过就能获得一个给定样本的预测结果。对训练而言，从正向通过中得到的错误预测接下来会在反向通过过程中被返回，以此来更新网络的权重——这被称为「反向传播算法（back-propagation algorithm）」。训练会反复进行正向与反向通过操作，从而以此来修正神经网络的权重直到模型可以产生理想精度的结果。

使 FPGA 成为可选项的改变

硬件：尽管和高端 GPU 相比，FPGA 的能量效率（性能/功率）会更好，但是大多数人不知道它们还可以提供顶级的浮点运算性能（floating-point performance）。FPGA 技术正在快速发展。即将上市的 Intel Stratix 10 FPGA 能提供超过 5000 个硬浮点单元（DSP），超过 28MB 的片上内存（M20K），同时整合了高带宽内存（最高可达 4x250GB/s/stack 或 1TB/s），以及由新的 HyperFlex 技术的改善了的频率。英特尔 FPGA 能提供全面的从软件生态系统——从低级硬件描述语言到 OpenCL、C 和 C++的高级软件开发环境。使用 MKL-DNN 库，英特尔将进一步将 FPGA 与英特尔机器学习生态系统和诸如 Caffe 这样的传统架构结合起来。Intel Stratix 10 基于英特尔的 14 纳米技术开发，拥有 FP32 吞吐量上 9.2TFLOP/s 的峰值速度。相比之下，最新的 Titan X Pascal GPU 提供 FP32 吞吐量 11TLOP/s 的速度。

新兴的 DNN 算法：更深的网络可提升精确度，但需要极大地增加参数数量，模型也随之变大；而这一切将对计算力、内存带宽和存储提出更苛刻的要求。如此，人们开始转向更高效的 DNN。采用比 32 位更少的紧密低精度数据类型成为了一个新兴趋势；由 DNN 软件框架（即 TensorFlow）支持的 16 位和 8 位的数据类型正在成为新标准。此外，研究者已经在极低精度 2 位三进制与 1 位二进制 DNN（其值分别地被限制为 (0,+1,-1) 或 (+1,-1)）中取得了连续的精度提升。最近 Nurvitadhi 博士合写的一篇论文首次表明，三进制 DNN 能在众所周知的 ImageNet 数据集中取得当前最高的（即，ResNet）精确度。稀疏性（零的存在）是另一个新兴趋势，其可以通过剪枝、ReLU 和 ternarization 等技术被引入到 DNN 的神经元和权重之中，并产生带有 50% 至 90% 零的 DNN。因为没必要在这样的零值上计算，所以如果执行稀疏 DNN 的硬件可以有效地跳过零值计算，那么性能势必提升。

新兴的低精度和稀疏 DNN 算法相比于传统的密集 FP32 DNN 能更大地提升巨型算法的效率，但也带来了 GPU 难以应对的不规律并行和自定义数据类型。相反，FPGA 专为极端的自定义性设计，并在运行不规律并行和自定义数据类型时表现出众。这些趋势将使未来的 FPGA 在运行 DNN、人工智能和机器学习应用方面成为一个可行的平台。Huang 说，FPGA 专用机器学习算法还有更多的峰值储备。

深度学习硬件对比评测：英特尔FPGA和英伟达GPU哪个更好？

图 2 表示 FPGA 的极端自定义性 (2A)，使新兴 DNN (2B) 的高效实现成为可能。

深度学习硬件对比评测：英特尔FPGA和英伟达GPU哪个更好？

图 3. 矩阵乘法（GEMM）测试的结果，GEMM 是 DNN 中的关键部分

测试 1：矩阵乘法（GEMM）

DNN 严重依赖于矩阵乘法运算（GEMM），常规 DNN 依赖于 FP32 密集 GEMM。而更低精度和稀疏的新 DNN 方法则依赖于低精度（或）稀疏的 GEMM。英特尔的团队评估了两种类型的 GEMM。

FP32 密集 GEMM：团队对比了 FPGA 和 GPU 的数据峰值。结果显示：Stratix 10 和 Titan X Pascal 的峰值理论性能为 11 TFLOPs 和 9.2 TFLOPs。如图 3A 显示，英特尔 Stratix 10 相比 Arria 10 具有更多数量的 DSP，这大大提升了它的 FP32 性能，使其达到了狙击 Titan X 的实力。

低精度 INT6 GEMM：为了展示 FPGA 可定制性带来的优势，实验小组研究了将四个 Int6 封装到 DSP 模块中用于 FPGA 的 6 位（Int6）GEMM 的方式。GPU 并没有对 Int6 的原生支持，在实验中它们使用峰值 Int8 进行比较。图 3B 中的数据显示英特尔 Stratix 10 的表现优于 GPU。同时 FPGA 的能效也占据优势。

超低精度 1 位二进制 GEMM：二进制 DNN 提出了非常紧凑的 1 位数据类型，可通过 xnor 和位计数操作替代乘法，非常适合 FPGA。图 3C 展示了二进制 GEMM 的测试结果，FPGA 的表现优于 GPU（在不同频率目标中可达后者 2 倍-10 倍表现）。

稀疏 GEMM：新出现的稀疏 DNN 包含了大量的零。研究小组测试了稀疏 GEMM 在包含 85% 零的矩阵中的表现（基于剪枝 AlexNet）。团队测试了 FPGA 的灵活性设计——细粒度的方式跳过零计算。该团队还在 GPU 上测试了稀疏 GEMM，但发现性能比在 GPU（相同矩阵大小）上执行密集 GEMM 要差。英特尔的稀疏 GEMM 测试（图 3D）表明，FPGA 的表现优于 GPU，这取决于目标 FPGA 频率。

深度学习硬件对比评测：英特尔FPGA和英伟达GPU哪个更好？

图 4. FPGA 与 GPU 在三元 ResNet DNN 测试中的精度趋势和结果

测试 2：使用三元 ResNet DNNs

三元 DNN 提出了将神经网络权重约束为+1、0 或-1。这允许稀疏的 2 位权重，并用符号位操作替换了乘法。在测试中，研究小组使用了零跳过、2 位权重和无乘法器的 FPGA 设计来优化三元 ResNet DNN 的运行。

与其他很多种低精度稀疏 DNN 不同，三元 DNN 提供了与现有最强 DNN（如 ResNet）相近的准确率，正如图 4 所示。「目前存在的 GPU 和 FPGA 研究注重在 ImageNet 上'能做到多好？'，这些研究基于 2012 年的 AlexNet。在 2015 年，最好的方法是 ResNet，图像识别准确率比前者提升了 10%。在 2016 年下半年的另一个研究中，我们第一次展示了 ResNet 的低精度和稀疏三元版本 DNN 算法可以达到和全精度 ResNet 相差大约 1% 的表现。三元 ResNet 是我们在 FPGA 研究中希望达到的目标。我们的实验结果第一次证明 FPGA 可以提供一流的（ResNet）ImageNet 精度，而且它可以做得比 GPU 更好。」Nurvitadhi 指出。

图 4 显示了英特尔 Stratix 10 FPGA 和 Titan X Pascal 在 ResNet-50 任务中的性能和性能/功耗比。即使保守地估计，英特尔 Stratix 10 FPGA 也已经比实现比 Titan X GPU 高出 60％的表现。中性或乐观的估计则更加亮眼（2.1 倍和 3.5 倍速度提升）。有趣的是，英特尔 Stratix 10 在最高 750MHz 的频率上可以比英伟达 Titan X Pascal（1531 MHz）提供多出 35% 的性能。在性能/功耗方面，英特尔 Stratix 10 比 Titan X 高出 2.3 到 4.3 倍。

FPGA 在测试中的表现

测试结果显示，英特尔 Stratix 10 FPGA 在 GEMM 稀疏、Int6 和二值化 DNN 中的表现（TOP/sec）比英伟达 Titan X Pasacal GPU 分别要好 10%、50% 和 5.4 倍。在 Ternary-ResNet 中，Stratix 10 FPGA 可以输出超过 Titan X Pascal 60% 的表现，而功耗效率则比对手好上 2.3 倍。实验结果表明：FPGA 可以成为下一代 DNN 的最佳计算平台之选。

FPGA 在深度神经网络的未来

FPGA 在下一代深度神经网络出现时能否击败 GPU 成为主流？英特尔对两代 FPGA（英特尔 Arria 10 和英特尔 Stratix 10）与英伟达 Titan X Pascal 在不同最新 DNN 上的评估表明：DNN 算法的发展趋势或许有利于 FPGA，这种架构在某些任务上的表现大幅超越对手。尽管这些测试是在 2016 年进行的，英特尔的团队已经开始对自家 FPGA 在最新 DNN 算法上的运行和优化开始了研究（如 FFT/winograd 数学变换，主动量化（aggressive quantization）和压缩）。英特尔的团队同时指出，除 DNN 以外，FPGA 在各种对延迟敏感的应用（如自动驾驶辅助系统和工业系统）中也有广泛的前景。

Huang 说道：「目前的机器学习任务都在使用 32 位密度矩阵乘法，这是 GPU 占优势的领域。我们正在鼓励开发者和研究人员加入我们重构机器学习的行列，这样才能让 FPGA 的优势发挥出来，因为 FPGA 可以适应向低精度的转变。」

深度学习硬件对比评测：英特尔FPGA和英伟达GPU哪个更好？

机器学习英特尔 fpga 深度学习英特尔架构神经网络人工智能

qinrui

0 关注 0 粉丝 0 动态

相关推荐

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

微软和谷歌一直在积极研究用于训练深度神经网络的新框架，并且在最近将各自的成果开源——微软的PipeDream和谷歌的GPipe。原则上看，他们都遵循了类似的原则来训练深度学习模型。这两个项目已在各自的研究论文中进行了详细介绍，这篇文章将对此进行总结。对于初

深圳克林斯曼 15评论 2020-11-09

自动驾驶汽车深度学习如何应对挑战?

在自动驾驶汽车中使用深度学习可以帮助克服各种挑战，例如了解行人的行为，找到最短的路线以及对人和物体进行准确检测。根据一份报告，2018年约有80%的道路交通事故是由于人为错误造成的。因此，将自动驾驶汽车纳入主流的主要目标之一是消除对人类驾驶员的需求并减少道

86377811 2020-11-06

不要上手就学深度学习！超详细的人工智能专家路线图，GitHub数天获2.1k星

反过头来看，这些方法可能作用并不是很大，却消耗了大量的时间和金钱。如果你想成为数据科学家、机器学习或者 AI 专家，而又苦于找不到合适的学习方法，本文将提供一组思路清晰、简单易懂的人工智能专家路线图。这是一家德国软件公司 AMAI GmbH 近期发布的 G

Niteowl 2020-11-05

DJL 如何正确打开 [ 深度学习 ]

本文转载自微信公众号「小明菜市场」，作者小明菜市场。很长时间，Java都是一个相当受欢迎的企业编程语言，其框架丰富，生态完善。为了减少Java开发者学习深度学习的成本，AWS构建了一个Deep Java Library，一个为Java开发者定制的开源深度

ohbxiaoxin 2020-11-04

揭开AI、机器学习和深度学习的神秘面纱

深度学习、机器学习、人工智能——这些流行词皆代表了分析学的未来。在这篇文章中，我们将通过一些真实世界的案例来解释什么是机器学习和深度学习。这样做的目的不是要把你变成一个数据科学家，而是让你更好地理解你可以用机器学习做什么。开发人员能越来越容易地使用机器学习

bigquant 11评论 2020-11-03

用 Java 训练深度学习模型，原来可以这么简单！

HelloGitHub 推出的《讲解开源项目》系列。这一期是由亚马逊工程师：Keerthan Vasist，为我们讲解 DJL系列的第 4 篇。很长时间以来，Java 都是一个很受企业欢迎的编程语言。得益于丰富的生态以及完善维护的包和框架，Java 拥有着

PandaJiong 13评论 2020-11-02

面向深度学习的五大神经网络模型及其应用

深度学习是机器学习的重要组成部分，深度学习算法基于神经网络。有几种功能不同的神经网络架构，最适合特定的应用场景。本文介绍一些最知名的架构，尤其是深度学习方面的架构。MLP使用一种称为反向传播的监督式学习技术进行训练。反向传播有助于调整神经元权重，以获得更接

fengzhimohan 14评论 2020-11-02

选择困难终结者：不同问题之下的机器学习算法

刚开始学习数据科学时，笔者经常面临这样一个问题：遇到具体问题，选择何种算法才合适。也许你也和我一样，搜了很多有关机器学习算法的文章，会看到许多详细的描述，却并没有减少让抉择的难度。问题陈述2：深挖客户统计数据用以识别模式。问题陈述12：根据车辆特性预估车辆

lwnylslwnyls 2020-11-06

如何通过7个步骤构建机器学习模型

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。部署和管理机器学习项目通常遵循相同的模式。对于许多组织来说，机器学习模型开发是一项新活动，但是在某种程度上已经建立了以数据为中心的项目构建方法。此外，这种方法由

人工智能 5评论 2020-11-19

关于机器学习管道需要了解什么?

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术，他们通常认为，IT主管能够有效调动流程，并使模型表现良好。现实情况是，了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘，而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机

jaybeat 5评论 2020-11-17

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 12评论 2020-11-16

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 12评论 2020-11-16

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

人工智能如今已成为大街小巷的热议话题。企业为了吸引客户和目标用户，在生产产品、提供方案时总会使用机器学习、深度学习等花哨的词汇。但实际上，这些词汇绝不仅是“噱头”而已。科技大厂了解科技发展的主流趋势，且无法承担技术落后的风险，所以他们都已适应了此次计算机革

clong 12评论 2020-11-13

10个丰富自我的机器学习项目

机器学习项目有很大的发展潜力，最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。毕竟招聘者一般通过你拥有的技能来判断你的潜力。此外，确保所有数据集都呈现开放状态允许自由访问。很多机器学习课程将这个数据运用于教学目的，它可以预测人类的活动类别，这是一

ohbxiaoxin 6评论 2020-11-13

机器学习如何颠覆金融行业

在过去的十年中，金融行业采用了很多前所未有的尖端技术。金融科技初创厂商是智能手机、大数据、机器学习、区块链等新技术的早期采用者，被认为是被更传统的银行和金融机构所效仿的潮流引领者。机器学习和深度学习的最新进展确实推动了计算机视觉和自然语言处理的界限。Sta

Icevivian 8评论 2020-11-13

IT自动化和人工智能将在2021年走向何方？

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

CSDN人工智能头条 5评论 2020-11-11

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 5评论 2020-11-11

理解AI：为什么要在人工智能系统中寻求可解释性呢？

本文转载自公众号“读芯术”。或许这是你第一次听到人工智能前面加“可解释的”这个形容词，但其实它的涵义你一定能理解。可解释的人工智能是指构建AI应用程序的技术和方法，人们借此以理解它们做出特定决策的原因。换句话说，如果我们可以从AI系统获得有关其内部逻辑的解

白飞飞Alan 2020-11-11

IT自动化和人工智能将在2021年走向何方?

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

EastCarFxxBlog 10评论 2020-11-09

强化学习到底是什么，它如何运作？

强化学习是一种行为学习模型，由算法提供数据分析反馈，引导用户逐步获取最佳结果。不同于使用样本数据集训练机器模型的各类监督学习，强化学习尝试通过反复试验掌握个中诀窍。强化学习与人类在婴幼儿时期的学习过程非常相似。这是一种基于经验的学习流程，机器会不断尝试、不

83153251 10评论 2020-11-06

qinrui

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号