未来的 AI 芯片将提升百倍性能！

xiexf

2018-11-19

关注关注

【CSDN编者按】随着机器学习和深度学习技术的不断应用，AI 的落地场景越来越多，极大地提升了研发效率和应用功能。与此同时，本文的作者还认为，AI 的应用还将深刻地影响芯片市场，借助 AI 重塑芯片设计，能够帮助架构性能提升百倍以上。

未来的 AI 芯片将提升百倍性能！

以下为译文：

随着架构师开始利用AI的能力来提高性能和降低功耗，人工智能开始影响半导体的设计，为未来芯片的开发、制造和更新方面的一些转变奠定了基础。

AI与机器学习和深度学习可以极大地改善芯片内特定功能的功能控制和功率/性能。出于这些目的，AI可以加载到现有设备之上，也可以集成到新的设计中，因此AI可以应用于非常广泛的功能范围，也可以用于某个特定的功能。

AI带来的优势非常多，其中包括：

通过稀疏化算法和数据压缩改变特定功能的准确度，从而能够在更细粒度上实现加速性能和降低能耗；
能够将数据作为模式而非单个比特进行处理的，有效地提高计算的抽象级别并增加软件的密度；
允许以矩阵的形式处理和存储器的读写，大大提升这些操作的速度。

但是AI的应用还需要人们仔细思考芯片内部或芯片之间数据移动（或不移动）的方式。无论是边缘应用还是在数据中心应用，也不管是训练还是推断，这些过程都需要处理和存储海量的数据。

1.新的起点

从积极的方面看，AI能够在利用高精度结果和利用大量低精度结果之间获得平衡，从而达成足够好的准确度。以语音识别为例，其准确度远不如安全应用中的面部识别或自动驾驶车辆中的物体识别那么重要。AI提供了根据特定的应用场景来选择结果的能力。

有了AI以后，我们的起点不再是硬件和软件，而是数据的质量、数量和传输。这需要我们以不同的方式考虑设计，包括过去通常没有合作过的团队之间的协作。

Arm的研究员Jem Davies说：“计算所需的代价非常小，压缩和解压数据的代价也很小，但是在内存中存储和加载数据则非常昂贵。为了构建这些系统，你需要特定领域的专家、机器学习专家以及优化和性能专家。而且你同时需要这三个领域。”

他指出，机器学习可以影响系统中的所有东西，其中大多数都隐藏在我们看不见的地方。Davies说：“有些是用户看不见的，比如用来改善电池的寿命。有些相机内部也用到了机器学习。”

AI最适合神经形态的方法和不同的内存架构，因为它们的数据可以当作矩阵处理。为了让AI在这种情况下达到最优，所需的架构远远不止处理器。它需要与内存来回传输大量数据，还需要在内存中更改数据，才能让数据的读写按照从左到右和从上到下的顺序进行。

Cadence音频和语音IP产品营销总监Gerard Andrews说：“许多架构的改善都需要结合软件和硬件，才能让软件更好地工作。这并不一定能提高每个处理器的整体性能，但它会减小功耗并提高内存效率。一点很小的改变就能减少一半的内存使用量。”

这实际上可以提高许软件方面的设计密度，而且可以加速数据在内存中的传输。Andrews说：“我们看到的问题是内存不会有效地减少，而且识别错误率不断上升。我们正在探索稀疏化算法，希望借此降低功耗并提高性能。”

这只是变化的冰山一角，而且这些转变正在迅速发生。

Achronix的系统架构师Kent Orthner说：“内存子系统中出现的情况没有连续性，且是突发的变化。这一切都依赖于延迟和带宽，以及利用芯片内和芯片外的功能提供数据。人们已经开发了很多关于如何传输数据的架构，因为你需要大量的数据管道。在这之前，我们可能需要考虑添加多少内存，以及如何利用内存。现在我们需要考虑的是大量的管道，而内存的使用相对不那么重要了。”

新发现的一种降低数据流的方法是脉冲神经网络，与常见的持续发射信号不同，它们发射信号的方式像人脑一样可以突然升到很高。

BrainChip的营销和业务开发高级副总裁Bob Beachler说：“脉冲神经网络是下一代的神经网络，卷积使用线性代数。有了脉冲以后，我们可以用脉冲的形式传递数据。你可以通过脉冲进行训练，而且如果有很多脉冲的话，你可以加强或抑制其中一部分。对于专门用于训练阈值的比特，你可以用非常低的权重值来处理。”

总而言之，估计有70家的AI创业公司正在研究各种方法。最重要的是几乎所有的主要芯片制造商、IP供应商和工具公司都参与了AI研究的某些方面。

未来的 AI 芯片将提升百倍性能！

数据压缩资料（来源：Google）

2.AI的风险和混乱

但是，AI也存在一定程度的风险，具体取决于应用和精确度。

过去的电子系统设计的基础都是完全可预测的逻辑，它们中的大部分都是硬件连接的。AI将计算上的精确性改变为可接受行为的分布，很多会议上都讨论过这种改变给设计带来的影响。目前尚不清楚现有工具或方法是否可以提供与设备在该分布范围内相同的置信度，特别是在系统出现损坏或退化的情况下，也不清楚检测任何异常行为的速度。

关于AI的应用方式也存在一定程度的混乱。有专门为AI设计的芯片，也有人使用不是为AI专门开发的芯片，还有人通过对这两种芯片进行修改和叠加来更有效地利用AI。

总的来说，这些都属于AI的范畴，这一切都发生在大家竞相提高同功耗甚至更低功耗下的性能的行业大环境中。在16纳米和14纳米技术之后，每一代技术的功耗和性能方面的摩尔定律比率已经降低到了20%，现在每个人都在寻找新的方法来替换或增强这些优势。现在各个方面都涌现了一大批的选择。

对于专门用于AI训练或推断的芯片（即芯片内部使用了AI功能的处理器和加速器的芯片）来说，大家普遍的共识是使用不同的芯片架构可以实现几个数量级的提升。但这并非适用于所有情况，而且还有很多可变因素，例如训练数据的大小和值，它们可能导致AI在一些应用中无用武之地。除此之外，保守估计认为性能可以提升100倍。

这就是为什么这些新架构推向市场需要花费很长时间。芯片行业在不断尝试各种架构和实验，试图找出哪种方式效果最佳，以及各种方式的应用场景和原因。

Synopsys的战略营销经理Ron Lowman说：“应用和算法都存在挑战，处理器和存储器芯片也面临挑战。所以AI架构的探索尤为重要，而且这也是加速器的缓存一致互联协议（Cache Coherent Interconnect for Accelerators，简称CCIX）如此受欢迎的原因之一。越来越多的客户在关注架构的探索，每个人都在努力建立新的架构来模仿大脑。”

所谓架构不仅仅是更好的布线和元件布局，还有人正在开发新的非挥发性记忆体（non-volatile memory）技术。除了小型存储器之外，一些小型的处理器也在开发，有时还涉及到多种针对不同数据类型定制的新型加速器。除此之外，还有很多围绕数据压缩和量化的工作。

Lowman说：“人们正在努力从32位浮点转移到8位浮点，现在的问题是是否可以采用单比特量化。”

量化涉及将大量输入值映射成较小的输出值集合，而且最大的问题在于准确度损失的可接受程度。理论上通过足够的传感器或数据输入，可以最小化该错误率的影响，但这非常依赖于具体的应用。

沿着这些方向还有一种方法涉及源同步，特别是对于数据中心的AI芯片，这将促使芯片上的网络拓扑发生变化。这种方式没有采用广播（这种方式中网络上所有的目标都将收到相同的数据）的方式，而是使用了多播的方法，可以更有针对性地利用数据。

Arteris IP营销副总裁Kurt Shuler说：“通过多播，你可以在一次写入中将数据发送到多个目的地。这种方法通常用于权重，好处是你可以更好地利用芯片带宽上的网络，所以也就是说路上的汽车更少了。”

AI芯片的一个问题是它们往往非常大。Shuler说：“最大的问题是时钟树。这需要同步通信，因为如果你以异步的方式处理通信，那么会占用很大面积。另外，大芯片上很有可能出现布线拥塞。解决这个问题的方法是创建虚拟通道链接，你可以减少这个区域的连线数量，并通过一组线路共享通信。这就需要数据流仲裁。”

未来的 AI 芯片将提升百倍性能！

芯片上的映射端口（资料来源：Arteris IP）

3.过时计划

这是设计的一部分。另一个部分涉及能够与定期更新的算法保持同步，而且会影响到哪种类型的处理器可以加入到使用AI的芯片中。这些设计都会影响到芯片内数据的传输，以及使用该数据的处理器类型。

CPU和GPU主要通过软件提供一些可编程性，DSP和FPGA提供固件/硬件的可编程性，嵌入式FPGA将可编程性直接添加到SoC或多芯片的封装中。

处理器类型的选择也取决于终端市场的应用。例如，对于汽车或工业环境中有关安全的关键性应用来说，大家希望技术能够保持最新，且响应足以与道路上的其他车辆或工厂中的其他设备兼容。

eSilicon的创新高级主管CarlosMacián表示，“当我们讨论面向未来的问题时，问题在于某个方法是否可行。TPU（张量处理单元，tensor processing unit，简称TPU）是一个先驱者，它可以在性能上实现数量级的改进。但是对于新的工作负载来说，如果ASIC没有得到优化，那么性能只能提高3倍。”

我们假设数据干净且有用，但是事情往往就是从这个时候开始变得非常复杂。

Macián说：“AI非常适用于非结构化数据集。如果你标记出现在Facebook上的人，那么你知道这非常适合通过AI来处理。但这些数据不是有组织的或结构化的数据。因此AI本质上是不准确的，有时它还是错误的。”

并非所有事情都需要为未来做准备。在移动电话等市场中，消费者希望每隔几年更换一次设备。但在有些情况下，人们希望电子产品可以在20年内正常的工作。

提高数据的质量可以解释为什么算法变化如此之快，以及为什么现场可升级性对于某些设备而言至关重要。但是这些变化也会对性能产生影响，如果不在硬件中添加一些可编程性，就无法对其进行说明。问题是可编程性的多少，因为可编程逻辑比比调整软件的硬件慢得多。

4.结论

与其他半导体增长市场不同，AI是一种横向的技术。它可以应用到各种垂直市场，也可以用于为这些市场开发芯片，它还可用于改善现有芯片的效率。

这只是人工智能革命的开端，而且这种影响力非常巨大。

随着设计团队越来越熟悉这项技术，它将对他们设计芯片的方式，以及这些芯片与其他芯片的交互产生重大影响，而且它还将为工具、硬件、软件、和可能出现的全新市场的开发人员创造新的机会。

原文：https://semiengineering.com/ai-begins-to-reshape-chip-design/

作者：Ed Sperling，Semiconductor Engineering的主编。

译者：弯月，责编：郭芮

机器学习芯片人工智能架构

安科网

未来的 AI 芯片将提升百倍性能！

xiexf

1.新的起点

2.AI的风险和混乱

3.过时计划

4.结论

xiexf

相关推荐

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

理解AI：为什么要在人工智能系统中寻求可解释性呢？

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

IT自动化和人工智能将在2021年走向何方?

强化学习到底是什么，它如何运作？

数字营销：AI如何“看透”人类行为模式？

机器学习新风暴：如何用ML模型预测房价？

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

需要知识的后深度学习时代，如何高效自动构建知识图谱

24个提高知识和技能极限的机器学习项目

xiexf