AI初创公司Flex Logix的性能远远高于Nvidia?

点击上方关注,All in AI中国

成立四年的初创公司Flex Logix揭开了其机器学习芯片设计的神秘面纱。他们的首席执行官 Geoff Tate 描述了芯片如何利用“边缘计算”中的推理活动实现“激增”,以及为何Nvidia在性能上无法与其竞争。

二十八年前,Geoff Tate帮助创建了一家名为Rambus的芯片公司。它的技术存在于今天发布的每个DRAM存储器部件中,但Geoff Tate认为他现在在人工智能和机器学习方面会找到更大的市场。

Geoff Tate在接受ZDNet采访时表示,“我认为神经网络将比我们对Rambus所做的市场更大。”

Flex公司成立于四年前,由风险投资公司Lux Capital和Eclipse Ventures提供支持,目前正在追逐被称为“边缘推理(inferencing at the edge)”的市场。推理是机器学习的一部分,神经网络使用它在训练阶段学到的东西来回答新问题。

在这种情况下,“边缘”是指数据中心外部的设备,例如自动驾驶汽车或物联网小工具。因此,在边缘进行推理可能涉及神经网络,例如帮助汽车看到道路或帮助连接的摄像机识别人群中的人。

AI初创公司Flex Logix的性能远远高于Nvidia?

Flex Logix将SRAM中的多个mutliplier-accumulator电路组合在一起,并将一个特殊电路连接在一起,称为“XFLX”。该公司声称,这种部件的安排将使处理器在更多时间内保持所需的数据,从而有助于在机器学习推理方面大大优于Nvidia的GPU。

该公司在展会上公布了其“NMAX”技术。这是基于所谓的“eFPGA”可编程芯片。 NMAX结合了大量相同的计算元素,称为multiplier-accumulators,执行矩阵乘法,这是神经网络中的基本任务。multiplier-accumulators构成了一个“收缩阵列”,这是一种旧的计算机设计,正在经历复兴,因为许多芯片制造商将其用于人工智能。

这些multiplier-accumulators组由SRAM存储器电路和称为“XFLX”的高速互连包围,该互连将multiplier-accumulators彼此连接并连接到SRAM。 SRAM持有“权重”,即形成神经网络的数值。

Tate强调,XFLX互连是芯片性能的关键。通过有效地将数据移入和移出SRAM到multiplier-accumulators的集群,整个芯片可以更高效。multiplier-accumulators通过始终拥有所需的数据而保持忙碌,并且芯片可以最小化甚至完全避免昂贵的片外到DRAM的过程。 “切割DRAM意味着削减成本和功耗”。 Flex正在开发一种特殊的编译器程序,用于优化芯片周围的数据流。

Tate和他的联合创始人Cheng Wang,瞄准了Nvidia的图形处理单元(GPU),因为这是目前主要的计算形式。他们认为GPU虽然优于CPU,但对处理神经网络的效率极低。

Tate表示,“大多数时候,Nvidia MAC [multiplier-accumulators]什么都不做,所以他们需要四倍的硬件才能得到相同的结果。”

Wang在展会上的正式演讲中断言,NMAX芯片的价格/性能是Nvidia“Tesla T4”GPU的十倍。XFLX互连以及FPGA电路的可重新配置特性意味着NMAX在较少的时间内处于空闲状态,因此具有更高的“利用率”。他认为,大多数AI芯片公司都有各种各样的声称,他们可以表现出“每秒钟的操作数”或“TOPS”,并承诺提供越来越多的服务。

但Wang表示,大多数客户更关注他们可以实现的实际吞吐量和延迟。无论原始TOPS计数如何,更高的利用率都应该以实际吞吐量的方式产生更多。

在用于图像识别的基准“ResNet-50”神经网络上,Wang表示NMAX可以实现87%的multiplier-accumulators的“效率”,而特斯拉T4和其他类型的芯片则不到25%。

AI初创公司Flex Logix的性能远远高于Nvidia?

Flex Logix在基准测试中拥有更高的芯片效率,涉及某些机器学习神经网络,如“ResNet-50”。

“在我们的客户会议中,他们已经对所有这些进行了基准测试,他们知道真实与承诺的性能问题,”Tate表示, “我们与一家公司进行了交谈,该公司表示问题不在于你可以做多少TOPS,而在于,只有一瓦特的电力,你可以做多少。这是因为与位于数据中心的服务器不同,边缘设备可能会受到电池寿命的限制。

“我们没有看到任何与我们的能力相匹配的东西,实际上ResNet-50甚至有点误导,因为在现实世界中,与学术演示相反,神经网络将比ResNet-50大得多,而这些网络将对硬件产生很大的负担。”

NMAX将以所谓的“IP核”出售给客户,这种电路设计可以融入他们自己的芯片中。零部件预计将在明年下半年“退市”。

AI初创公司Flex Logix的性能远远高于Nvidia?

相关推荐