2017“年终总结”:人工智能、机器学习和深度学习的ICs和IPs列表
I. IC 巨头
Nervana
英特尔购买了Nervana Systems,他们除了开发Nervana Engine ASIC之外,还开发了GPU /软件方法。类似的表现还不清楚。英特尔还计划通过[Knights Crest]整合Phi平台。有一个NervanaCon英特尔计划在十二月,所以也许我们会看到第一个成果。
英特尔的CEO Brian Krzanich在早些时候在“华尔街日报”的D.Live活动中讨论过,英特尔即将推出世界上第一个从人工智能(AI)设计的处理器系列:[英特尔Nervana神经网络处理器系列](以前称为“Lake Crest”)。这个处理器系列已经有三年多的时间了,我代表团队建设,想分享一下这个神经网络处理器背后的动机和设计。
Mobileye EyeQ
Mobileye目前正在开发其第五代SoC,作为视觉中央计算机执行传感器融合完全自主驾驶车辆将在2020年上路。为了满足功耗和性能目标,EyeQSoC设计用于最先进的VLSI工艺技术节点,第5代低至7nm FinFET。
Movidius
他是多核,不间断系统芯片,支持计算成像和视觉感知的移动,是一种可穿戴的嵌入式应用。视觉处理单元包含并行性,指令集架构和微观结构特征集成,以在一系列计算机映像和计算机视觉应用程序中,提供高度可持续的性能效率,包括那些在毫秒级上对微软命令具有低延迟要求的应用程序。
Myriad X是第一个采用神经计算引擎的VPU--专门用于运行设备上深度神经网络应用的硬件加速器。 Neural Compute Engine可以通过智能内存结构直接与其他关键组件进行连接,Neural Compute Engine能够提供业界领先的每瓦性能,而不会遇到其他架构遇到的常见数据流瓶颈。
Loihi
英特尔的Loihi测试芯片是其首款自学芯片,Loihi研究测试芯片包括模拟大脑基本力学的数字电路,使机器学习更快更高效,同时要求更低的计算能力。神经形态的芯片模型从神经元如何交流和学习,可以基于时间调制,从中汲取灵感。这可以帮助电脑根据模式和关联进行自我组织和决策。
Qualcomm一直在使用Zeroth SDK和Snapdragon神经处理引擎来搞ML。 NPE在Qualcomm使用的Hexagon DSP上当然能够很好地工作。海克斯康的DSP并不是一个非常广泛的并行平台,而且已经被Yann LeCun证实,高通公司和Facebook正在更好地合作,在Wired的“为了创造一切真实的AI芯片而竞争”,高通公司技术副总裁Jeff Gehlhaar证也实了这个项目,他表示,“最近,高通公司已经开始建立专门用于执行神经网络的芯片,因为熟悉高通的计划,Facebook正在帮助芯片制造商开发与机器学习相关的技术。我们的原型设计和开发工作进展非常顺利,也许很快就会看到Kryo CPU、Adreno GPU、Hexagon DSP和Hexagon Vector Extensions之外的东西。如果你与高通的机器学习竞争,那么在这个领域将很难成为一个初创公司。在最近的“我们正在使设备上的AI无处不在中”的博客中,展示了它的AI路线图。
GPU
Nvidia最新的GPU可以使用新的Tensor核心架构(FP16乘法器和FP32累加或补充ML)来执行15 TFlops的SP或120 TFlops。
Nvidia正在将9块Tensor TFlops的8块板卡装入DGX-1。
Nvidia Volta - 架构看点给出了Volta架构的一些见解。
系统芯片
另外,Nvidia还提供了NVIDIA DRIVEPX(用于自动驾驶的AI车载计算机)和JETSON TX1 / TX2 MODULE。Nvidia在GTC2017上推出了“XAVIER DLA NOW OPEN SOURCE”。现在开源的DLA可以在Github上找到。
NVIDIA深度学习加速器(NVDLA)是一个免费的开放式架构,它提供了设计深度学习推理加速器的标准方法。凭借其模块化架构,NVDLA具有可扩展性,高度可配置性,旨在简化集成和便携性。硬件支持各种物联网设备。作为NVIDIA Open NVDLA许可证下的开源项目,所有软件,硬件和文档都将在GitHub上提供。
即将发布的[AMD Radeon Instinct MI25]承诺12.3 TFlops的SP或24.6 TFlops的FP16。如果你的计算适合Nvidia的Tensors,那么AMD无法竞争。 Nvidia是900GB / s带宽的两倍,而AMD则是484 GB / s。
AMD九年来首次将非常出色的X86服务器处理器推向市场,同时它还拥有一个匹配的GPU,为OEM和ODM合作伙伴提供了一个可信的HPC和AI工作负载替代方案,将Intel Xeons和Nvidia特斯拉这些日子主导混合动力计算。
据报道,特斯拉正在与AMD合作开发自己的人工智能处理器,旨在与自动驾驶系统一起使用。特斯拉与英伟达(Nvidia)有着合作关系,而英伟达的图形处理器(GPU)为其自动驾驶系统提供动力,但由CNBC报道的这款新型内部芯片可能会减少对第三方人工智能处理硬件的依赖。
此外,苹果公司推出新型处理器iPhone 8和iPhone X - A11仿生。 包括专用的神经网络硬件,苹果公司称之为“neural engine”,每秒可执行高达600亿次操作。
[核心ML]是苹果公司最近推出的机器学习应用软件。赛灵思提供“从边缘到云端的机器学习推理解决方案”,并自然声称他们的FPGA最适合INT8的白皮书之一。
虽然FPGA的性能表现令人印象深刻,但厂商的大型芯片早已为大芯片提供了惊人的高芯片价格。在价格和功能之间找到平衡成为FPGA的主要挑战。
[TrueNorth]是一个芯片设计上的核心处理器网络,有4096个核心,每个可模拟256个可编程芯片“神经元”,总共有一百多万个神经元。反过来,每个神经元都有256个可编程的“突触”,在它们之间传递信号。因此,可编程突触总数刚好超过2.68亿(228)。在基本构件方面,晶体管数量为54亿个。由于内存,计算和通信都是在4096个神经突触核心中处理的,TrueNorth克服了冯诺依曼体系结构的瓶颈,并且非常节能,消耗70毫瓦,约为传统微处理器功率密度的1/10000。
** S32汽车平台**
[S32汽车平台]恩智浦S32汽车平台采用可扩展的汽车计算架构。它提供了跨应用领域的统一硬件平台和完全相同的软件环境,以更快的速度将丰富的车载体验和自动驾驶功能推向市场。
ADAS芯片
S32V234:用于正面和环视摄像头,机器学习和传感器融合应用的视觉处理器
S32V234是第二代视觉处理器系列,支持图像处理的计算密集型应用,并提供ISP,强大的3D GPU,双APEX-2视觉加速器,安全性和支持SafeAssure。 S32V234适用于ADAS、NCAP前置摄像头、物体检测和识别、环绕视图、机器学习和传感器融合应用。 S32V234设计用于汽车级可靠性,功能安全性和安全性措施,以支持车辆和工业自动化。
**麒麟智能手机**
海思半导体[麒麟970处理器]宣布与专门的神经网络处理单元合作。在(https://www.anandtech.com/show/11815/huawei-mate-10-and-mate-10-pro-launch-on-october-16th-more-kirin-970-details) ,中,可以在Kirin970中找到更多关于NPU的细节。
II .互联网/云/ HPC巨头
Google的原始TPU在GPU上有很大的优势,并帮助DeepMind的AlphaGo的一场围棋比赛中战胜了Lee Sedol。最初的700MHz TPU被描述为具有用于8位计算的95 TFlops或者用于16位的23 TFlops,而仅绘制40W。这比发布GPU要快得多,但现在比Nvidia的V100慢,但不是按W计算的。新的TPU2被称为具有四个芯片的TPU设备,可以做大约180个TFlops。每个芯片的性能已经翻了一番,达到了16位的45 TFlops。你可以看到它与Nvidia V100的差距正在缩小。谷歌他们的云中使用TPU pods包含64个设备,最多高达11.5 千兆次。
Pixel Visual Core是谷歌首款定制设计的消费类产品协处理器。它内置于每个像素2中,并且在未来几个月内,可以通过软件更新将其打开,以使更多应用程序使用Pixel 2的相机拍摄HDR +质量的图像。
[Amazon EC2 F1]是一个带有现场可编程门阵列(FPGA)的计算实例,你可以编写程序来创建自定义硬件为你的应用程序加速。 F1实例很容易编程,并提供开发,模拟,调试和编译硬件加速代码所需的一切,包括[FPGA开发AMI]和[硬件开发工具包]。 FPGA设计完成后,可以将其注册为Amazon FPGA Image(AFI),只需点击几下即可将其部署到F1实例。可以多次重复使用你的AFI,并尽可能多地使用你喜欢的F1实例。
Wired在微软对于FPGA的使用方面也做了一个很好的报道:“微软在可重编程的计算机芯片上迎来了未来”。
在“智慧云中的FPGA”中也给出了用于云中AI加速的FPGA的概述。
[FPGA云服务器]是现场可编程门阵列(FPGA)的计算实例,它允许用户在数分钟内轻松创建FPGA设计,创建基于阿里云云计算弹性计算框架的定制专用硬件加速器。深度学习(Deep Learning)是一种多层计算模型,可以对复杂输入进行建模,在图像分类、语音识别、自然语言处理中取得了成果,FPGA实例由其细粒度并行的硬件特性,非常适用小批量数据的深度学习预测过程,以低功耗、低延迟、高性能著称,以AlexNet模型为例,使用FPGA计算实例进行图片类别预测,速度比仅用CPU的普通实例快8〜15倍。
腾讯云推出基于Xilinx Kintex UltraScale KU115 FPGA的三种不同规格的[FPGA实例]。他们将来会为Inter FPGA提供更多的选择。
有很多关于公司重视精简深度学习处理的文章,其中最主要的是GPU,但是[百度有一个新的处理器]将其称作XPU。目前,该器件刚刚在FPGA中进行了演示,但如果它继续证明对AI有用,则分析、云计算和自主驱动搜索巨头可以将其推向全面的ASIC。
[FPGA云计算]已公开进行beta测试。在百度内部,FPGA从2013年开始就应用在许多典型的深度学习模型中,如DNN,RNN,CNN,LSTM等,涵盖了语音识别,自然语言处理,推荐算法,图像识别等广泛的应用领域。百度FPGA云服务器中开放了基于FPGA的深度卷积神经网络加速服务,单卡提供3Tops的定点计算能力,支持典型深度卷积网络算子,如卷积,逆卷积,池化,拼接,切割等,有效加速典型网络结构如VggNet,GoogLeNet,RESNET等。我们基于FPGA的深度学习硬件,深度定制优化了主流深度学习平台如CAFFE等,用户可以直接将深度学习业务切换。
[FPGA加速云服务器],高性能FPGA实例开放beta测试。 FPGA云服务器提供CPU和FPGA直接的高达100Gbps PCIe互连通道,每节点提供8片Xilinx VU9P FPGA,同时提供FPGA之间高达200Gbps的Mesh光互连专用通道,让应用加速需求不再受到影响硬件限制。
[富士通正在创建的DLU]是从头开始的,它不是基于Sparc或ARM指令集,事实上,它都有自己的指令集和专门用于深度学习的新数据格式,这些格式是从零开始创建的。日本的计算巨头富士通。对于高性能计算(HPC)工作负载非常有效且高度可扩展的系统,K超级计算机就证明了这一点,但他不相信高性能计算和人工智能体系将会聚合。相反,公司正在从事这样的事实,即这些架构将会分歧,并且需要非常专业化的功能。
III.传统的IP供应商
[DynamIQ]是嵌入IP巨人对AI时代的回答。这可能不是一个革命性的设计,但肯定是非常重要的。
ARM还提供了一个开源[Compute Library],其中包含ARM Cortex-A系列CPU处理器和Arm Mali系列的全面软件功能的GPU。
[Imagination展示了PowerVR神经网络加速器(NNA),性能是接近竞争对手的2倍PowerVR
[CEVA-XM6第五代计算机视觉与深度学习嵌入式平台](http://www.ceva-dsp.com/product/ceva-xm6/)
[处理器IP厂商的机器学习方案 - CEVA](http://mp.weixin.qq.com/s/rosyXJew4B0NvzY73uHz5w)
[VeriSilicon的Vivante VIP8000神经网络处理器IP每秒提供超过3 Tera MACs]
IV.在中国创业
[Cambricon]成功创下A轮融资一亿美元的纪录,提供涵盖IP授权,芯片服务,智能卡和智能平台的解决方案。
AI芯片爆炸:Cambricon的十亿设备野心
11月6日在北京,中国崛起的半导体公司Cambricon发布了Cambrian-1H8用于低功耗计算机视觉应用,更高端的Cambrian-1H16用于更通用的应用,Cambrian-1M可用于自动驾驶应用。
中国新兴公司Horizon Robotics与英特尔联手在CES 2017上展示高级驾驶员辅助系统(ADAS),该系统是一款可以查看内容并识别内容的单台摄像机。 Horizon Robotics的创始人兼首席执行官Kai YU博士曾经是百度深度学院的负责人,所以期待这家创业公司未来的发展。人工智能启动Horizon Robotics已经从英特尔获得投资。
2017年10月19日,美国旧金山 - 全球领先的人工智能(AI)创业公司Horizon Robotics在英特尔投资首席执行官展示期间宣布,已收到英特尔投资的资金。嘉实投资将作为联合投资者参加,包括Morningside Venture Capital,Hillhouse Capital,Wu Capital和Linear Ventures等现有股东。本公司预计,A +系列融资合约将于完成后总计约1亿美元。
[DeePhi Tech]拥有深度压缩、编译工具链、深度学习处理单元(DPU)设计、FPGA开发和系统级优化等尖端技术。 DeePhi有深度神经网络开发工具包(DNNDK),这是一个旨在简化和加速深度学习应用的深度学习软件开发工具包。
这个下一代平台的“FPGA启动收集合并超大规模推论融资力量”带给该企业更多的信息。
人工智能创业公司DeePhi从三星的蚂蚁金融公司筹集了4000万美元的融资
国内人造智能创业公司DeePhi Tech在一次产品发布会上宣布,已经完成了A +系列融资约4000万美元。这一轮融资由阿里巴巴的金融子公司蚂蚁金融服务集团和三星牵头,招商创投和中国成长资本作为投资者参与。
比特币矿业巨头[Bitmain]正在开发用于训练和推理任务的处理器。但是通过这样一个名字,詹和他的联合创始人吴继汉已经向世界表明了他们的意图。 Sophon设备将包含Bitmain的第一块定制芯片,用于革命性的AI技术。如果事情按计划进行,那么成千上万的BitmainSophon单元很快就可以在世界各地的大型数据中心里训练神经网络。
11月8日,Bitmain发布了其索引BM1869 Tensor计算处理器,深度学习加速卡SC1和IVS服务器SS1。
[Chipintelli的]第一个IC,[CI1006],是专为自动语音识别应用程序。
[红杉,Hillhouse,一图科技加入中国AI芯片制造商ThinkForce 68M系列A轮]
V.全球启动
[Cerebras](以Benchmark为后盾,其创始人是SeaMicro的首席执行官。它似乎已经筹集了2500万美元并保持隐身模式。
Wave的计算设备能够在其3RU设备上以2.9 PetaOPS /秒的速度运行TensorFlow。 Wave指DPU上的处理器,一个设备有16个DPU。 Wave使用称为粗粒度可重构阵列(CGRA)的处理元素。目前还不清楚2.9 PetaOPS / s是指什么位宽度。有些细节可以在他们的[白皮书](http://wavecomp.ai/technology/)中找到。
在HotChips 2017之后,在一篇平板文章“[Wave Computing的DPU架构,系统的第一个视图](https://www.nextplatform.com/2017/08/23/first-depth-view-wave-computings -dpu-architecture-systems /)”,有更详细的讨论。
[Graphcore]去年年底筹集了3000万美元的Series-A,以支持他们的情报处理单位(IPU)的发展。最近,联合创始人兼首席技术官西蒙·诺尔斯(Simon Knowles)在伦敦的第三届研究和应用人工智能峰会(RAAIS)上被邀请发表演讲。
在一个新闻发布会上,Graphcore显示[“初步议会联盟基准”] 学习的应用程序
解密又一个xPU:Graphcore的IPU对其IPU体系结构进行了一些分析。
Pezy-SC和Pezy-SC2是Pezy开发的1024核心和2048核心处理器。 Pezy-SC 1024核心芯片在2015年的超级计算机Green500列表中排名前三位。 “PEZY-SC2 HPC Brick:采用64GB DDR4 DIMM的PEZY-SC2模块卡32颗(2.1 PetaFLOPS(DP)单槽,6.4Tb / s“2048个MIMD MIPS Warrior 64位内核。在[2017年6月的Green500列表]中可以看到, Nvidia P100系统占据了第一位,在第七位有一个Pezy-SC2系统。所以芯片似乎还活着,但细节却很薄弱。
据介绍,每个ASIC上有256个微型DSP或tDSP内核,以及一个适用于35W包络中稀疏矩阵处理的ARM控制器。 自从去年KnuEdge“隐身”以来,该公司已经平静下来,并没有提供任何关于他们已经做了什么的额外信息。根据VentureBeat的文章,我们知道KnuEdge已经创造了收入,他们正考虑在今年筹集更多的资金,除了已经筹集到的1亿美元的“耐心资金”之外,除了员工档案之外,他们的网站没有任何信息。几个星期前,公司谈到“云计算机智能即服务”,“可能会在今年某个时候推出”。
[Tenstorrent]是多伦多的一家小型加拿大初创公司,声称在深度学习的效率方面提高了一个数量级。但没有真正的公布细节。
[ThinCI]来自Sacremento的处理器与100倍性能改进。成立于2010年,加利福尼亚州埃尔多拉多希尔斯(Eldorado Hills)的ThinCI公司已经投入了大量的资金来开发一项技术,将视觉处理技术带到所有设备上。智能设备具有像计算机视觉这样的不需要定期与云通信的功能的能力被称为“边缘计算”或“雾计算”。这就是ThinCI想玩的地方。
[Koniku的网站]倒数了“你的新现实”。他们筹集了很少的钱,在观看了他们嵌入这个福布斯页面的YouTube剪辑之后成为普通的这个启动创始人。利用生物细胞肯定是不同的,这听起来像[科学项目]。计划将在维也纳举行的开拓者大会上发表,演讲的阿加比认为,“现在有一些需求,我们可以提供我们的系统。”Koniku提供的核心是所谓的神经元外壳,其中创业公司认为,它可以控制神经元之间如何相互沟通,结合正在申请专利的电极,允许读取和写入神经元内的信息。所有这一切都包含在一个像iPad一样大的设备中,他们希望在2018年之前将其缩小到镍的大小。
[Adapteva]“[Adapteva带出Epiphany-V:1024核心的64位RISC处理器]。安德烈亚斯·奥洛夫松(Andreas Olofsson)在去年年底发布了他的1024核心芯片,我们期待它的表现。 [Epiphany-V]有深度学习的新指令,我们将不得不看看这个无内存控制器的设计与64MB的片上内存将具有适当的可扩展性。 Andrea的设计和构建的这个芯片的效率令人印象深刻,我们都可以负担得起,所以希望它表现良好。
[Knowm]实际上被设置为.ORG,但他们似乎在追求一个营利性企业。新梅克西奥创业公司迄今为止已经收到了一笔未公开的种子资金,用于开发一种名为[AHaH计算]的新计算框架。有关的细节可以在[本刊物]中找到(http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0085175),但是这项技术的最终目标是缩小尺寸和智能机器学习应用的功耗高达9个数量级。
来自[Mythic]的电池供电的神经芯片,功耗降低50倍。 总部位于德克萨斯州的创业公司Mythic(前身为Isocline)它成立于2012年,已经以Draper Fisher Jurvetson为首席投资者获得了950万美元的资金。在还未获得任何资金之前,创业公司已经获得了[250万美元的赠款]。该公司正在开发一种AI芯片,将台式机GPU的计算能力和深度神经网络集成到一个按键大小的芯片上,比起竞争对手来说,电池寿命将提高50倍,数据处理能力也会大大提高。从本质上讲,这意味着你可以在本地为任何设备提供语音控制和计算机视觉,而无需云连接。
尽管有许多承诺,但[Kalray]在2015年覆盖的256核心之外并没有取得进一步的发展。Kalray宣传他们的产品适合嵌入式自驾车应用。 Kalray拥有一个[Kalray神经网络](KaNN)软件包,并且声称比具有高达1 TFlop / s芯片的GPU更高的效率。
Kalrays NN的财富可能会随着即将到来的产品更新而改善,正是在这个月,Kalray完成了一笔筹集了2600万美元的新资金。新的[Coolidge处理器]将于2018年年中推出,具有80或160个内核以及80或160个协处理器。
BrainChip公司(CA. USA)是第一家提供[Spiking Neural processor]的公司,2008年获得专利(专利US 8,250,011)。目前称为BrainChip加速器的器件是用于快速学习的芯片。它是作为BrainChip Studio软件的一部分提供的。 BrainChip是一家上市公司。
[This BDTi artical]显示了[Aimotive]的aiWare IP的一些信息。在芯片方面,AImotive和合作伙伴VeriSilicon正在设计一款22纳米FD-SOI测试芯片,该芯片预计将在2018年第一季度出现在GlobalFoundries的晶圆厂。它将具有1 TMAC /秒的aiWare核心,消耗大约25平方毫米的硅面积;一个Vivante VIP8000衍生处理器内核将占据另一半芯片,而2-4芯片的DDR4 SDRAM也将包含在多芯片封装中。根据Feher的说法,此测试芯片中的卷积定制的LAM将具有以下规格(基于初步的综合结果):> 2,048 8x8 MAC>逻辑区域(包括输入/输出缓冲逻辑,LAM控制和MAC):3.45mm2 >存储器(片上缓冲器):取决于配置(10-50 Mbits),范围为5-25mm2。 Aimotive的另一个有趣的活动是[神经网络交换格式(NNEF)]。
[Leepmind]正在进行原始芯片架构的研究,以便在一个电路上实现神经网络,从而实现低功率。
尽管实际上不可能为你的启动选择比“[krtkl]”更糟糕的名称,但至少产品名称是可管理Snickerdoodle是“构建智能系统的可重构硬件”(想想Raspberry Pi)。为Snickerdoodle筹集资金筹集了224,876美元,现在正在运送。如果你预购了一个,他们会在夏天发货。掌上型的装置使用的是Xilinix的Zynq“片上系统”(SoC)。
NovuMind将大数据,高性能和异构计算相结合,将物联网(IoT)转变为智能物联网(IooT)。
[Reduced Energy Microsystems]正在开发更低功耗的异步芯片以适应CNN推断。根据[TechCrunch]的说法,REM是Y Combinator的首个ASIC合资企业。
[TeraDeep]正在利用其深度学习FPGA的加速技术来构建AI设备。该公司声称AlexNet上的图像识别性能与大型GPU相比,实现了2倍的性能优势,同时功耗却降低了5倍。与英特尔至强处理器相比,TeraDeep的Accel技术可以提供10倍的性能,而功耗则降低5倍。
Deep Vision]正在推出低功耗的深度学习芯片。
[Groq]由Ex-googlers创建谁设计了Google TPU。 Groq的网站(groq.com)声称,它的第一个芯片将以每秒8TOP / s的功率效率每秒运行400万亿次。
[面部识别系统“k - eye”由KAIST提交],[从ISSCC深度处理器论文到人脸识别产品]。
[Kneron以超过1000万美元的A系列融资来加速人工智能的发展]
最近,来自[Vathys](http://vathys.ai/)的Tapabrata Ghosh展示了他们的[Petascale深度学习芯片],这是一个雄心勃勃的设计。希望他们能在2018年的工程样品上给我们带来积极的结果。