地平线黄畅:将边缘AI芯片做到极致,给自主机器人造计算平台

地平线黄畅:将边缘AI芯片做到极致,给自主机器人造计算平台

【新智元导读】AI技术的应用场景开始向移动设备转移,AI芯片作为产业的根基,是将AI技术从云端转移到终端的重要一环。地平线联合创始人&副总裁黄畅详细介绍了边缘AI芯片及其中关键技术,他表示,地平线希望构建自主机器人的计算平台,开放的工具链是一个最好的敲门砖。若想了解更多AI芯片资讯,欢迎来新智元 AI 朋友圈与大咖一起讨论~

人工智能不断发展,AI芯片越发炙手可热。

近几年,AI技术关注落地,应用场景开始向移动设备转移,如汽车上的自动驾驶、手机上的人脸识别等。产业的需求促进技术的进步,而AI芯片作为产业的根基,必须达到更强的性能、更高的效率、更小的体积,才能完成AI技术从云端到终端的转移。

地平线联合创始人&副总裁黄畅在地平线就是主要负责芯片、平台工具链算法等工作,他在以“AI 元力,重启未来”为主题的AI World 2019 世界人工智能峰会上,做了《软硬结合,打造高效开放的边缘AI芯片》主题演讲,主要介绍地平线的AI边缘计算芯片和相关业务,并以此为切口分享了对AI芯片行业的想法。

地平线黄畅:将边缘AI芯片做到极致,给自主机器人造计算平台

为什么做AI边缘侧计算:应对未来市场中的终端数量激增和海量数据计算挑战

黄畅认为从计算机发展史来看,计算终端不断变迁。面向未来,每个人会有多个智能计算设备,尤其是各种以自主机器人形式出现在我们身边的设备,这是一个非常巨大的市场。

地平线黄畅:将边缘AI芯片做到极致,给自主机器人造计算平台

而在终端和数据激增的时代,边缘计算是应对终端数量激增和海量数据计算挑战的一个关键

15年创立时,地平线想把AI计算从云端带到边缘,但是研究发现算法在未来并不是核心问题,而是足够平价高效的计算平台。于是,地平线创立时就决定把软件和硬件结合在一起,做自己的AI计算芯片。

关于为什么在边缘侧做这件事情?黄畅说:“最根本的原因在于机器人这种模式,本质上的诉求就是计算、智能、控制的去中心化,尤其是你需要它完成各种操作时。”

地平线黄畅:将边缘AI芯片做到极致,给自主机器人造计算平台

地平线联合创始人&副总裁黄畅

怎么推动边缘计算发展:5G助力,重新定义AI处理器性能的评估方式,追求全面与极致优化

黄畅谈到,5G技术给了边缘计算一个很好的助力,“这使得我们在云和端之间找到一个很好的中间节点去利用边缘侧,尤其在5G基站附近的小型计算数据中心节点更好地去得到更高效、性价比更高的计算解决方案,同时它仍然是一个非常靠近边缘能够独立运作的计算节点。”

地平线黄畅:将边缘AI芯片做到极致,给自主机器人造计算平台

地平线深耕驾驶领域,看到很多传统的驾驶领域的芯片巨头在芯片里面也集成了AI的核,后来发现它们集成的AI核能够加速的算法是非常传统的,有些方案没有看到算法向前发展的演进趋势。

由此,地平线提出不应该以传统芯片里面大家所声称的TOPS作为衡量AI芯片的性能,并想重新定义有效的算力对AI来说应该是什么样的。黄畅解释道,“我们追求的是真实的TOPS/美元”。

地平线黄畅:将边缘AI芯片做到极致,给自主机器人造计算平台

重新定义AI处理器性能的评估方式,针对场景,基于一个受限于对延迟或者精度要求的情况下,其中一大难题是怎么定义Performance?地平线的目标是,尽可能地提升数据的处理能力。

这里面有三个要素,最终全面的优化,芯片的优化、算法的优化,确定下来以后,上限就已经确定了,什么样的算法跑什么样的处理架构。上限确定了,还需要强大的开发工具链支持。其中相关相关的典型编译器和Runtime的优化,使你的算法以尽可能接近100%的利用率运行在硬件上。如果追求最终效能的全面极致优化,这三个都要能掌握,能够去改变。

地平线黄畅:将边缘AI芯片做到极致,给自主机器人造计算平台

如何实现软硬协同优化:基于复杂的AI计算系统判定AI芯片走向,将算法、编译器和芯片架构充分结合以联合优化

为实现软硬件协同优化,必须判断算法向前演进的趋势,抓住市场最主流的算法确定芯片走向,但这不是追求单一的算法模型加速。

需要哪种类型的加速?哪些计算需要进行硬件加速?它们的占比大概是多少?最合适的计算和存储架构是什么样的?

这应该针对应用场景中一个复杂的AI计算系统全面去考虑,将其最终结合在一起。

地平线黄畅:将边缘AI芯片做到极致,给自主机器人造计算平台

“协同优化”里面有很多关键的技术要素:

  • 面向未来重要场景的关键算法
  • 产品驱动的敏捷架构迭代
  • 创新的计算架构实现技术

将三种要素牢牢掌握住,把算法、编译器和芯片架构充分结合在一起整体联合优化,追求首重效能,兼顾灵活性,做任何判定的时候不能说死,如“一定是这种算法未来成为唯一的主流”。

地平线黄畅:将边缘AI芯片做到极致,给自主机器人造计算平台

如下是实际在芯片上的性能结果,典型场景里面的720P分辨率的检测分割,地平线的高效模型如果不优化处理,每帧处理的带宽高达142兆,计算延迟43毫秒,器件利用率57%,对很多处理器来说是很高效率,但地平线觉得还不够。 通过编译器的自动优化,连接了算法和处理器架构,能够逼近性能极限。编译器的自动优化不需要任何人力引入,自动分析,自动优化整体,包括算法拆分、指令调度、数据排布一系列的分析变换,把每帧的带宽140兆降低到30兆。这对于嵌入式系统来说至关重要。

地平线黄畅:将边缘AI芯片做到极致,给自主机器人造计算平台

计算延迟降低到25毫秒,器件利用率提升到95%。这个模型在通用的GPU上器件利用率只能做到10%到20%,“换句话说我们可以用1/4的成本达到相同的效果,算法、工具链充分利用起来得到极致优化。”黄畅说到。

使用工具链,编译器自动优化,赋能行业

黄畅介绍,目前,地平线的整个软件开发,已经从过去基于经验和手工写代码的方法,转变成为以数据和算法模型为基础,面向高性能边缘芯片的综合 AI 开发和计算平台。为了让这样的计算平台为内部外部的用户服务,地平线设计了一整套完善的工具链,包括训练量化、编译验证、部署,支持TensorFlow 、Gluon/MXNet等。

地平线提供两种不同的算法模型适配方案,供客户选择:

  • 流行的训练框架下的插件。它可以完成关键的量化稀疏之类跟硬件芯片相关的关键插件,可以方便集成到这些框架里面,简单替代原来网络结构的描述就可以用这套方法训练,可以原汁原味保留,前向预测的过程和软件的预测是保持一致的,保持着高精度。
  • 标准浮点模型转换方案。使用门槛低,基于常见框架训练的浮点模型,通过该转换成可在芯片上部署量化模型。这种工具一般会有一些精度损失,但是经过微调后,大部分可恢复。

这两种模式都需要去支持,前者追求极致的效果,后者追求极低的使用门槛。

地平线黄畅:将边缘AI芯片做到极致,给自主机器人造计算平台

开发工具链“天工开物”(Open Explorer),支持产品快速落地

说到工具链,黄畅在演讲中重点提到了地平线一款名为“天工开物”(Open Explorer)的开发工具链。这款工具链里面提供了非常丰富的例子、文档,可支持客户的产品快速落地。

地平线是To B的企业,在服务客户的过程中发现,很重要或者最重要的一个门槛是,如何帮助用户以很低的风险快速把一项技术落地应用起来。

工具链以开放的方式将地平线和其客户结合,黄畅提到,“完全依赖我们来做速度不是最快的,依赖客户做也不是最快的。实践证明,通过两者有机结合,基于地平线现有的技术积累,客户借助开放的工具链在实操过程中发现落地速度最快。这也是从最初的苹果模式逐渐走向安卓模式,更倾向于用开放的方式服务于整个产业很重要的原因。”

地平线黄畅:将边缘AI芯片做到极致,给自主机器人造计算平台

车规级AI芯片征程二代,构建全场景感知基础设施

2019年初,征程二代流片成功。8月底,地平线则宣布征程二代正式量产,这是地平线发布的中国首款车规级AI芯片。

地平线黄畅:将边缘AI芯片做到极致,给自主机器人造计算平台

该芯片用28纳米制程制造,搭载地平线自主创新研发的高性能计算架构BPU2.0(Brain Processing Unit),可提供超过4 TOPS的等效算力,典型功耗2瓦。具体来说,这款芯片具备:

  • 高算力利用率:典型算法模型的算力利用率不低于90%。
  • 高算力有效性:每TOPS AI能力输出可达同等算力GPU的10倍以上
  • 感知可靠性:典型目标的识别精度超过99%,延迟不超过100毫秒。
  • 感知丰富性:可以识别超过60个类别的目标,每秒单帧目标识别数量超过2000个。
  • 较低的系统成本:地平线结合芯片的张量并行计算特点,提出新的网络结构,在保持算力需求维持在较低水平的同时,降低了带宽利用率,征程二代芯片仅需要使用较低频的32位的DDR内存,相对于竞争产品的产品动辄64位甚至128位的DDR内存,有巨大的成本优势。
  • 全面开放:提供从参考解决方案,到开放的感知结果,再到芯片及工具链的基础开发环境,并可依据客户的不同需求提供不同层次的产品交付和服务。

地平线黄畅:将边缘AI芯片做到极致,给自主机器人造计算平台

黄畅介绍说:“这个工具链是开放的,跟韩国SKT合作时,它基于地平线的行人、车辆检测,在这个基础上开发韩文的标识牌识别、道路养护检测,也在做低成本的高精地图,用于市政测绘和辅助驾驶L3级别的自动驾驶,这种模式非常合适,算法和软件方面,我们做一部分,他们做一部分算法和软件。各自做好擅长的,为最终产品成功并肩作战。”

地平线黄畅:将边缘AI芯片做到极致,给自主机器人造计算平台

黄畅表示:“以自动驾驶为例,我们芯片出来之后进行替换,在算力提升的同时,功耗显著下降。12路摄像头覆盖整个车子的360度,进行分割、检测、结构化,各方面处理,需要四颗这样的芯片。用FPGA处理12路需要100多瓦,现在换上我们的第二代征程芯片,整个系统不超过30瓦。过去如果不用这套系统,用GPU基本都是几百瓦的功耗,这样的功耗对于车子来说其实是难以接受的。”

前面只是解决了视觉感知和矢量化问题,为进一步延伸做三维建模,地平线推出了非常低成本高效的方案。有物体的结构分割、矢量化、结构化,使得过去用激光雷达才能做成的事情,现在单目摄像头加上廉价的计算平台可以做到非常类似的结果,可以支持到L3级别的自动驾驶。用这样一个解决方案只需要一个摄像头和芯片,剩下的问题全解决了,这使得地图采集这件事情非常廉价,实时可用。

地平线黄畅:将边缘AI芯片做到极致,给自主机器人造计算平台

未来趋势:希望构建自主机器人的计算平台,开放的工具链一个最好的敲门砖

最后,黄畅提到了地平线的未来发展趋势:

地平线黄畅:将边缘AI芯片做到极致,给自主机器人造计算平台

“从整个行业发展趋势来讲,我们在驾驶行业做得比较多,看到很明显的趋势,从传统的分布式系统到域控制器走向中央计算机,它本身就是一个移动的边缘侧的计算平台,而且是所有自主机器人的第一商业化形态,是第一个可以集中化大规模商业化的领域,地平线始终把自动驾驶当成是最重要的一个应用领域,这个应用领域是面向未来,地平线希望构建自主机器人的计算平台,开放的工具链是一个最好的敲门砖。”

据了解,继发布中国首款车规级AI 芯片——征程二代后,地平线也将在推出面向物联网边缘计算的AI 芯片——旭日二代,及相应的AIoT解决方案,赋能更广泛的人工智能应用,从而助推普惠AI 时代到来,让技术成果真正惠及人们的生活。

相关推荐