AI芯片淘金热: 一场耐力持久的追逐赛
摘要:比起互联网+引起的效应,AI赋能的效果显然更为革命与显现。
来源:IT时报
作者:戚夜云
1848年8月19日,《纽约先驱报》刊登了一则重磅消息,加州(加利福尼亚)发现了黄金!消息传开,大批的人力投身于美国西部,引发了席卷全美的淘金热潮,给加州这块贫瘠的土地,带来了财富与繁荣。
当下的AI领域,正经历着这样一场淘金热。
资本家们毫不吝啬,投入了数以亿计的资金,融入的玩家大小林立,既有掌握先进工具的科技巨头,也有正不遗余力炼金的企业家,更多的是独握一门炼金术的独角兽。同时,因为这片处女地足够大,不管你是芯片制造商,还是算法提供商,抑或是云计算服务提供商,都可以获取自己的利益。但是最终决定这场淘金热能够走得多远、影响多持久,AI芯片企业掌握了实际的话语权。
近日,市场研究公司Compass Intelligence发布了最新研究报告,全球AI芯片企业排名表中,英伟达(Nvidia)、英特尔(Intel)分列第一、第二名,中国企业华为、寒武纪、地平线,分列12、22、24位。虽然都在同一条赛道上奔跑,但是企业侧重有所不同。
巨头把持云端AI芯片
AI芯片,可以说是深度学习的专用芯片,具备在很高的内在并行度、大量的浮点计算能力以及矩阵预算的能力,算法、算力、数据,是它三个核心的元素。在相同的精度下,与传统的通用CPU相比,它的处理速度更快、所需的服务器更少、功耗更低。一个简单的显性例子是,AI芯片下的处理能力每秒能够达到 5700 张图片,而如今所用的 CPU 则每秒仅能识别 140 张图片。
AI芯片的兴起要回溯到2013年,人们意外发现, 原来用于游戏的GPU在深度学习中发挥巨大的作用。这一发现,使得GPU出身的英伟达瞬间占据了AI芯片的制高点,基于深度学习发布了多款芯片。
人工智能芯片领域,可以分为面向云端数据中心的芯片和面向终端的嵌入式人工智能芯片两大门类。而英伟达的GPU已经成为在云端服务器的霸主,有报告显示,世界上目前约有3000多家AI初创公司,大部分都采用了英伟达提供的硬件平台。在端方面,英伟达推出了16nm的AI芯片XAVIER、自动驾驶平台DRIVE PX,并且开源了DLA深度学习加速器项目。凭借着巨大的优势,英伟达的股价已经从2016年初的30美元,飙升至如今的255美元,飞升了八倍之多。
从保守的角度来说,英伟达的潜在对手是英特尔。在云端市场,英特尔是老牌玩家,英伟达是新入局者。不过,英特尔发力较晚,通过连续收购完成了生态布局,云端收购Altera之后推出了基于FPGA的专用深度学习加速卡,收购Nervana为AI优化的Knight Mill至强处理器。自动驾驶方面,与Mobileye和BMW结成了自动驾驶联盟,并在移动端收购了Movidius。后续发力,业内人士相当看好英特尔。
实际上,真正挑起与英伟达在云端芯片较量的重担是谷歌。自从决定研发AI芯片,也就是TPU(Tensor Processing Unit)后,谷歌一直悄无声息。直到去年4月,谷歌一篇论文的发布,犹如一枚深水炸弹,让业内吃了一惊。随后TPU的发布更是让英伟达“慌了”。第三方平台RiseML(riseml.com)做了一次对比评测。实验结果表明,在自定义的LSTM模型上,TPU更快。TPU(21402 examples/s)比P100(1658 examples/s)快16.9倍,比V100(2778 examples/s)快7.7倍。RiseML给出的结论是:一旦TPU能够容纳更多的用户使用,就可以成为英伟达GPU真正的替代者。
需要注意的是,柯洁对战的AlphaGo Master使用的就是第一代TPU,单机运行,且物理服务器仅仅部署了4个TPU就打败了柯洁。颇为遗憾的是,谷歌的TPU仅供自家使用,不对外出售,仅仅开放云端供大家使用。
初创团队
更偏向终端侧发力
英伟达首席科学家兼NVIDIA Research高级副总裁Bill Dally博士表示,虽然AI领域大家似乎都在同一起跑线上,但是细分之后较为清晰可鉴的是,面向云端数据中心的芯片被巨头们把持,因市场偏成熟,企业积累深厚,很难被超越,所以各大初创公司创业方向选择的是面向终端的嵌入式人工智能芯片,如物联网、智能驾驶、机器人等等,这是他们的机会所在。
这也是为什么地平线自2015年成立以来,突破的是面向终端的嵌入式人工智能芯片薄弱环节——在保证性能、可编程的前提下,芯片保持较低的功耗与成本。
地平线表示,他们研发历时2年,才推出面向智能驾驶的征程处理器和面向智能摄像头的旭日处理器。三项核心数据上,地平线做到了可每秒实现30帧1080P高清视频流的实时处理;每帧支持200个并行目标的检测、识别和跟踪;典型功耗仅1.5W,每帧处理时延小于30ms。
地平线采用的是自主设计研发的BPU芯片架构,是一款典型的异构多指令多数据的系统,架构中心处理器是完整的系统,存储器架构设计进行了特别优化,能使数据自由传递,进行多种计算,让不同部件同时运转起来,极大提高了器件利用率,提高AI运算的效率。
寒武纪在终端发力之后,也在云端推出了产品。前不久的发布会上,不仅推出新一代终端智能处理器IP 产品Cambricon 1M,还发布了首款云端智能芯片Cambricon MLU100,双向发力让业内哗然。寒武纪CEO陈天石表示,3年前就开始了两颗芯片的研发,时刻准备着将寒武纪的产品放入云端。陈天石在发布会现场公布了在R-CNN算法下MLU100与Tesla V100和Tesla P4的计算延迟对比,数据显示MLU100的计算延迟为125ms,Tesla V100的延迟为174ms,Tesla P4的延迟为1069ms。
现在来看,只有英伟达的体量,才有能力横跨两个领域垂直做深,甚至英特尔也是通过收购完成布局。寒武纪的道路与英伟达相似,但从目前仅有的信息很难判断寒武纪的产品性能,是否能超越英伟达Tesla V100、Tesla P4。比起各方多有涉足,业内人士更希望寒武纪将垂直领域做得更深。
超越互联网+
的场景应用
根据Tractica研究所的数据,到2025年,AI年收入预计将达到368亿美元。Tractica表示,迄今为止已经确定了AI的27种不同细分行业以及191个使用案例。
UCLA博士李一雷认为,人工智能落地两个重要的点分别是自动驾驶和医疗,然而自动驾驶必须能通过各种极端情况下的验证才能上马,辅助驾驶离现实比较接近。
作为AI的重头戏,几乎所有的AI芯片都在发力智能驾驶领域。因为初创公司偏向端侧,应用场景有所侧重,像地平线这样主攻算法+芯片的企业,未来将在垂直领域做深,沿着规划的三代架构,对芯片进行逐年迭代,使其能力不断升级,智能驾驶仍旧是他们发力的重点行业领域。
相比而言,英伟达的核心虽然是GPU,但是它打造的是一个生态。自动驾驶所需要的运算能力体现在云端和终端两个方面,终端感知周围环境,做出驾驶决策,而云端是将行驶的数据,通过深度学习或者增强学习“训练”模型,最终应用到车辆终端中。英伟达CEO黄仁勋预计明年自动驾驶的模拟和开发系统会成熟,2019年机器人出租车将飞速发展;2020-2021年底,第一辆全自动的L4级自动驾驶汽车上路。
丰富的生态,尤其是云端建立深度学习的模型训练,使得英伟达的AI芯片拥有更为广泛的应用场景。其中寄予人类深厚希望的,更多是AI芯片在医疗上的赋能。以肺癌而言,以往医生一般通过肉眼检查CT扫描影像,从中寻找小块结节并推断结节的良性与恶性。但是肉眼的弊端是,如果早期结节很小便难以诊断,后期发现肺癌为时已晚,使得肺癌的存活率仅为17%。但有了GPU驱动的AI和深度学习技术来改变肺癌难以诊断的现状。不仅易于诊断,还解放了医生,肉眼检查CT扫描影像花费至少在十分钟以上,现在只需要两分钟便可实现结节检测及良恶性区分。据估计,此系统一天可为医生节约至少4小时,从而使他们有更多的时间与病人交流或进行更多研究工作。
AI芯片的加持,还给互联网+未能有所改观的传统新领域带来了新变化,比如与互联网难以产生联系的石油行业。据了解,每台海上钻井平台每年大约会产生 50TB 的数据,而其中只有不到 1% 的数据会被标签或分析。看似艰难的数据分析现状,恰恰给拥有海量计算能力的AI发挥巨大潜力的机会。
在勘探油气藏的过程中,石油天然气行业正在利用计算量越来越庞大的地震算法,用英伟达 GPU AI 解决方案进行“事故预测、岩层辨别以及通过挖掘 3D 模型来创建高效的环境扫描,加快获取钻井许可的过程”,至少提速4—20倍。因强大的计算能力,使得斯伦贝谢、雪佛龙、道达尔、巴西石油以及雷普索尔等各大世界石油巨头均部署了英伟达 Tesla GPU,以加速地震处理的速度。
淘金热,正在AI领域热络上映。不管是自动驾驶还是医疗、石油,这仅仅是AI淘金热被发掘出来一小片领域,更多的机会还存在于国防、气候、医学、金融、生物信息等行业。比起互联网+引起的效应,AI赋能的效果显然更为革命与显现。