被阿里挖来的高级别华人科学家,聊聊AI带来的想象空间
他曾是亚马逊最高级别的华人科学家,他也是 1 年前轰动全球零售业的亚马逊无人零售店项目 Amazon Go 的重要策划者。而现在,他的身份是阿里巴巴 iDST 首席科学家兼副院长。
因此,在云栖大会新零售峰会上,任小枫大概是谈「人工智能如何在新零售场景下进行应用」这个话题中最有话语权的科学家之一。
除了向大家介绍了自己最为擅长的计算机识别技术,他也在演讲中披露了自己对新零售诸多应用场景中的 4 个最感兴趣也最看好的应用方向:
增强现实、智慧门店、机器人、可穿戴设备。
至于原因,请仔细阅读任小枫在这次大会上由机器之能整理的全篇演讲:
今天非常高兴能够有这个机会来这里跟大家分享一下我的一些想法。
刚才看到天猫小店的视频,非常好,它的存在已经给了大家很多 想像 的空间。也给大家描述了很好的未来。而作为一个技术人员,我平时大多数时间其实是在思考怎么样解决实际的技术问题,怎么实现这个未来。
当然,解决问题也并不是工作的全部,有的时候确实也会想一下未来会是什么样子的,所以很高兴有这个机会跟大家分享一下。
不过因为其实我在美国工作生活了很长时间,所以新零售这件事情很多时候对我来说也是一个迷,前面听了曾教授也好,还有其它各位讲的,我也学到很多。
怎样去解开这个谜呢?我去看了一下前段时间阿里研究院有关于新零售的报告,那个对于新零售有一个非常全面的总结: 新零售是以消费者体验为中心的,数据驱动的泛零售的形态。
其实虽然是短短的一句话,但里面有很多的信息。有一个比较难让我们控制这个 想像 空间的是因为能够应用的场景是非常的多,比方说批发零售、物流、娱乐、餐饮,其实就是说我们说到新零售有很多可以应用的地方。
但是我们看到这句话的描述中有几个关健词,一个是体验、一个数据、一个泛零售。
从体验来说我相信很多在座的比我会有更多想法,也有更多经验去想怎样才是更好的用户体验。而对我来说,因为我做的是人工智能,特别是计算机视觉,想的则是怎么样能够得到有用的数据。
从数据的角度来说,因为应用的场景很多,百货公司、购物中心,便利店,甚至还有很多比方说是直播,视频、电子商务。
从各个场景来看,买东西的本质,无非就是人和商品。我们做的事情就是去理解人,理解物,然后把人跟物联系起来,让用户更好和更快地找到他满意的商品,把商品能够更快更好的送到用户的手里。
从信息的角度来说,要得到关于人的信息或者关于物的信息,特别在很多线下的场景当中,我自己觉得计算机视觉或者用相机是非常好的方法。
比方说,视觉是通用的方法,有一个相机在里面可以干很多事情,可以识别人、物、动作,也是非常高信息量的感知的方法,像现在比如 1080P的视频非常普及,1080P 的象素下面可以看到很多东西。
而它又是一种被动的方法,很多情况下原因是因为人是用眼睛感知的,所以这个世界实际上是为了我们的眼睛而设计的,从红绿灯也好,标志牌也好,很多商品的包装,很多时候都是为了适应人眼,计算机视觉就是利用了这个世界设计的规律,然后试图用同样的途径来得到更多的信息。
当然视觉它其实有很多问题,首先必须要有光照,比较好的光照才能够得到比较好的信息。但这问题也不是太大,因为人的眼睛也需要好的光照才能看到。
另一个是遮挡,这是个比较大的问题。相机被挡住,后面的东西确实没法看到。这个其实也是跟高信息量相关的,因为我们用的是可见光,波长很短,需要高信息量的时候没办法绕过前面的遮挡物。而计算机视觉应用最大的问题是它的精度,很多时候精度不够,但是最近几年有很大的改变,很大程度上来说精度并不是特别大的问题了。
下面我想介绍一下现在计算机领域的发展状态,也让大家对其有更好的了解,看看我们技术已经进步到什么程度。
从物来说大家知道有一个非常有影响力的竞赛是物体分类的竞赛,一千个物体,所要做的就是给每一张图打上一个标签,知道它是什么。这个是过去八年当中 ILSVRC 上面的进展,Y 轴描述是错误率,还是非常难的,最近这八年进步非常快。
2012 年的时候深度学习开始就是说在这个问题当中得到应用,在整个计算机视觉领域得到应用。2012 年之后,过去的六年当中精度一直在提高。
可以比较一下,有人测过人在这个问题的错误率是 5%,并不是计算机超过人,它也有各种各样的问题。但在一定程度上,计算机在某些情况下可以达到人的精度。
光是一张图一个物体并不是视觉唯一的问题,很多情况下需要处理一个复杂的场景,所以 ilsvrc 也有物体检测的竞赛,给你复杂的场景,需要找到各种各样的物体,这个问题这几年的进展也是很快的,当然深度学习是一个原因,当然数据其它的都是原因。
这个图稍微复杂一点,因为检测的问题来说,要做到正确的检测需要有正确的标签和正确的位置,检测问题还有一个预值的问题,可以把预值调高,返回的问题少会错失一些,调低返回的更多,但是会有一些误解。
总的来说现在的 MAP,就是平均精度达到 0.75,这个确实跟人还有一定的距离。但是大家看一下这个图,很多情况下还是能够做的很好。像这个场景当中有很多东西,有人,有狗,有雨伞,后面还有一些比较小的东西,比如椅子,很多情况下都是能够检测到的。
大家再看一下这个语义分割的例子。很多情况并不是只是找边框,这个问题在每个 象素点 上我们都去标注这个到底是什么。这是自动驾驶的例子,算法可以标树、车、行人,还有各种各样的在场景当中能够碰到的物体,这也是一个已经能够达到不错的精度,现在用相机做无人车也是非常有意思的方向。
总之,对人来说,其实视觉也能够做很多东西。这又是一个例子,这是一个多相机的跟踪的例子,比方用八个相机,人在走动,很多情况下我们可以比较精准地跟踪这些人,每时每刻知道这个人的地方。多相机的跟踪可以做很多事,首先可以得到人的身份,可以知道这个人是谁,还有一个就是可以比较精准的得到这个人的位置。
大家知道室内定位,其实有很多方法,WIFI 也好,蓝牙也好,超声波。而精准定位,视觉能够给我们一个至少是厘米级的定位的精度,很多情况下是很有用的。
不是说只是去检测这个人在哪里,在很多情况下,我想给大家看的是其实我们在很多情况下能够做到对人姿态及各种动作的判断——不光知道人在哪,也能知道眼睛、耳朵、肩膀、手臂是怎样活动的。
即使比较复杂的场景下,即便人的动作变化很大,我们也一样能够去得到这些信息。人的姿态其实是一个对人理解的基础。
这是一张图片,就是其实是一个基于人姿态的动作识别。上面那个蓝色的是我们想得到的东西,绿的是算法的估计。这个相对来说是一个比较简单的问题,这个视频相对来说比较简单,想给大家看一下,有了姿态之后,还可以在姿态的基础上做一些动作的识别,物体的识别,很多情况下能够识别人的动作。
如果我们往前展望一下,无论是一个室外场景也好或者室内场景也好,现在计算机视觉真的能够做很多东西。
稍微夸张一下的说,其实很多情况下,我们看得见的事情,人能做的事情确实计算机现在都能做。在几年前绝对不敢说这句话,但是现在算法的发展也好,其它能力的提高也好,很多情况已经很接近了。
当然,从另一个方面来说,如果相机看不见的也没办法。这个也不是纯开玩笑,因为从解决实际问题的角度出发,相机的布置其实是一个很重要的问题,你希望能够有一个很好的布置,能够在最大程度上得到你想得到的信息。
除了相机之外,其实我们还有很多别的问题需要考虑,比方说数据、计算量、成本,这些跟算法需要结合在一起。我对视觉还是有非常有信心的,觉得有很多情况下很多事情都能做的。
回到新零售的讨论,如果说新零售是一个数据驱动,其实也可以把这个说法做小小的修改,可以使用信息驱动的形态。怎么说呢?有很多时候数据并不是现成的,有很多时候数据需要我们花力气得到的,特别线下的场景当中,或者线上也好,很多情况用视觉或者其它得到对我们有用的信息。
说完了视觉,前段时间的进展或者技术,我也想跟大家说一下我自己非常感兴趣的几个应用方向,在这么多的应用场景当中,我想提几个自己比较感兴趣的:
增强现实,智慧门店,机器人,万能助手(可穿戴)。
想给大家看一下几个例子,看看现在技术大概发展到什么程度:
增强现实是现实世界跟虚拟世界的叠加。就像这个图上显示的,我们买家具,可以拿 PAD 看家里,可以把家具放那边。这里面有几个比较关键的问题,比如三维定位、三维建模,渲染。建模与渲染是比较简单的问题,对定位来说现在也到了一个时候。
大家知道前几个月苹果公司发布了他们能够在苹果手机上面做到相当精准的实时的三维的定位,它的计算量都达到了使用的程度。
三维定位解决之后,其实增强现实能够有很多应用的,给大家稍微看一下几个例子。
这是一个例子是就是说是相当于帮助你去找东西,其实对我来说是一个很重要的事情。经常我太太让我到店里买东西,不知道在哪,我也不愿意问人,要花很长时间。
如果有了定位技术,然后如果以这个店里面商品的位置做一个比较精确的地图,就可以想像可以用增强现实去做一些导引方面的东西。
当然其实我们也可以说在这个例子当中,增强现实不一定是非常关键的东西。回到刚才说的虚拟购物,也是大家经常说的东西,如果有了增强现实,可以在网上找到这些家具可以放到家里可以看大小,可以看搭配,很多情况下还可以看光影的效果等等。这个在现在也是一个可能也是一个比较成熟的,很多人可能有很多人在做,很多时候很快可以用到。
下一个想跟大家稍微讨论一下的是智能门店,大家知道我以前是在亚马逊的,我很幸运在亚马逊 GO 项目开始的时候加入了进去,我们花了四年时间做了这么一个店,还是非常兴奋和自豪的。
我们解决的问题是在一个相对通用的场景下解决支付的问题,做到进去之后拿了直接走,不需要排队结账环节。
做了 4 年之后,现在每次买东西排队都希望能够把支付环节做好,省掉排队跟 结帐 。虽然只是支付一个环节,但要做到高精度就有很多问题要解决,解决人的问题、商品的问题、动作方面的问题,知道人拿的什么商品。
很多情况下可以想像成是一个相对通用的线下智能系统,如果有一个相机网络,可以做很多事情,可以用来跟踪人,可以用来分析人流,可以看停留的时间,看有人有没有拿东西,看了多久,有没有放回去,可以用相机监控货架。
如果跟身份结合,或者用人脸或者其它方式,可以做到很多个性化的体验,能够让你在每时每刻在店里面知道你是谁,提供个性化的服务。
支付肯定是一个方向,有很多情况下我们会思考很多事情在线上比较容易做的,像停留时间、个性化。现在到了一个其实我们在线下也能够做类似东西的时候。
实际上,有些东西在线上不是那么容易做的,比方说我们可以做表情识别,这是一个例子,就是我们可以通过对人脸的分析知道它是高兴还是不高兴,是生气了还是无聊,其实很多时候这件事情都是可以做的。
因此,线下跟线上相比,有一些时候说不定真的有一些优势。
回到这个线下系统,在不远的将来可以看到像这样通用的线下智能系统可以做很多事情,在一家小店铺做一回事,但是在大的 shopping mall 场景下,里面有各种各样的店铺,有比较大的空间,那个里面的实现难度会再上一个大台阶。
普通情况下是一回事,如果在一个比较拥挤的情况下,很多时候也是需要在算法上,在数据上,或者其它方面花很大的力气,但是在很多时候应该是在目前来说应该是已经是可见的事,能够看得到的事情。
第三个提一下机器人,前面提的很多情况下只是感知,只知道那个人在哪里,其实我们可以做一些交互,可以是语音的交互,也可以是显示屏或者视觉上面的交互。从物理的角度来说,我觉得我对机器人还是非常感兴趣的,机器人现在发展也是非常的快,大家其实已经看到了很多的例子。
这是一个 Boston 的例子,他们做了很长时间机器人,在控制上面做的很好。它可以做很多事情,可以在家里走,这个是显示一下它能够做非常复杂的动作。
因为它有腿,它也有手,可以抓厨房里面的一个杯子,当然这只是一个例子。其实很多人想做一个机器人,自动的帮你洗碗洗盘子,或者干其它家务,那个还有一定的距离,但是这个其实例子也说明了我们这个可能离将来并不是那么远。
这个是因为 Boston 他们主要做控制,视觉上没有花太多功夫,不然可以识别那是个香蕉皮的。但是它可以爬起来,然后自己上楼梯。
所以机器人在将来,应该是一个非常有意思的方向,物流也好,门店也好,相信在将来肯定会看到更多机器人的应用。
最后一个是万能助手,主要指的是可穿戴设备。
可穿戴设备是个人视角,跟门店不同,它可以记录生活,识别环境,识别其它的人,也可以用来识别自己的动作状态,可以作为一个助手跟你对话,给你提供信息,它其实是有很多事情可以做的。
譬如,Snap Sperctacles 前段时间出了一个比较好的眼镜,可以比较好的记录生活状态。
谷歌其实好几年前,就做谷歌眼镜,后来没有做成功,后来出了企业版,还比较有意思,可以帮工作人员在制造或者物流或者其它情况当中做很多事情,可以帮你识别,可以帮你扫码。其实还有一个例子,他们当时是想说你有一个比较复杂的工作要接线,可以告诉你线怎么接,干什么事情,这样的设备在以后对大家是很有用的东西。
最后,大家应该都见过这个曲线,这是 Hype Cycle,就是每个技术,新产品,都要经历这样的发展阶段:
开始大家非常兴奋,一拥而上,很快达到顶点,再然后就要处理实际的问题,再往下走了,走到谷底,最现实的问题出来,大家才知道应该解决哪些问题,逐渐往上走。
刚才提到那几个方向,增强现实其实已经在这个地方了,下面会看到比较多的应用;
而智能门店可能还是处在山顶附近,下面应该有很多东西要走;
而机器人或者可穿戴设备可能还会在更加遥远的将来。
但是我有时候也需要想象一下五年以后,十年以后的样子,这些也都是非常让人感到激动的方向。
刚才提到很多应用当中,视觉是能够起到非常关键的作用,能够得到很多信息,因为它是通用的方法,能够得到人物动作,很多东西能做的。
当然我们需要去得到相关的数据,很多时候很多算法需要融合,需要跟其它的传感器进行融合。另外,很多时候也不光是感知的问题,我们需要去跟机器人或者其它交汇的方法融合,计算角度来说不见得都在云上或者端上做,云跟端也要融合。
除了这几个问题之外,还有很多大家有的时候会提到的方向,譬如简单的手势识别、商品搜索、虚拟现实。
其实在新制造上面我自己也觉得人工智能,计算机视觉有很多可能性的应用。我们经常说现在确实是一个技术发展非常快的时候,商业也是发展非常快的时候,我也是非常期待能够成为这个当中的一部分,能够跟大家一起努力,能够建设一个更好的未来。