商汤科技徐立:AI 将在10 年内创造一个印度和中国的总产值

商汤科技徐立:AI 将在10 年内创造一个印度和中国的总产值

新智元报道

作者:肖琴

【新智元导读】3月22日,清华大学《人工智能前沿与产业趋势》系列课程第二讲开课,本讲聚焦当前AI领域最火、落地应用最成功的计算机视觉,由商汤科技CEO徐立主讲。徐立博士结合计算机视觉和人脸识别的具体应用,对AI的发展阶段进行了回顾,并对计算机视觉的技术突破和行业需求作了一番深入的探讨。新智元作为独家合作媒体,带来干货整理。

商汤科技徐立:AI 将在10 年内创造一个印度和中国的总产值

主讲老师

商汤科技徐立:AI 将在10 年内创造一个印度和中国的总产值

雷鸣

天使投资人

百度创始七剑客之一

酷我音乐创始人

清华大学海峡研究院大数据 AI 中心 专家委员

特邀讲者

徐立

商汤科技联合创始人 CEO

本科、博士分别毕业于上海交通大学和香港中文大学。拥有十余年计算机视觉、人工智能基础研究和产品开发经验。先后在摩托罗拉研究院、欧姆龙研究所、微软研究院、联想研究院等计算机视觉基础研究机构访问工作。

2014 年徐立作为联合创始人创立商汤科技,任 CEO,研发人脸识别、图像识别、视频分析、无人驾驶、医疗影像识别等 AI 算法,赋能 AI 于各行业。目前商汤已成为国内 AI 行业中,技术团队规模最大及融资额最多的独角兽企业。

3月22日,清华大学《人工智能前沿与产业趋势》系列课程第二讲开课,本讲聚焦当前AI领域最火、落地应用最成功的计算机视觉,由商汤科技联合创始人、CEO徐立主讲。在徐立博士讲座之前,雷鸣老师先就计算机视觉技术作了一番概览式的描述。他对计算机视觉技术提出如下独创分类:

静态技术:

人脸识别

物体识别

分割

描述

动态技术:

物体跟踪

动作检测

视频描述

生成技术:

风格转换

场景生成

视频生成

计算机视觉的应用场景现在已经有很多,未来的更多应用需要大家的想象力。例如:

人脸识别认证:机场、酒店;手机银行;公司考勤

安防:异常检测;锁定和追踪

医学影像:医疗诊断

工业农业:产品质量检测;猪脸识别

金融:卫星图像分析

徐立:人工智能是一种生产力工具,10年能创造一个印度和中国的总产值

徐立博士的授课主题是《AI行业发展:未来已来,隐约可见》。徐立博士先从计算机视觉的角度讲了人工智能的三次浪潮。

这张图大家可能在很多地方看过类似的,不过行业的发展并不是拿这样一张简单的图就能把它的起起伏伏讲清楚。计算机视觉是人工智能的一个分支,但计算机视觉本身也有很多分支,每个分支的发展都是不一样的。

从图中我们可以很清楚地看到每一个高潮是在什么地方,第一个高潮出现在1957年,第一个神经网络的发明;到1986年,BP算法实现了神经网络的突破,人工智能进入第二个高潮;再到现在,深度学习是高潮。

每个分支的高潮低谷又是不一样的。计算机视觉在90年的时候处于低谷,那时候“模糊逻辑”大行其道。比如说有一个“电梯模糊”,你站在五楼按下电梯,电梯上到五楼却没有停,它继续往上走。它的解释是,它发现上面还有一个人在按电梯,它经过计算发现先去载上面的乘客,再下来载你,这样节能的效率更好。但是呢,这样特别不人性化。所以呢,后来模糊逻辑就不行了,后来就不用了。

所以在每个时间点人工智能都有自己的发展方向,但总体上是螺旋形。

那么人工智能是什么呢?徐立博士给出的定义是,人工智能是一种超越人的生产力工具。这一波AI的革命性是由于突然之间,人们发现技术能够在工业的某条红线上产生突破,形成了非常强大的生产力工具。所以它其实是一个artificial labor的问题。

那么既然是生产力工具,让我们来看一些数据:

到2035年,人工智能有望推动世界劳动生产率提高40%以上。

这包括大部分没有被人工智能影响的企业、国家和地区。所以那些头部的企业基本上就是劳动力被取代的模式,两个人被一个人干掉。所以我认为未来十年一个最大的问题是做人机融合,就是怎样利用这些人。我们现在看到AI在某些产业已经代替了人类的劳动和工作,那么人类所需要做的是怎样驾驭机器,怎样实现更好的生产率。至于机器有没有情感,在什么阶段能把人全部取代,这不是我们这帮人研究的问题。

另一个数据:

到2030年,人工智能将促使全球生产总值增长14%,为世界经济贡献15.7万亿美元的新增产值。

这相当于现在中国和印度生产总值的总和,即是说,用十年的时间就能新造出一个中国和印度。那么这些新增产值从哪来的呢?还是来自于效率机器。所以未来在很多垂直行业,AI将代替更多的人类。

人工智能发展的路径:从技不如人到超越大众、超越专家

商汤科技徐立:AI 将在10 年内创造一个印度和中国的总产值

徐立提出,AI作为一种生产力工具,可以分为三个阶段:

第一阶段:技不如人的阶段。

10年前我也干这个行业,2006年的时候我发表了第一篇人脸识别的论文。那时候我也做同样的事情,但是为什么没有发展的空间呢?十几年前AI在安防领域、在电梯闸机等场景的应用都很广泛,但是没有现在这样热起来,很关键的一点就是那时候人脸识别根本就没有工业应用的条件。当时有一个闸机卡扣用人脸识别,用的海外的产品,准确率是53%。这什么概念呢?就是说系统可以告诉你这是什么人,不是什么人,但是你随便猜的概率是50%,用人脸识别技术的准确率是53%。这就是很尴尬的产品。

所以说不是这个技术没有革命性的贡献,它是有的,最关键的是它要过了工业的红线,才能达到工业应用的条件

工业的红线的定义就是人的准确率。就算当时有人脸识别算法,跑了一遍之后还是需要人来看,因为它的准确率没有人高。所以这算是人工指导的智能。需要用人的先验知识,进行人工指导的智能,一般不能超越人。

第二阶段:超越大众。

就是说算法要超越普通人的准确率。从这个角度讲,人脸识别最先的应用就是替代大众。比如安防摄像头,每天2000小时的视频需要人来看,那么机器看的准确率高过普通人的时候,就可以找机器来看。这是非常大的需求。

再一个例子是金融。比如说上海有一家互联网金融公司,创办三个月已有3000名员工,我一问都震惊了,我说这发展太快了吧。他说不是,因为需要上传各种证件,需要很多人来验证这些证件。但是到现在,基本上已经不需要人来做这些事情,所有这些验证都是机器来做。原因就是人脸识别已经过了那条工业红线,机器做的已经能够比普通人做得好,那么干嘛还浪费人力来做呢?

为什么强调是超越大众(普通人)呢?因为现在还是所谓大数据驱动的模式。以前是人工指导的智能,现在能够处理大量数据之后,成为纯数据驱动的智能,这样带来了超越大众的可能性。

人的知识可以通过数据标注教给电脑。那么什么样的数据最容易获得呢?就是普罗大众都会的事情。他们具备普通的知识,他们的知识可以通过数据标注传达给电脑,只要有了这些标注的结果,你就可以教计算机学会。

第三阶段:超越专家。

这个阶段我们很多情况下都没有达到。专家的知识很多情况下很难通过数据标注教给电脑。比如说金融交易,虽然很多交易都自动化了,但一些头部的交易员还在,因为他们有特殊的知识,特殊的信息或者技能。

但AlphaGo是个特例。AlphaGo早期还处于中间这个阶段,就是超越大众。因为它是用人类的50万棋谱来训练的。后来它就脱离了棋谱,它在某种决策问题上,决策空间确定的情况下已经可以做到超越专家。

这就是人工智能发展的三个阶段,第二个阶段只是实现artificial labor,第三个阶段才能做到服务升级。现在大部分情况下我们还处于第一阶段和第二阶段之间。

中国AI实力全球领先,商汤创中国首个深度学习框架

有几个数据能够反映中国在人工智能领域的实力是全球领先的。

2016年时中国的人工智能专利的数量增长了70%,虽然总数量还是美国领先。另外在泛AI的学术顶会AAAI上,中国发表的论文数量占据31%;具体在视觉这个垂直领域,CVPR论文的中国作者占据40%,这也跟我们的认知是吻合的,不知道为什么干视觉的都是中国人。

商汤科技徐立:AI 将在10 年内创造一个印度和中国的总产值

最后一个数据是商汤的,商汤创立三年来在CVPR发表的论文达到119篇,这是去年的数据。现在已经远超了,因为今年CVPR我们有44篇入选。

所以说中国在计算机视觉这个垂直领域做得是不错的,而且热度很高。

下面这张是谷歌搜索Deep Learning的热度图,热度越高颜色越深,可以看到深度学习在中国是很热的。

商汤科技徐立:AI 将在10 年内创造一个印度和中国的总产值

说到深度学习,大家知道谷歌有TensorFlow,Facebook有Torch,伯克利呢有Caffe。所以商汤开发了自己的深度学习原创平台,叫Parrots。有了这个平台我们可以处理的东西就很多,当时在ImageNet,我们做了超过1000层的深度神经网络。我们有三大要素保障这个平台的优异性能,除了刚才说的超深网络,还有超大数据学习,我们有20亿人脸数据同时训练;此外还有复杂关联应用的多模态数据学习。

深度学习,学习的是对事物的刻画。普通的机器学习依赖专家知识,深度学习提供另外的可能性,学的是一种全局表达。这样的学习可以带来很强的对事情的描述。

计算机视觉的技术突破和行业需求:浸透衣食住行方方面面

商汤科技徐立:AI 将在10 年内创造一个印度和中国的总产值

计算机视觉的技术突破之一是“生成”。比如这张PPT中,我们给出一段文字描述“这只小鸟有白色的胸部,浅灰色的头部,和黑色的翅膀和尾巴”,计算机可以生成这只鸟。“无中生有”,这非常厉害。

这很有意思,可以带来很多想象力。技术突破是说每次都可以超越你的想象,达到更高的水平。

那么行业需求是什么呢?衣食住行,人们生活的每一个方面都受到计算机视觉技术的广泛的影响。

举一些简单的例子:

衣:用文字可以生成你想要的衣服,只需要一张照片,每天可以随时换衣服。这些都是生成的结果。

食:吃饭当中也有各种各样可以利用计算机视觉的场景。比如说可以识别食物,计算食物的卡路里。

住:比如说人脸识别的闸机,这个已经非常普遍了。另外一个很大的应用场景时无人商店。

行:很容易想到的就算自动驾驶。可能有人说这还遥遥无期,但是在特定的情况下,慢速的自动驾驶很多已经可以应用起来。

视觉计算:成像、感知、识别、理解

成像、感知、识别、理解,这整一套就是视觉。那怎样是又看又理解呢?我们刚才说过技术红线,就是要超过人,就计算机视觉来说,技术红线就是看清和理解都需要超过人的水平。

在“看清”这一点,机器很多情况下已经远远超过人。比如上面这张画是一张明信片,画的是一个城市,上面有这个城市的名称。机器可以看出来:

商汤科技徐立:AI 将在10 年内创造一个印度和中国的总产值

机器能够从单张照片里面抓取很多信息,这很厉害。

商汤科技徐立:AI 将在10 年内创造一个印度和中国的总产值

机器在艺术创作方面也能做得很好。上面这张图,左边是人创作的,右边是机器创作的,可以说机器画的并不比人差。

商汤科技徐立:AI 将在10 年内创造一个印度和中国的总产值

机器也能够对视频进行艺术加工,例如视频的风格化。

人脸识别应用场景案例:模糊——增强

商汤科技徐立:AI 将在10 年内创造一个印度和中国的总产值

怎么在非常模糊的情况下如何识别?比如说上面这张图,你们觉得像谁?

商汤科技徐立:AI 将在10 年内创造一个印度和中国的总产值

这对公安来说非常重要。

商汤科技徐立:AI 将在10 年内创造一个印度和中国的总产值

人脸识别技术在这方面非常厉害,它能把左边这张模糊的图增强。

不光是抓人,增强技术的应用非常广泛。比如说日本有一个网站叫Waifu2x,可以利用图像增强技术修复漫画。

在深圳我们已经大规模部署人脸识别技术。再举一个在实操中的应用的例子:我们将历年在展馆有案底的嫌疑人照片导入布控目标库,建立布控任务,系统自动化比对出在逃的嫌疑人,在深圳文博会期间成功抓获了25人。

对话环节

商汤科技徐立:AI 将在10 年内创造一个印度和中国的总产值

清华大学海峡研究院大数据 AI 中心专家委员雷鸣,商汤科技联合创始人、CEO徐立,清华大学自动化系教授季向阳,软银赛富投资基金资深合伙人羊东就计算机视觉未来的突破点、商汤将技术成功落地的经验、投资的经验、创业的建议等问题进行了对话。

本系列课程在清华大学学堂在线的直播地址:

http://www.xuetangx.com/livecast/live_cast_chuangyedaoyin2018chun/livecast-reading/625/

关于清华大学《人工智能前沿与产业趋势》系列课程

本课程的主讲老师为清华海峡研究院大数据 AI 生态专委会专家、百度七剑客之一、酷我音乐创始人雷鸣老师,校内指导教授为清华大学理学院院长、地球系统科学系主任宫鹏教授,地学系白玉琪副教授和计算机科学与技术系朱军副教授。

课程已邀请到真格基金创始人徐小平、腾讯 AI Lab 主任张潼、商汤科技联合创始人兼CEO 徐立、阿里云量子技术首席科学家施尧耘、百度度秘事业部总经理景鲲、国际人工智能联合会理事会主席杨强等 20 多位大咖,包括 BAT 的 AI 业务负责人、知名 AI 企业创始人、AI 领域的知名教授等。

每节课还会现场开展一次 AI 细分领域的圆桌讨论,由百度创始七剑客之一雷鸣老师主持,和主讲嘉宾、教授、知名 VC 组成强大阵容,看大咖观点碰撞,把论坛搬上讲坛。

相关推荐