CNCC2018 分论坛(12)｜教计算机学会“认人”，靠的是什么？

Samurai

2018-11-01

计算机视觉是一项热门的计算机技术研究领域。近年来，随着深度学习、人脸识别、物体识别、图像分割和三维重建等技术的快速发展，算法性能大幅度提升，计算机视觉在视频分析、视频监控、视觉检索和创作等领域拥有广大的应用前景，但是在实际的行业场景中还有很多挑战有待解决。

现在就跟随芯君一起，看看计算机视觉行业的多名专家是如何看待这些挑战与新的应用的。

CNCC2018 分论坛(12)｜教计算机学会“认人”，靠的是什么？

戴宇荣：让计算机“看”短视频

CNCC2018 分论坛(12)｜教计算机学会“认人”，靠的是什么？

人物小贴士：

戴宇荣，腾讯优图实验室研发总监，香港科技大学计算机科学与工程学系的客席副教授。2009年于新加坡国立大学博士毕业。主要从事“深度学习”算法与计算机视觉，图像与视频理解等相关研发工作。

随着深度学习技术快速发展，计算机视觉在图像和视频理解有了很大的进步。戴宇荣以微视短视频识别场景作为案例，向我们生动形象地展示了如何在现实场景中解决各种实际问题。

“对于图像视频的理解方式，是我们现在竞争的有力手段。大家可以明显地看到，现在短视频软件可谓是众生云集。”据非正式统计，短视频App在安卓商店上市已有657个了。“每分钟网络上新上传的视频高达400小时，面对如此庞大的工作量，人工标注视频内容显然不可能解决问题，为了更好地提高用户在使用App时的舒适感，使用AI视觉处理技术理解视频内容是必然趋势。”由此，戴宇荣从场景人脸和人体理解、行为理解、内容审核和图像处理器四个方面详细地介绍了腾讯优图实验室目前所掌握的全面图像视频理解技术。

戴宇荣表示，现在运用AI视觉处理技术已经可以实现微视分类标签自动生成了，这种技术不仅有效地减少了人工审核的成本，更为重要的是它的准确率已经高达96%。“我们主要是运用大数据和深入学习，搜集的标签高达千类以上，并且更新速度很快，经常针对时下流行的短视频数据进行优化。”另外，微视善于利用明星效应，到目前为止，已经可以识别来自八大领域的6152位明星了。

虽然目前AI视觉处理技术已经取得了不错的成果，可是这种技术还不够完善。举个例子，优图标签库有很多标签，所以可能导致AI对某些视频的标签定义模糊。比如一个还没学会走路的小孩子，我们应该给他贴上婴儿标签还是幼儿标签呢？针对这个问题，戴宇荣说：“我们要先从目标检测开始，即知道这里面有什么，然后再分析是不是人类，他在哪儿，他在干什么。根据这个模型方案，我们基本可以保证标签的分类正确率。”总之，在全库视频采用AI标注后，节省人力达90%以上，节省人力超过1000人。

CNCC2018 分论坛(12)｜教计算机学会“认人”，靠的是什么？

危夷晨：云、端、芯上的视觉计算

CNCC2018 分论坛(12)｜教计算机学会“认人”，靠的是什么？

人物小贴士：

危夷晨，计算机视觉领域的资深专家，发表顶会和期刊论文40余篇。Google scholar论文引用5000余次, h-index 为28。拥有10余项美国专利。科研成果被转化到多个微软产品，包括Xbox Kinect，Windows Hello，Bing, Office, Hololens，Microsoft Cognitive Service，微软小冰等。

“视觉的识别已经有很悠久的历史，直到今天，我们才看到它可以初步运行。”人们很早期的想法是把图片分成一个一个的part，这是一个很符合人的认知习惯的想法，人们也通过算法和机器学习，来找出part的模式。

危夷晨表示，“自从深度神经网络提出后，人们的认知开始发生改变，核心思想就是通过研究使梯度传值的时候不至于发生梯度丢失，从而让深度神经网络可以很顺利地进行。”越来越大和越来越深的神经网络不断降低着识别错误率，甚至在不少语音和图像识别上超过了人类。由此也出现了新的问题和挑战，在很多实际视觉场景应用中，我们需要通过不同的算法、不同的平台来达到识别成功的最大化。

CNCC2018 分论坛(12)｜教计算机学会“认人”，靠的是什么？

路香菊：推荐视频的“点睛之笔”

CNCC2018 分论坛(12)｜教计算机学会“认人”，靠的是什么？

人物小贴士：

路香菊，爱奇艺高级研究员，专注人脸识别、身份识别和视频中多模态人物身份行为姿态识别（人物RE-ID）。现组织创办“爱奇艺多模态视频人物识别挑战赛”，开放全球首个影视视频人物数据库IQIYI-VID.

“人物识别是一项热门的计算机技术研究领域。近年来随着技术的发展，人物识别精度大幅度提升，但是在各种干扰条件下（如多姿态、多表情和角色化妆等），人物识别技术仍然有很大的挑战。”路香菊向我们展示了AI视频在智能播放和生产方向的应用。“运用AI人物识别，现在爱奇艺可以自动截取视频中出现的重要片段作为动态封面图，同时还可以根据弹幕，在此处自动生成人物精彩片段，生成带弹幕文字的图片。”可以说这一技术对于推荐视频内容起到了画龙点睛的作用。

“当然，AI人物识别仍被很多问题所限制。比如角度问题，是侧拍还是遮挡，有没有化妆、整容等等。”路香菊表示，单单从一张图片是无法确定一个人的多重身份的，例如周恩来的扮演者，AI识别出来的应该是周恩来还是演员自己呢？基于在研究过程中出现的种种问题，同时也为了推动人物识别在视频智能分析产业中的广泛应用，便产生了爱奇艺多模态（例如：人脸、服饰、台词等）人物视频识别挑战赛。“这个比赛共有397支队伍参加，通过这些队伍做的算法，我们建立了规模最大的人物库，这是首个多模态真实场景视频人物事例。

对于AI人物识别的未来，路香菊提出了“业务+算法+数据三者形成闭环“的模型，她表示，多模态还要继续训练、不断融合，通过深入学习逐渐实现理解更复杂的语义的目标。还要多采集数据，发掘不同的数据源，在深入挖掘这些数据的同时，注意时效性，做到更快速更有效。

CNCC2018 分论坛(12)｜教计算机学会“认人”，靠的是什么？

黄畅：人工智能算法与处理器联合设计的新思路

CNCC2018 分论坛(12)｜教计算机学会“认人”，靠的是什么？

人物小贴士：

黄畅，地平线联合创始人兼算法副总裁。长期从事计算机视觉、机器学习、模式识别和信息检索等方面的研究，拥有多项国际专利。

人工智能技术在过去的十年间得到了快速的发展。算法层面如此，承载相关的处理器也是。黄畅详细地介绍了Memory Hierarchy，“用传统的计算机来控制整个计算的流水线，通常用的是一个很硬的方法去做，看上去流水线的效率很高，做得很细，但是坏处是不灵活，一旦出现跳转的话，就会迅速重置刷新。但如果我们把这个硬流水变成软件化，进行重组和成串，那效率就很高，而且能做到在设置处理器的时候都没想到的计算。”

从最初用于通用计算的CPU，到自图形渲染发展而来用于科学计算的GPGPU，如今的AI处理器已经进入到基于FPGA和ASIC的DSA架构阶段。而DSA的优点在于，可以为特定的一类应用做架构优化从而实现更好的能效比。相对于通用（general purpose）处理器，DSA设计时需要考虑专用领域的特殊需求，也需要设计者能对该领域有深入的理解。伴随着DSA的巨大优势，DSA设计也将会成为处理器架构的新趋势。

CNCC2018 分论坛(12)｜教计算机学会“认人”，靠的是什么？

华先胜：人工智能，是峻山也是险峰

CNCC2018 分论坛(12)｜教计算机学会“认人”，靠的是什么？

人物小贴士：

华先胜，阿里巴巴集团DistingguishedEngineer，阿里巴巴达摩院机器智能实验室副主任，城市大脑人工智能技术负责人，IEEE Fellow，ACM杰出科学家，国家千人计划特聘专家。

人工智能发展迅速，从2000年—2016年，在全世界有8832家人工智能公司，到2017年，研究人工智能的公司数量增加了百分之十四。由此可见，人工智能遍布各处，势不可挡。但是“Infinite beauty is on dangerous mountain peaks. Where high risks ofrollover lie in as well. “(无限风光在险峰，确实容易翻车处)。

“Person Re-ID有很多人在做，但是在实验室中跟真实场景下还是有区别的。”华先胜举例说，如果在实验室识别一个不变的人，准确率已经接近完美了，但是放到现实中来看，他可能会换衣服，换发型，那这个时候他还能不能找到？所以说这还是一个很大的挑战。

现在阿里已经将AI视觉技术主要运用到了四个领域——智能搜索、视觉生成和AI视觉在医疗、工业方面的运用。在智能搜索领域，图片搜索已经研究了几十年，可是为什么这个技术还没有一个真实的系统？其实主要是取决于是否刚需，如果有刚需，即使你的系统做的不是那么好，也会在这个驱使下最终完善。所以电商的通用搜索是一种刚需。

最突出的亮点还要数城市大脑了。华先胜表示，“其实我们当时做城市大脑的时候，还是有很多挑战的。第一，要处理大量的数据，你是不是能坚持下来；第二，做这个到底能带来什么价值；第三，各种监控设备有什么差别。”所以说，城市大脑不是一家公司就能完成的，它是一个很庞大的项目。究其根本，主要分为认知、决策和优化、搜索、预测四步。

我们有很多机会去让AI做我们力所能及的事情，而我们要做的就是去让AI做超出人力所能及的事情。

CNCC2018 分论坛(12)｜教计算机学会“认人”，靠的是什么？

座谈答疑

Q：现在3D打印等技术都很成熟，把一个人变成另一个人已经成为现实，也就是我们平常说的“假脸”，遇到这种情况，视觉AI可以防御吗？

A：让AI去识别一个人是不是“假脸”，可以提前收集攻击方的人脸数据来预防。但是其实造这种东西成本很高而且技术要求也很高，会耗费巨大的精力和财力，如果攻击方愿意斥资去制造这种东西的话，老实说，这取决于他造假的逼真程度。我们传统的人脸识别用的是3D虹膜一类的技术，如果“假脸”真到这种程度，那是很难防御的。

Q：什么样的人才适合去创业？

A：创业是一个很自然的过程。首先你必须有激情，有去这件事情的冲动，并且可以持续保持这种高涨的情绪；其次，还要有足够的能力去创业，这就涉及到你的专业知识是否可以支撑你去创业。当然，一支优秀的团队也是必要条件，大家一起讨论，进行思维的碰撞，会使创业事半功倍。

Q：目前国内和国外的视觉AI有什么差别吗？

A：在视觉技术方面，其实国内AI创业的中小企业发展程度总体来说是要比国外高不少的，这是因为国内的市场和需求确实是巨大的。关于技术层次方面，计算机视觉经过这些年的发展，国内外的水平还是差不多的。

Q：如何看待当下这股AI热潮？

A：有些东西只存在在实验室里，只存在在PPT里，但是有些东西是确实是可以实现的。不过，并不是所有人都要选择这个东西，你可以“守株待兔”，你也可以深入掌握一门技术，反正以后总有一天会被用到。阿里有一句话：因为相信，所以看见。因为你相信，所以他们慢慢变成现实了。但是，盲目的相信也是不可取的。

CNCC2018 分论坛(12)｜教计算机学会“认人”，靠的是什么？

实习小记者：郭一澜

如需转载，请后台留言，遵守转载规范

计算机视觉电脑

安科网

CNCC2018 分论坛(12)｜教计算机学会“认人”，靠的是什么？

Samurai

Samurai

相关推荐

5个优秀的计算机视觉应用与相关数据集

计算机视觉如何给企业带来不同？

计算机视觉岗常见面试题

TensorFlow2020:如何使用Tensorflow.js执行计算机视觉应用程序？

三个可能会被计算机视觉技术改变的行业

图像也能做情感迁移？罗切斯特大学团队提出计算机视觉新任务

4个计算机视觉领域用作迁移学习的模型

AI创业哪家强？6大选择给你方向

NLP/CV模型跨界，视觉Transformer赶超CNN?

可以提高你的图像识别模型准确率的7个技巧

以国家战略科学家身份，顶级AI学者朱松纯回国，筹建北京通用AI研究院

五种图像标注的简介

没有足够多的数据怎么办？计算机视觉数据增强方法总结

人工智能和物联网：智慧城市的交通管理

PG&E使用AI来降低野火风险

为什么AI感知与人类感知无法直接比较？

[ Datawhale ] 计算机视觉下 —— HOG特征描述算子

Deep Learning for Image Super-resolution: A Survey

知乎热议：未来3到5年内，哪个方向机器学习人才最稀缺？

人工智能的三大领域及其工业应用

Samurai