引领深度学习潮流,刷屏计算机视觉顶会,揭秘商汤研究梦之队
机器之心报道
作者:李泽南
57 篇论文入选 ICCV,13 项赛事夺冠。在成为 AI 领军企业的同时,商汤也在为全球学术界作着自己的贡献。
昨天于韩国首尔正式开幕的计算机视觉顶会 ICCV 2019 上,人工智能平台公司商汤科技展示了自己的科研实力:共有 57 篇论文被大会收录,是本届大会上全球论文接收最多的机构。
在计算机视觉(Computer Vision)这个人工智能最为热门的领域中,商汤正在成为领跑者。
大会期间,我们与商汤科技联合创始人、香港中文大学-商汤联合实验室主任林达华教授进行了一番交流,他向我们介绍了商汤近期的研究进展,与国内外大学的合作,并对国内研究水平的发展趋势进行了展望。
「本届大会上,商汤科技提交的研究覆盖计算机视觉和深度学习相关的几乎所有主流方向,」林达华表示。「相关论文着力提升 CV 领域应用的核心技术,如物体检测、识别、分类,三维视觉、视频理解,和非监督学习等等。我们的论文不仅覆盖商汤很多核心业务领域,也对很多新兴方向有了探索。」
影响力第一
今年的 ICCV 共有 1075 篇论文,接受率低至 25%(其中包括 Oral 论文 200 篇)。商汤科技在 ICCV2019 上的成果展示了其强大的人才储备和创新能力:共有 57 篇论文入选,其中口头报告(Oral)论文 11 篇。相比于 ICCV 2017 的 20 篇,今年论文数量的增幅超过了 180%。
据商汤介绍,这些被接收的论文面向多个领域,其中包括目标检测的深度网络基础算子、基于插值卷积的点云处理主干网络、面向 AR/VR 场景的人体感知与生成、面向全场景理解的多模态分析等。商汤表示,其中很多突破性的计算机视觉算法有着丰富的应用场景,可为推动 AI 行业发展做出贡献。
相比之下,谷歌和 DeepMind 今年在 ICCV 上也有 47 篇接收论文。据不完全统计,商汤科技是此次入选论文总数最多,入选 Oral 论文最多,获得世界冠军数量最多的企业。
商汤对于计算机视觉业界的影响力不仅体现在研究数量上,也已进入了本届大会的方方面面。除了成为大会顶级赞助商,商汤还在 ICCV 上参与举办了第一届深度统计学习研讨会(The First Workshop on Statistical Deep Learning in Computer Vision)和第二届计算机视觉中的服装艺术与设计研讨会(Second Workshop on Computer Vision for Fashion, Art and Design),香港中文大学-商汤联合实验室的周博磊教授参与组织了上千人的 Tutorial。商汤创始人、香港中文大学教授汤晓鸥,也受邀担任了本届 ICCV 主席。
13 项赛事夺冠
商汤在本届大会诸多竞赛中获得了很好的成绩,一举斩获 Open Images、COCO、LVIS 等 13 项重要竞赛的世界冠军。特别是 Open Images,它是目前通用物体检测和实例分割两个领域中数据量最大、数据分布最复杂、最有挑战性的竞赛,比 COCO 数据大一个量级,标注更不规则,场景更复杂。
在 Google AI 主办的 ICCV 2019 Open Images 比赛中,来自香港中文大学和商汤研究院的联合团队夺得了物体检测和实例分割两个主要赛道的冠军。此次主办方提供了千万级别的实例框,涵盖了 500 类结构性类别,其中包含大量漏标、类别混淆和长尾分布等问题。
竞赛中,得益于团队提出的两个全新技术:头部空间解耦检测器(Spatial Decoupling Head)和模型自动融合技术(Auto Ensemble)。前者可以令任意单模型在 COCO 和 Open Images 上提升 3~4 个点的 mAP,后者相对于朴素模型融合能提升 0.9mAP。最终,在提交次数显著小于其他高名次队伍下获得了双项冠军的好成绩。
在 ICCV 2019 COCO 目标检测任务比赛中,来自香港中文大学-商汤科技联合实验室和南洋理工大学-商汤科技联合实验室的 MMDet 团队获得不使用外部数据集冠军,这也是商汤连续三届在 COCO Detection 项目中夺冠。
MMDet 团队提出了两种新的方法来提升算法性能。针对于当前目标框定位不够精确的缺陷,MMDet 团队提出了一种解耦的边缘感知的目标框定位算法(Decoupled Boundary-Aware Localization <DBAL>),该方法专注于物体边缘的信息而非物体全局的信息,使用一种从粗略估计到精确定位的定位流程,在主流的物体检测方法上取得了显著的提升。
在 ICCV 2019 COCO 分割任务比赛中,商汤新加坡研究团队(队名:Innovation)获得未使用外源数据冠军。在本次比赛中,新加坡研究团队深入探索了全景分割任务的独特性质,并提出了多项创新算法。
由于全景分割任务既涵盖目标检测又包含语义分割,往届比赛队伍大多分别提升目标检测算法与语义分割算法。在比赛中,新加坡研究团队打破惯例,探索了这两项任务的互补性,提出了一种简单高效的联合训练模型 Panoptic-HTC。该模型分别借助 Panoptic-FPN 共享权重的特点与 Hybrid Task Cascade 联合训练的优势,在特征层面完成了两项视觉任务的统一,从而同时在两项任务上获得显著提升。
除了比赛成绩,商汤在开放学术交流、生态发展方面做出了贡献,由商汤及联合实验室研究团队去年发布的开源物体检测框架 MMDetection,在今年各大比赛中被众多参赛队伍广泛使用,Open Images、COCO、LVIS、Mapillary 等比赛中的多支获奖队伍都使用 MMDetection 作为基准代码库,团队去年提出的 HTC、Guided Anchoring 等方法成为了今年诸多队伍的关键助力。目前 MMDetection 已收获超过 7000 Stars,被业界广泛应用,有效促进了目标检测领域的应用和新方法研究发展。
林达华介绍,对于开源,商汤有着积极的态度。从 2018 年年中开始,香港中文大学-商汤科技联合实验室启动 OpenMMLab 计划,并首先开源了 MMDetection。相比于其它开源检测库,MMDetection 有多项重要优点,包括高度模块化设计、多种算法框架支持、显著提高训练效率和密切同步最新算法支持等。
今年六月,OpenMMLab 第二期发布,多个重要更新吸引了业界目光:MMDetection(目标检测库)升级到 1.0,提供了一大批新的算法实现,同时 MMAction(动作识别和检测库),MMSkeleton(基于骨骼关键点的动作识别库),MMSR(超分辨率算法库)全新发布。
引领潮流,推动学术合作
和很多顶尖科技公司一样,已成为全球领先的人工智能平台公司的商汤源自于大学实验室。2001 年,汤晓鸥教授创办了香港中文大学多媒体实验室(MMLab),它被誉为「计算机视觉界的黄埔军校」。作为世界最强深度学习实验室之一,MMLab 与 MIT、斯坦福、CMU、UC Berkeley 等大学的知名实验室齐名,是亚洲唯一入选的世界十大人工智能先锋实验室。
MMLab 是第一个致力于使用深度学习算法解决计算机视觉问题的研究团队。这可能要归功于汤晓鸥在学术上敏锐嗅觉——他在 2011 年左右受到深度学习在语音等领域的进展的启发,意识到深度学习在视觉上的潜力。自那时起,他就把深度学习确立为实验室的重要研究方向。
早在 2012 年,MMLab 就将深度学习论文投向了 CVPR 并获接收,这也是计算机视觉顶会上首次出现了深度学习研究。到了 2013 年,ICCV 有 8 篇论文关于深度学习,其中 6 篇来自于 MMLab。
而到了 2014 年,汤晓鸥等人在香港成立了商汤科技,专注于计算机视觉和深度学习原创技术的开发。
「商汤科技的初创也是基于实验室多年来的学术积累。」林达华介绍道。「商汤创办的契机,很大程度就是因为我们的算法,在世界上首次在人脸识别任务上超过了人类水平,达到实用的红线。」
这是 MMLab 在 2014 年做到的事情,这一研究《Surpassing Human-Level Face Verification Performance on LFW with GaussianFace》也成为了 AAAI 2015 大会的最佳学生论文。
2015 年 6 月,汤晓鸥团队又发表了 DeepID2 算法,将人脸识别准确率提升至 99.15%,新方法的提出代表人脸识别技术真正走向成熟,进而开启了整个人脸识别行业的技术落地。
商汤和 MMLab 有着很深的历史渊源:除汤晓鸥之外,王晓刚、林达华等 MMLab 教授也深入参与了商汤研发的指导,双方建立了紧密的研究合作关系,完成了很多计算机视觉相关的创新性研究项目。
除港中文以外,商汤和北大、清华、中国科学院深圳先进技术研究院、上海交大、浙江大学、新加坡南洋理工大学等学校和学术机构建立联合实验室或开展广泛的学识科研合作。
商汤一直在推动与全球高校、科研机构的研究合作:这不仅是在坚持原创技术的理念,也有对于探索新方向的思考。「在大学实验室中,研究人员不需要面对公司盈利的压力,」林达华表示。「这意味着他们会倾向于尝试更加创新、更具冒险性的方法。在这样的过程中我们可以打开思路,往往能够获得更好的结果。」
在合作中,商汤与大学等科研机构形成了闭环:商汤在技术落地的过程中提炼出具有价值的问题,问题反馈到高校,而高校经常会提出和商汤内部不同的解决思路。最后,其成果可以促进商汤建立新的竞争力。
不仅如此,商汤科技还积极举办或赞助学术竞赛,推动学术交流,除了 ICCV2019 上的研讨会和 Tutorial,今年 10 月 16 日,世界顶级 AR 大会 ISMAR 首次在中国举办,商汤科技独家赞助了专为 AR 应用设计的 SLAM 竞赛,旨在较为全面地评估 SLAM 系统在 AR 应用下的性能。同样在 10 月,商汤科技与联合衡道病理、上海交通大学医学院附属瑞金医院、西京医院、上海市松江区中心医院举办 MICCAI 2019 消化道病理图像检测与分割国际挑战赛。
林达华认为,商汤科技致力于与高校、师生、学界共同构建开放的学术研究交流平台和人才培养的创新生态,这是商汤「坚持原创,让 AI 引领人类进步」的源泉。
研究落地先于论文发表
对于商汤来说,部分创新研究从实验室推出到业务上线仅需要几个星期:在你手机的 App 里用上新技术的时候,介绍它的论文甚至还没在 AI 顶会上发表。
「对于我们来说,这个过程一般需要几周到两个月时间进行打磨——它的周期比人们想象得要短,」林达华介绍道。「很多在论文发表之前就已经落地了,比如 CVPR 的周期大概是 11 月投论文,第二年 6 月才会在大会上发表。在其中的大半年时间里,很多研究的成果实际上已经落地了。」
不仅是新论文,数据竞赛上的方法也是如此。商汤在 COCO 竞赛上的夺冠的方案就已经使用在自动驾驶、视频大数据等平台中了。
在商汤,研究落地的过程是这样的:在新的算法提出之后,参与研究的同学可以以实习生的身份参与商汤的工作,将自己提出的算法投入实践,并在真实环境中进一步打磨,最终将其工程化。
以港中文 MMLab 的一些工作为例,仅在视频理解方向,目前就已经产生了数十篇 ICCV、CVPR 的论文,这些工作很多已在商汤视频大数据平台上落地,提升了视频理解应用的能力。在视频中识别人物,对于视频中人物动作的理解,高效率的物体识别等工作,都来自于商汤与大学合作研究的贡献。
其中最有代表性的可能是 ECCV 2016 大会上提出的时序分段网络《Temporal Segment Networks: Towards Good Practices for Deep Action Recognition》,目前这篇论文已经拥有超过千次引用量,成为了颇具影响力的工作,它也是商汤内部视频分析技术的核心框架。
此外,在 MMLab 中科研人员提出的超分辨率算法、医疗影像识别技术、大规模训练技术都已完成落地。
未来发展
昨天开幕的 ICCV 2019 上,我们见证了国内计算机视觉研究的发展速度:来自国内的接收论文数量高达 350 篇,数量超过美国,已经成为全球第一。在计算机视觉领域里,中国正在呈现赶超之势。
「国内的数据和应用场景,是计算机视觉技术领先的重要原因,」林达华表示。「在中国,技术发展和应用落地的结合非常紧密,在实践中产生的大量问题需要通过创新来得到解决,经常带来研究上的重要进展。」
但在底层基础算法上,国内还没有引领国际潮流。林达华认为,现在越来越多的学者正在进入基础研究的层面:「相信随着国内研究水平的发展,未来中国的 AI 科研会有长足的进步,我们将会看到更多国内学者提出具有原创性的成果,取得新的突破。这有很可能是未来即将发生的事情。」
人工智能发展最为关键的就是人才,商汤自 2017 年起面向国内一流高校顶尖人才设立了奖学金,旨在发掘、鼓励和培养国内人工智能领域最具潜质的高年级本科生。
商汤还第一个将人工智能推广到中小学教育当中。2018 年 4 月,商汤科技商汤科技联合商务印书馆、华东师范大学、上海知名高中优秀教师编写出版了全球首部面向高中生的人工智能教材——《人工智能基础(高中版)》。2019 年 5 月,商汤再次发布面向初中生的《人工智能入门》。
2019 年 9 月 1 日,新学期的第一天,青岛市 100 余所中小学, 2 万多名师生迎来了人工智能教育试点课程。
目前,商汤 AI 基础教育已推广至青岛、上海、北京、深圳、香港、澳门等 12 个城市,300 多所学校。
在未来,AI 将会像水电煤等基础能源一样,成为各个行业的基础。对于每一个人来说,不论未来选择何种专业,具备一定的 AI 素养、掌握一定的 AI 知识、学会如何有效应用相关 AI 技术,都可以对自己的职业生涯产生帮助。