北大彭宇新：跨媒体智能分析与应用

kanglinwu

2019-03-29

不到现场，照样看最干货的学术报告！

嗨，大家好。这里是学术报告专栏，读芯术小编不定期挑选并亲自跑会，为大家奉献科技领域最优秀的学术报告，为同学们记录报告干货，并想方设法搞到一手的PPT和现场视频——足够干货，足够新鲜！话不多说，快快看过来，希望这些优秀的青年学者、专家杰青的学术报告，能让您在业余时间的知识阅读更有价值。

人工智能论坛如今浩如烟海，有硬货、有干货的讲座却百里挑一。由中国科学院大学主办，中国科学院大学学生会承办，读芯术作为指定合作自媒体的“AI未来说·青年学术论坛”第三期“计算机视觉”专场已于2019年3月24日下午在中科院举行。北大彭宇新老师为大家带来报告《跨媒体智能分析与应用》。

北大彭宇新：跨媒体智能分析与应用

彭宇新，北京大学二级教授、博士生导师、863项目首席专家、中国人工智能产业创新联盟专家委员会主任委员、中国工程院“人工智能2.0”规划专家委员会专家、中国图象图形学学会理事兼副秘书长。主要研究方向是：跨媒体分析与推理、图像视频理解与检索、计算机视觉。2006年入选教育部新世纪优秀人才支持计划和北京市科技新星计划，2016年获北京市科学技术奖一等奖（排名第一）。主持了863、国家自然科学基金等20多个项目，发表论文130多篇，包括ACM/IEEE Trans和CCF A类论文50多篇。7次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频样例搜索比赛，均获第一名。主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视总局等单位。担任《IEEE Transactions on Circuits and Systems for Video Technology》等编委， ACM MM 2019、ICIP 2017/2019、ICPR 2018、ICME 2019等领域主席， AAAI 2016/2019、IJCAI 2015高级程序委员。

报告内容：随着多媒体和网络技术的迅猛发展，海量的图像、视频、文本等跨媒体数据快速增长，它们多源异构且相互关联，使得数据表征、信息检索、知识发现、语义推理面临跨媒体、跨数据源等挑战。如何借鉴人脑的跨媒体特性，跨越视觉、听觉、语言等不同的感官信息认知外部世界，对于提高计算机的感知认知能力和智能水平至关重要。本报告将对中国工程院“人工智能2.0”中跨媒体分析推理技术的任务和目标进行介绍，然后重点介绍我们的相关研究进展，包括细粒度图像分类、跨媒体检索、文本生成图像、视频描述生成等。

北大彭宇新：跨媒体智能分析与应用

跨媒体智能分析与应用

北大彭宇新：跨媒体智能分析与应用

数据有结构化的数据和非结构化的数据。其中，非结构化的数据，如图像、视频，占到 90% 以上的比例。这些数据虽然形式上是异构的，但语义上相互关联。跨媒体智能就是要在多元异构的大数据里进行分析、识别、检索和推理。

传统的人工智能 1.0 时代是基于单一媒体的分析与应用，人工智能 2.0 时代强调跨媒体源的采集、分析、检索和推理，即跨媒体智能。

跨媒体则面临着两大科学问题：语义鸿沟和异构鸿沟。语义鸿沟是指计算机的特征表示与人类所理解的语义概念不一致。异构鸿沟是指不同模态的数据的特征表示不一致。

跨媒体智能需要结合数据驱动与知识驱动。通过数据驱动的方法，挖掘大数据中潜在的模式与规律；通过知识驱动的跨媒体协同推理，降低跨媒体认知决策的不确定性。

彭教授指出，人工智能 2.0有七个主要任务：

1. 跨媒体统一表征的理论和模型

2. 跨媒体的关联、理解与挖掘

3. 跨媒体知识图谱的构建与学习

4. 跨媒体的知识演化和推理

5. 跨媒体的描述与生成

6. 跨媒体的智能搜索引擎

7. 跨媒体的智能应用

接下来，彭教授介绍了自己实验室的相关进展。研究的总体思路是：先做好单一媒体的分析与识别，再做跨媒体的分析和识别，最终落地到内容分析和数据应用，这些应用主要集中在互联网上。

首先介绍了团队在图像细分类领域的工作。从分类到细分类，比如从识别是鸟类到具体识别是鸟的哪一种子类，难度增长极大。难点在于类间差异小，而类内差异大，训练样本少，同类样本不相似等问题。现有的方法非常依赖于详尽的标注信息。

彭教授的团队提出了“弱监督深度图像细分类”的新研究方向，并在以下方面做了工作：

为了降低标注工作量，提出了空间拓扑的注意力学习方法、基于选择和生成的数据增广方法;
为了提高细分类的准确率，提出了多尺度堆叠式的深度强化学习方法；
为了提高细分类的速度，提出了多级注意力引导的快速辨识定位方法；
为了加速新增类别训练，提出了层次化的深度增量迁移学习方法；
提出多源语义嵌入的视觉表示方法，突破单源信息表示的局限性。
接着介绍了团队在跨媒体检索领域的工作。跨媒体检索即通过一种媒体作为查询，同时找到语义相关的其他媒体形式的内容。
彭教授展示了团队在以下方面所做的工作：
针对跨媒体的统一表征问题，提出了图规约共享语义空间映射方法，建立跨媒体统一关联超图模型；
针对深度跨媒体统一表征学习，提出了跨媒体生成式对抗网络；
针对深度跨媒体细粒度建模问题，提出了层叠式耦合关联学习方法；
针对细粒度局部关系建模，提出了视觉-语义关系注意力模型等；
针对视觉-语言之间信息不对等问题，提出了特定媒体语义空间映射模型；
针对视觉-语言信息的相互转换问题，提出了跨媒体双向翻译模型；
针对视觉-语言信息的相互生成问题，提出了跨媒体循环关联学习方法；
针对新增跨媒体数据的模型训练问题，提出了跨媒体终身学习方法；
针对新增未知数据的检索问题，提出零样本跨媒体对偶对抗学习方法；
针对有监督条件下哈希码鲁棒性问题，提出序列化多尺度特征哈希方法；
针对半监督条件下的哈希码生成问题，提出半监督跨媒体生成对抗哈希方法；
针对无监督条件下的哈希码生成问题，提出无监督跨媒体生成对抗哈希方法；
构建了大规模跨媒体数据集 PKUXMediaNet，具有 5 种媒体类型，数据集被国内外 50多个大学、科研院所、公司使用。

然后，彭教授介绍了在跨媒体描述与生成领域所做的工作，能够从图像/视频生成文本，也可以从文本生成图像/视频。

最后，彭教授介绍了跨媒体内容分析与识别系统、TRECVID视频样例搜索、鸟类、车辆细分类等跨媒体智能的应用成果。

北大彭宇新：跨媒体智能分析与应用

人工智能

安科网

北大彭宇新：跨媒体智能分析与应用

kanglinwu

kanglinwu

相关推荐

当教练、做监工…… 人机协同下的AI更懂你

如何通过7个步骤构建机器学习模型

Facebook借助人工智能对内容审核排序

人脸识别技术发展现状及未来发展趋势

零基础也能看懂的人工智能教程

关于机器学习管道需要了解什么?

关于人工智能的解读，看这一篇就够了

谷歌正在测试一个人工智能系统，帮助视障人士参加跑步比赛

人工智能与制造业融合有多难？我国人工智能人才缺口达30万

华人研究团队推出AI“讽刺”检测模型，准确率达86%

程序员用AI算法生成了3000个新的宝可梦

决策智能：方兴未艾的人工智能新方向

如何认识人工智能对未来经济社会的影响

AI＋智慧交通实现整体升级和协同

5G技术与人工智能的智能结合

人工智能助力教育均衡发展

为什么所有的机器学习模型有90％从没有投入生产

2020年人工智能改变了我们生活的哪些方面？

激发校园创新火花 2020 DIGIX全球校园AI算法精英大赛圆满收官

全面解读谷歌云人工智能如何为机器学习提供帮助

kanglinwu