北大彭宇新:跨媒体智能分析与应用
不到现场,照样看最干货的学术报告!
嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。
人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。由中国科学院大学主办,中国科学院大学学生会承办,读芯术作为指定合作自媒体的“AI未来说·青年学术论坛”第三期“计算机视觉”专场已于2019年3月24日下午在中科院举行。北大彭宇新老师为大家带来报告《跨媒体智能分析与应用》。
彭宇新,北京大学二级教授、博士生导师、863项目首席专家、中国人工智能产业创新联盟专家委员会主任委员、中国工程院“人工智能2.0”规划专家委员会专家、中国图象图形学学会理事兼副秘书长。主要研究方向是:跨媒体分析与推理、图像视频理解与检索、计算机视觉。2006年入选教育部新世纪优秀人才支持计划和北京市科技新星计划,2016年获北京市科学技术奖一等奖(排名第一)。主持了863、国家自然科学基金等20多个项目,发表论文130多篇,包括ACM/IEEE Trans和CCF A类论文50多篇。7次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频样例搜索比赛,均获第一名。主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视总局等单位。担任《IEEE Transactions on Circuits and Systems for Video Technology》等编委, ACM MM 2019、ICIP 2017/2019、ICPR 2018、ICME 2019等领域主席, AAAI 2016/2019、IJCAI 2015高级程序委员。
报告内容:随着多媒体和网络技术的迅猛发展,海量的图像、视频、文本等跨媒体数据快速增长,它们多源异构且相互关联,使得数据表征、信息检索、知识发现、语义推理面临跨媒体、跨数据源等挑战。如何借鉴人脑的跨媒体特性,跨越视觉、听觉、语言等不同的感官信息认知外部世界,对于提高计算机的感知认知能力和智能水平至关重要。本报告将对中国工程院“人工智能2.0”中跨媒体分析推理技术的任务和目标进行介绍,然后重点介绍我们的相关研究进展,包括细粒度图像分类、跨媒体检索、文本生成图像、视频描述生成等。
跨媒体智能分析与应用
数据有结构化的数据和非结构化的数据。其中,非结构化的数据,如图像、视频,占到 90% 以上的比例。这些数据虽然形式上是异构的,但语义上相互关联。跨媒体智能就是要在多元异构的大数据里进行分析、识别、检索和推理。
传统的人工智能 1.0 时代是基于单一媒体的分析与应用,人工智能 2.0 时代强调跨媒体源的采集、分析、检索和推理,即跨媒体智能。
跨媒体则面临着两大科学问题:语义鸿沟和异构鸿沟。语义鸿沟是指计算机的特征表示与人类所理解的语义概念不一致。异构鸿沟是指不同模态的数据的特征表示不一致。
跨媒体智能需要结合数据驱动与知识驱动。通过数据驱动的方法,挖掘大数据中潜在的模式与规律;通过知识驱动的跨媒体协同推理,降低跨媒体认知决策的不确定性。
彭教授指出,人工智能 2.0有七个主要任务:
1. 跨媒体统一表征的理论和模型
2. 跨媒体的关联、理解与挖掘
3. 跨媒体知识图谱的构建与学习
4. 跨媒体的知识演化和推理
5. 跨媒体的描述与生成
6. 跨媒体的智能搜索引擎
7. 跨媒体的智能应用
接下来,彭教授介绍了自己实验室的相关进展。研究的总体思路是:先做好单一媒体的分析与识别,再做跨媒体的分析和识别,最终落地到内容分析和数据应用,这些应用主要集中在互联网上。
首先介绍了团队在图像细分类领域的工作。从分类到细分类,比如从识别是鸟类到具体识别是鸟的哪一种子类,难度增长极大。难点在于类间差异小,而类内差异大,训练样本少,同类样本不相似等问题。现有的方法非常依赖于详尽的标注信息。
彭教授的团队提出了“弱监督深度图像细分类”的新研究方向,并在以下方面做了工作:
- 为了降低标注工作量,提出了空间拓扑的注意力学习方法、基于选择和生成的数据增广方法;
- 为了提高细分类的准确率,提出了多尺度堆叠式的深度强化学习方法;
- 为了提高细分类的速度,提出了多级注意力引导的快速辨识定位方法;
- 为了加速新增类别训练,提出了层次化的深度增量迁移学习方法;
- 提出多源语义嵌入的视觉表示方法,突破单源信息表示的局限性。
- 接着介绍了团队在跨媒体检索领域的工作。跨媒体检索即通过一种媒体作为查询,同时找到语义相关的其他媒体形式的内容。
- 彭教授展示了团队在以下方面所做的工作:
- 针对跨媒体的统一表征问题,提出了图规约共享语义空间映射方法,建立跨媒体统一关联超图模型;
- 针对深度跨媒体统一表征学习,提出了跨媒体生成式对抗网络;
- 针对深度跨媒体细粒度建模问题,提出了层叠式耦合关联学习方法;
- 针对细粒度局部关系建模,提出了视觉-语义关系注意力模型等;
- 针对视觉-语言之间信息不对等问题,提出了特定媒体语义空间映射模型;
- 针对视觉-语言信息的相互转换问题,提出了跨媒体双向翻译模型;
- 针对视觉-语言信息的相互生成问题,提出了跨媒体循环关联学习方法;
- 针对新增跨媒体数据的模型训练问题,提出了跨媒体终身学习方法;
- 针对新增未知数据的检索问题,提出零样本跨媒体对偶对抗学习方法;
- 针对有监督条件下哈希码鲁棒性问题,提出序列化多尺度特征哈希方法;
- 针对半监督条件下的哈希码生成问题,提出半监督跨媒体生成对抗哈希方法;
- 针对无监督条件下的哈希码生成问题,提出无监督跨媒体生成对抗哈希方法;
- 构建了大规模跨媒体数据集 PKUXMediaNet,具有 5 种媒体类型,数据集被国内外 50多个大学、科研院所、公司使用。
然后,彭教授介绍了在跨媒体描述与生成领域所做的工作,能够从图像/视频生成文本,也可以从文本生成图像/视频。
最后,彭教授介绍了跨媒体内容分析与识别系统、TRECVID视频样例搜索、鸟类、车辆细分类等跨媒体智能的应用成果。