7 papers | 3篇综述论文,全面了解机器阅读理解、图表征学习等
机器之心整理
机器之心编辑部
本周 7 Papers 重点推荐三篇综述论文,包括机器学习测试综述、图数据表征学习方法最新进展综述以及机器阅读理解综述。这些 survey 论文能够很好的帮助我们全面了解特定技术主题。
1.标题:Machine Learning Testing: Survey, Landscapes and Horizons
- 作者:Jie M. Zhang, Mark Harman, Lei Ma, Yang Liu
- 链接:https://arxiv.org/pdf/1906.10742.pdf
摘要:本文对机器学习测试(ML testing)研究进行了综合概述。本文包含有 128 篇论文,涉及到测试属性(如正确性、鲁棒性和公平性)、测试组件(如数据、学习程序和框架)、测试流程(如测试结果和测试评估)和应用场景(如自动驾驶和机器翻译)。本文还分析了数据集发展趋势、研究趋势以及研究重点,并在文章最后总结了 ML testing 研究中面临的挑战以及有前途的研究方向。
推荐:机器学习中的测试方法在判断模型效果上至关重要。优秀的测试方法可以客观比较模型的表现,并帮助研究者针对模型的问题进行调整和提高。本文全面总结了各类测试方法和应用场景,有助于读者从模型之外的视角审视机器学习的研究和发展。
2.标题:LEARNING REPRESENTATIONS OF GRAPH DATA: A SURVEY
- 作者:Mital Kinderkhedia
- 链接:https://arxiv.org/pdf/1906.02989v2.pdf
摘要:深度神经网络已经在
目标识别、图像分类和自然语言处理领域取得了巨大的成功。但是,设计出能够学习和输出任意图的最佳神经网络架构依然是一项研究难题。本文的目的是总结和探讨图数据表征学习方法的最新进展。
首先,研究者确定了一些常用的图数据类型,回顾了基础的图理论。接着,研究者讨论了图核方法与神经网络之间的关系。然后,他们列出了用于学习图数据表征的主要方式,即核方式、卷积方式、图神经网络方式、图嵌入方式和概率方式。每一种方式下的具体方法也进行了讨论,并且文章最后简单讨论了图数据表征学习的前景。
推荐:
图神经网络
是人工智能领域的新兴研究领域。这篇论文从总体角度论述了相关发展趋势,对于尚不了解这一领域的读者是非常合适的入门资料。
3.标题:Neural Machine Reading Comprehension: Methods and Trends
- 作者:Shanshan Liu, Xin Zhang, Sheng Zhang, Hui Wang, Weiming Zhang
- 链接:https://arxiv.org/pdf/1907.01118.pdf
摘要:过去几年里,随着深度学习的出现,机器阅读理解(其要求机器基于给定的上下文回答问题)已经赢得了越来越广泛的关注。虽然基于深度学习的机器阅读理解研究正蓬勃发展,但却没有综合性调研文章来总结该领域已经提出的方法和近期发展趋势。所以,本文对这一充满潜力的领域中的近期研究工作进行了全面概述。
具体来说,研究者首先对比了不同维度下的机器阅读理解任务,并介绍了总体架构。接着,他们又进一步对该领域常用模型中使用的 SOTA 方法进行分类。最后,研究者讨论了该领域新的发展趋势,并在文章结尾提出一些未决问题。
推荐:国防科技大学的这篇文章全面介绍了机器阅读理解研究的现状、发展和新趋势,是该领域内少有的综述类文章。机器阅读理解在机器问答、信息搜索等方面的具有重要意义,推荐有兴趣的读者阅读本文。
4.标题:Style Generator Inversion for Image Enhancement and Animation
- 作者:Aviv Gabbay、Yedid Hoshen
- 链接:https://arxiv.org/pdf/1906.11880.pdf
摘要:在本文中,研究者分析表明,与早期生成对抗网络(GAN)不同,最近提出的风格生成器在转换时非常容易。根据这一重要观察发现,他们建议将风格生成器作为通用图像先验(image prior)。
研究表明,风格生成器的性能优于其他生成对抗网络以及用于图像增强任务的深度图像先验(Deep Image Prior)。由风格生成器覆盖的隐空间满足线性 identity-pose 关系。此外,隐空间的线性和可逆性相结合使研究者能够在无监督的情况下对静止的人脸图像进行动画处理。研究者进行大量实验,为论文的主要贡献提供支持。
推荐:自英伟达提出 StyleGan 模型后,GAN 生成的图像质量已接近真实图像。而本文则将风格生成器作为通用图像先验输入,用于修复图像或将静止图像转换为动画。这一做法借鉴了一些迁移学习中的思路,可以启发 GAN 相关的更多探索研究。
5.标题:Layer rotation: a surprisingly powerful indicator of generalization in deep networks?
- 作者:Simon Carbonnelle、Christophe De Vleeschouwer
- 链接:https://arxiv.org/pdf/1806.01603v2.pdf
摘要:本文为以下观点提供大量的实证证据,即层旋转(也就是跨每层权重向量之间余弦距离训练的演化和初始化)构成泛化性能的高度一致指示器。具体来说,每一层最终和初始权重之间的余弦距离越大,最终模型的泛化性能也就越好。有趣的一点是,这种关系承认一种与网络无关的最优化:在训练过程中,所有层的权重从初始值达到余弦距离 1,并且这类训练过程的性能始终优于其他配置——测试准确率提升多达 30%。
此外,研究表明,层旋转易于监测和控制(这有助于超参数调整),并且有可能提供一种统一框架,以解释学习率调整、权重衰减、学习率热身(warmup)和适应性梯度法对生成和训练速度的影响。为了解释层旋转的属性,研究者通过 MNIST 数据集中训练的单层 MLP 表明,层旋转与中间层特征接受训练的程度有关。
推荐:怎样的模型初始化可以提升模型的泛化能力?超参数会怎样影响模型表现?这篇论文从另一种角度解释了超参数和模型初始化对模型效果的影响,并提出了指示泛化能力的指标。这样一来,神经网络模型的可解释性研究更进一步。
6.标题:Language2Pose: Natural Language Grounded Pose Forecasting
- 作者:Chaitanya Ahuja、Louis-Philippe Morency
- 链接:https://arxiv.org/pdf/1907.01108.pdf
摘要:在本文中,研究者提出了一个名为 Joint Language to Pose(或者 JL2P)的神经架构来解决多模态问题,该架构能够学习语言和姿态的联合嵌入。这种联合嵌入空间的学习是端到端的,使用了课程学习法,该方法侧重于先学习更短和更简单的序列,然后学习更长和更复杂的序列。研究者在包含 3D 姿态数据和人为注释语句的公开可用语料库中对他们提出的模型进行了评估。客观度量和主观判断评估均确认,研究者提出的方法能够生成准确率更高的动画,并且被认为在视觉上较其他数据驱动方法更具代表性。
推荐:最近一段时间以来,针对视频生成任务(如根据声音生成视频)的机器学习研究火热。这篇 CMU 的论文研究融合了语义和身体姿态信息,用于生成视频,是一种新颖的利用多模态数据生成视频的方法。
7.标题:Unsupervised Learning of Object Keypoints for Perception and Control
- 作者:Tejas Kulkarni, Ankush Gupta, Catalin Ionescu, Sebastian Borgeaud, Malcolm Reynolds, Andrew Zisserman, Volodymyr Mnih
- 链接:https://arxiv.org/pdf/1906.11883v1.pdf
摘要:在计算机视觉领域,研究目标表征主要是为了帮助下游任务,如图像分类、目标检测、或语义分割等的学习工作。在本文中,研究人员意图为控制和强化学习任务学习目标表征。他们提出了一个神经网络架构——Transporter,用于根据目标的关键点或图像空间中的坐标点,发现目标中简单的几何表征。这一方法可以无监督的从原始视频帧中学习。通过使用关键点瓶颈(keypoint bottleneck)方法,可以从学习从一帧到另一帧转换的过程中的图像特征。
相比类似的方法,该方法发现的关键点在长时间段追踪目标和目标部分上准确率更高。此外,稳定的长时间追踪可以在两个方面帮助控制领域研究:1)将关键点坐标和对应的图像特征作为输入,可以帮助进行高效率采样(highly sample-efficient);2)在学习探索时,控制关键点的位置可以显著减少搜索空间,在没有明显奖励的情况下帮助目标进行深度探索(deep exploration:即通过随机行为探索使得状态不可得)。
推荐:这篇 Deepmind 论文将目标的关键点或图像特征坐标点应用于强化学习研究,可以显著提升采样效率,减少策略的搜索空间,帮助目标更好的进行深度探索。