AI、机器学习和深度学习修炼手册:论文在手 技术你有
arxiv.org是全球最大的预印本系统,由美国国家科学基金会和美国能源部资助,在美国洛斯阿拉莫斯(Los Alamos)国家实验室建立的电子预印本文献库(目前由美国康乃尔大学管理),始建于1991年8月。本文是过滤了最近出现的与AI、机器学习和深度学习有关的主题提炼出的“最佳论文名单”。希望能够为你节省出一部分时间,下面列出的文章只是在预印本系统上出现的所有文章的一小部分。通常这部分的内容会比较难懂,但同时也是宝贵的学习资料。
Spatial PixelCNN:从修补程序中生成图像
在计算机视觉领域,这是一个非常酷的论文,它提出了Spatial PixelCNN,这是一个有条件的自回归模型,可以从小块中产生图像。通过调节像素坐标网格和从变分自动编码器(VAE)中提取的全局特征进行,他们能够在图像块上训练并再现全尺寸图像。他们表明,该技术不仅能够以与底层数据集相同的分辨率生成高质量的样本,还能够将图像放大到MNIST数据集上的任意分辨率(测试分辨率高达50x)。与PixelCNN ++基线相比,Spatial PixelCNN在数量和质量上也都能在MNIST数据集上实现类似的性能。
https://arxiv.org/abs/1712.00714
对抗补丁(Adversarial Patch)
Google研究人员提出了一种方法,可以在现实世界中创建通用的、强大的、有针对性的对抗图像补丁。这些补丁是通用的,因为它们可以用来攻击任何场景,因为它们可以在各种各样的变换下工作,而且是有针对性的,原因是它们可以导致分类器输出任何目标类。这些对抗性补丁可以打印,添加到任何场景,拍照,并呈现给图像分类器;即使补丁很小,也会导致分类器忽略场景中的其他项目,并报告选定的目标类别。
https://arxiv.org/abs/1712.09665
可视化神经网络的损失景观(Visualizing the Loss Landscape of Neural Nets)
神经网络训练依赖于我们的能力找到高度非凸损失函数。众所周知,某些网络体系结构设计(例如,跳过连接)产生更容易训练的损失函数,并且良好选择的训练参数(批量大小,学习速率,优化器)会产生更小的泛化器。然而,这些差异的原因,以及它们对潜在损失景观的影响,目前尚不清楚。本文通过一系列可视化方法,探讨了神经损失函数的结构,以及损失景观对泛化的影响。
https://arxiv.org/abs/1712.09913
Ray RLLib:一种可组合和可扩展的强化学习库
强化学习(RL)算法涉及不同组件的深度嵌套,其中每个组件通常展现分布式计算的机会。目前的RL库在整个程序层面提供了并行性,将所有组件耦合在一起,使现有的实现难以扩展、组合和重用。本文主张通过在单个组件中封装并行性和资源需求来构建可组合的RL组件,这可以通过构建基于灵活任务的编程模型来实现。作者通过在Ray之上构建Ray RLLib来演示这一原理,并展示了如何通过组合和重用一些标准组件来实现各种最先进的算法。 Ray RLLib作为Ray on GitHub的一部分提供。
https://arxiv.org/abs/1712.09381
Gradients explode – Deep Networks are shallow – ResNet explained
尽管相信诸如Adam、批量归一化和最近的SeLU非线性技术能“解决”爆炸梯度问题的技术,但是本文表明一般情况并非如此。在一系列流行的MLP体系结构中,爆炸梯度存在,而且它们限制了网络在理论和实践上都可以得到的有效训练的深度。作者解释了为什么会出现爆炸渐变并突出了崩溃的问题,这可能会出现在架构中,以避免爆炸梯度。 ResNets具有较低的梯度,因此可以规避爆炸的梯度问题,使得能够对更深层的网络进行有效的训练,它们表现出惊人的数学特性。通过注意到任何神经网络是一个残余网络,这个新的研究设计了剩余的技巧,这表明引入跳过连接简化了网络的数学计算,而这种简单性可能是他们成功的主要原因。
https://arxiv.org/abs/1712.05577
深度极端切割:从极端点到对象分割(Deep Extreme Cut: From Extreme Points to Object Segmentation)
本文探讨了在对象(最左侧,最右侧,顶部,底部像素)中使用极值点作为输入,以获得图像和视频的精确对象分割。作者通过在卷积神经网络(CNN)的输入中添加一个额外的通道来实现这点,该卷积神经网络包含以每个极端点为中心的高斯分布。 CNN学习将这些信息转换成与那些极端点相匹配的对象的分割。本文展示了这种方法在导向分割(抓取样式)、交互式分割、视频对象分割和密集分割注释方面的有效性。
https://arxiv.org/abs/1711.09081
Bayesian GAN
生成对抗网络(GAN)可以学习图像、音频和数据的分布,这些数据很难用明确的可能性进行建模。本文提出了一种实用的贝叶斯公式,用于无监督和半监督学习的GAN。在这个框架下,作者使用随机梯度蒙特卡罗哈密顿来边缘化发生器和鉴别器网络的权重。由此产生的方法是直接的,并能获得良好的性能,没有任何标准的干预,如特征匹配。通过在发生器的参数上探索具有表达性的后验,贝叶斯GAN避免了模式崩溃,产生了可解释的和多样化的候选样本,并且提供了用于基于SVHN,CelebA等基准的半监督学习的最新量化结果。包括SVHN、CelebA和ci远10,超过DCGAN、Wasserstein GANs和DCGAN合群。
https://arxiv.org/abs/1705.09558
使用自动编码器的混合的深度无监督集群(Deep Unsupervised Clustering Using Mixture of Autoencoders)
无监督聚类是机器学习中最基本的挑战之一。一个流行的假设是数据是由低维非线性流形的联合产生的;因此聚类方法是识别和分离这些流形。本文提出了一种新的方法来解决这个问题,使用自动编码器的混合。该模型由两部分组成:1)一组自动编码器,每个自动编码器学习一组相似对象的底层流形; 2)一个混合赋值神经网络,将来自自编码器的连接的潜在向量作为输入,分布在集群上。通过对两部分进行联合优化,作者同时将数据分配给集群,并学习每个聚类的基本流形。
https://arxiv.org/abs/1712.07788
机器学习的非凸优化(Non-convex Optimization for Machine Learning)
绝大多数机器学习算法训练其模型并通过解决优化问题来执行推理。为了准确地捕捉学习和预测问题,频繁地施加诸如稀疏性或低秩的结构进行约束,或者把目标本身设计成非凸函数。对于在高维空间中运行或训练的非线性模型(如张量模型和深度网络)的算法尤其如此。本文通过几种广泛使用的非凸优化技术及其应用引导读者。我们的目标是介绍这方面的丰富文献,并为读者提供分析非凸问题简单程序所需的工具和技术。
https://arxiv.org/abs/1712.07897
从Adam转换到SGD提高泛化性能(Improving Generalization Performance by Switching from Adam to SGD)
尽管训练效果优异,但与随机梯度下降(SGD)相比,Adam、Adagrad或RMSprop等自适应优化方法的推广效果不佳。这些方法在训练的最初阶段往往表现良好,在后期阶段,表现更好。本文研究了一种混合策略,开始使用自适应方法进行训练,并在适当时候切换到SGD。具体而言,作者提出SWATS,一个简单的策略,当一个触发条件满足时,从Adam转换到SGD。通过设计,这种情况的监视过程增加了很少的开销,并且不会增加优化器中超参数的数量。
https://arxiv.org/abs/1712.07628