NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

lixgjob

2019-11-29

机器之心发布
机器之心编辑部

在 NeurIPS 2019正式召开以前，机器之心精心策划了 NeurIPS 2019 专题，包括线上分享、论文解读、现场报道等内容。11月21日，第一期分享已经圆满结束。本文介绍的是「神经网络模型压缩技术」，这是华为诺亚方舟实验室联合北大和悉尼大学联合提出的一种理论，只需要2%的数据就可以实现云端 NN 模型压缩。

在上周四的第二期分享中，华为诺亚方舟实验室研究员许奕星为大家详细解读了大会接收的这篇 Spotlight 论文《Positive-Unlabeled Compression on the Cloud》。

华为诺亚方舟实验室联合北京大学和悉尼大学发布论文《Positive-Unlabeled Compression on the Cloud》，提出了基于少量样本的云端网络压缩技术，ResNet-18网络在 CIFAR-10 和 ImageNet 上分别达到了 93.75% 和 86.00% 的准确率（分别使用2% 和 10% 的原始数据集），该论文已被 NeurIPS2019 接收。
论文地址：https://arxiv.org/pdf/1909.09757.pdf

研究背景
深度卷积网络（CNN）被广泛应用于诸多 CV 领域的实际任务中（例如，图片分类、物体检测、语义分割等）。然而，为了保证性能，神经网络通常是过参数化的，因此会存在大量的冗余参数、为了将 NN 直接应用于小型化移动设备例如手机、相机、摄像头等，通常需要使用压缩算法对过参数化的原神经网络进行压缩和加速。
传统的 NN 压缩算法通常需要完整的训练集来得到性能优异的压缩网络，然而在提供云端模型压缩时，上传这些原始训练集通常非常耗时。例如，用户上传一个 95MB 大小的 ResNet-50 只需几秒至几分钟，但上传 120GB 完整原训练集 ImageNet 则需要数小时甚至数天，从而极大伤害用户体验。
为了解决这个问题，我们提出了一种基于少样本的云端网络压缩技术，如图1。我们利用用户上传的少量样本以及云上存在的大量未标注数据，通过正类与未标注学习 (PU Learning)方法从未标注样本中挑选出和用户上传的数据属于同类别的数据，之后，使用改进的稳健性知识蒸馏( Robust Knowledge Distillation )方法对网络进行压缩。
实验表明，论文中的算法能够在使用非常少量原始训练数据的情况下，达到和使用全部样本的压缩算法类似的准确率。

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

图1：本方法结构框架

使用PU分类器挑选数据
由于传输速度的限制，或基于隐私的原因，实际中我们通常只能够得到少量的训练样本，传统的 NN 压缩方法在这种情况下没办法得到高性能的压缩网络。因此，本文提出了云端模型压缩方案，利用云端海量无标签数据，使用 PU 分类器从中挑选出和用户上传少量样本属于相同类别的样本，以便于网络的压缩。
PU 分类方法是一种特殊的半监督算法，用于解决标注数据只有正样本的问题。在本问题中，用户上传的少量训练样本可以视为正样本，云端无标签数据可以视为未标注样本，因此能够使用 PU 学习算法对未标注数据进行分类，从中挑选出正样本。具体的，给定一个训练集T：

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

其中L为标注数据集，U为未标注数据集。PU分类器通过优化以下方程来学习：

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

其中

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

为决策函数，

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

为任意损失函数，

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

，

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

和

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

为对应的风险函数，

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

为类别先验。该优化方程通过对正样本及未标注样本施加不同的损失函数，并利用未标注数据中的类别先验知识，完成对未标注样本的分类问题。
因此，给定用户上传的原始网络，我们可以将少量用户上传样本与大量的云上未标注样本输入网络，并通过上述优化方程对网络进行学习。
事实上，由于用户数据与未标注数据分布不同，直接使用用户上传的原网络作为特征提取器并不能够达到好效果。同时用户上传的原网络是针对于传统分类问题设计的，并不适用于PU数据分类问题。因此我们构造了基于Attention机制的多尺度特征提取器，用于对输入数据提取特征。具体如图2所示：

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

图2：基于注意力机制的多尺度特征提取器
以 ResNet-34 为例，我们对网络的各个 block 提取的特征进行基于Attention机制的变换，并学习其对应的权重向量，用于确定对于一个输入样本，应该更关注于网络哪个部分的特征。利用上述网络求特征，并通过 PU 分类器进行优化，就能够完成对未标注样本的分类任务，从中挑选出和用户上传数据属于同类别的数据。算法1是上述方法的总结。

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

算法1：PU分类器。

鲁棒的知识蒸馏算法
利用上个步骤得到的扩展数据集，本文使用了鲁棒的知识蒸馏方法对网络进行压缩。
注意扩展数据集可能存在严重的类不平衡问题，因为未标注数据集中可能存在大量某一类的用户数据，然而不存在或只存在很少另一类用户数据。
除此之外，通过PU方法得到的扩展训练集存在噪声，因为上一步骤中从未标注数据集中挑出的正样本不可能达到完全准确的程度，因此我们对传统知识蒸馏方法进行了改进。
具体的，针对类不平衡问题，我们为每个类的样本增加一个权重，拥有更少数据的类的权重会更大。定义

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

为用户上传的教师网络对于输入数据的输出分布之和，类别权重向量

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

可以通过下式计算：

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

其中，K为原始数据中的类个数。当训练学生网络时，输入数据的权重被定为

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

，其中

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

为教师网络对输入数据的预测类。因此，改进的知识蒸馏损失为：

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

其中，

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

为交叉熵损失。
注意到

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

并非最优的，因为教师网络对训练数据预测的输出分布

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

不是最优，并含有噪声。然而我们认为教师网络已经被很好地训练，因此

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

与最优的权重向量

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

之间相差不大，即：

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

因此对原权重向量

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

中的每一个元素给予一个随机扰动

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

，并得到多个扰动后的权重向量

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

，其

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

。我们通过优化如下方程学习压缩后的学生网络：

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

算法 2 总结了上述方法。

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

算法2：鲁棒的知识蒸馏方法

实验结果
我们首先在 CIFAR-10、ImageNet、MNIST 三个数据集上进行了实验。
表1 是 CIFAR-10 上的结果，我们使用了 ResNet-34 模拟用户上传的教师网络，ResNet-18 为待压缩的学生网络。可以看到，在使用了 2% 的 CIFAR-10 训练数据集下，本方法能自动从未标注样本中挑选出 nt 个数据，并使用鲁棒知识蒸馏方法对学生网络进行压缩，达到 93.75% 的性能，仅比使用全部数据进行知识蒸馏的压缩方法少0.65% 的准确率。

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

表1 CIFAR-10数据集实验结果
在 ImageNet 上，在使用 10% 原始数据集情况下，我们方法达到了 86.00% 的 top-5准确率，比使用完整训练集得到的压缩结果仅有很少下降，超过了从原始数据集中挑选50%的训练样本情况下的压缩结果。

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

表2 ImageNet数据集实验结果
我们在 MNIST 上进行了实验，并与其余使用少量数据的压缩方法进行对比，可以看到我们的方法具有明显优势。

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

表3 MNIST数据集实验结果
最后，我们对本方法关于类先验的鲁棒性进行了分析，并对RKD方法进行了对照实验，证明本方法的有效性，如图3。

NeurIPS 2019分享：华为提出基于少量数据的神经网络模型压缩技术

图3：使用不同类别先验在CIFAR-10上的准确率

NeurIPS 2019 机器之心线上分享

在 NeurIPS 2019 收录的大量优秀论文中，我们将选出数篇优质论文，邀请论文作者来做线上分享。整场分享包括两个部分：论文解读和互动答疑。论文解读包括使用技术介绍、理论方法解读和具体代码实现。

线上分享将在「NeurIPS 2019 交流群」中进行，加群方式：添加机器之心小助手（syncedai4），备注「AI」，邀请入群。入群后将会公布斗鱼直播链接。

神经网络模型华为科技新闻

lixgjob

0 关注 0 粉丝 0 动态

相关推荐

机器学习的未来就在这里：高斯过程和神经网络是等价的

高斯进程已经存在了一段时间，但它只是在过去5-10年，有一个大的复苏，其兴趣。部分原因是求解的计算复杂：由于他们的模型需要矩阵反转，复杂性是 O，很难更快地获得。高斯过程最酷的特征之一是它们非常非常相似的神经网络。中央极限定理可以统一明显复杂的现象，在这

lemonade 12评论 2020-11-10

面向深度学习的五大神经网络模型及其应用

深度学习是机器学习的重要组成部分，深度学习算法基于神经网络。有几种功能不同的神经网络架构，最适合特定的应用场景。本文介绍一些最知名的架构，尤其是深度学习方面的架构。MLP使用一种称为反向传播的监督式学习技术进行训练。反向传播有助于调整神经元权重，以获得更接

fengzhimohan 14评论 2020-11-02

【干货】图神经网络的十大学习资源分享

本文转自雷锋网，如需转载请至雷锋网官网申请授权。图神经网络是深度学习的一个相对较新的领域，从最近开始越来越流行。Twitter、Google或Facebook等大公司都会开始对于GNN投入研究，事实证明了GNN优于其他使用图数据的机器学习模型。由于此领域的

walegahaha 2020-10-20

神经网络：高深莫测又妙趣横生的完整历史！

在翻阅各种资料之后，我对神经网络的历史深深入迷了。这是个非常有趣的研究主题，我从中获得了不少快乐。自上个世纪以来，神经网络和人工智能一直是热门话题。在流行文化电影中，人工智能机器人风靡全球，吸引着大量猎奇之士。神经网络的灵感来源于生物神经元是一种受编程范式

WFRainn 2020-10-19

建神经网络模型，哪种优化算法更好？35000次测试告诉你

想要优化自己的神经网络，却不知道哪种优化器更适合自己？又或者，想知道深度学习中梯度下降的算法到底都有哪些？现在，最全面的优化算法分析来了。它整理了自1964年以来，几乎所有的优化方法，将它们进行了分类。此外，它还给出了几种基准测试方法，并用它分析了1344

WhiteHacker 2020-10-14

图神经网络快速爆发，最新进展都在这里了

近年来，图神经网络发展迅速，最近的会议上发表了大量相关的研究论文。本文作者正在整理一个GNN的简短介绍和最新研究报告的摘要。希望这对任何准备进入该领域或试图赶上最新技术进展的人有所帮助。在典型的GNN中，消息传递是由边在相邻节点之间上执行的。在任何神经层，

雜貨鋪 2020-10-13

神经网络“炼丹炉”内部构造长啥样？牛津大学博士小姐姐论文解读

神经网络就像“炼丹炉”一样，投喂大量数据，或许能获得神奇的效果。然而，这种情况下，神经网络其实成了“黑匣子”——具有一定的功能，但看不见是怎么起作用的。如果只做简单的图像分类，其实还好；但如果用在医学方向，对疾病进行预测，那么神经网络下的“判断”就不可轻信

zyhzyh 2评论 2020-10-09

2019年Philip S. Yu团队的图神经网络综述

使用graph来表示对象之间的复杂关系和依赖关系，然而graph数据的复杂已有的机器学习算法很难处理，所以使用深度学习方法来处理。此外还讨论图神经网络跨各种领域的应用、总结开源代码、数据集和图神经网络评价指标。最后给出可能的研究方向。然而graph与图像不

cherry0 2020-09-23

9大主题卷积神经网络（CNN）的PyTorch实现

大家还记得这张图吗？深度系统介绍了 52 个目标检测模型，纵观 2013 年到 2020 年，从最早的 R-CNN、OverFeat 到后来的 SSD、YOLO v3 再到去年的 M2Det，新模型层出不穷，性能也越来越好！上文聚焦于源码和论文，对于各种卷

demm 2020-09-18

什么时候以及为什么基于树的模型可以超过神经网络模型？

基于树的模型和神经网络其实并没有太多的不同。神经网络通常被认为是机器学习的圣杯，无所不知，解决一切问题，主要是因为它们很复杂。虽然它们看起来如此不同，但它们只是一枚硬币的两面。任何Kaggler都知道XGBoost是到目前为止最受欢迎的最佳竞赛提交选择。决

zhaoyin 2020-09-16

当支持向量机遇上神经网络：SVM、GAN距离之间的关系

SVM 是机器学习领域的经典算法之一。给定一组训练实例，每个训练实例被标记为属于两个类别中的一个或另一个，SVM 训练算法创建一个将新的实例分配给两个类别之一的模型，使其成为非概率二元线性分类器。SVM 模型将实例表示为空间中的点，这样映射就使得单独类别的

绝望的乐园 2020-09-02

浅谈CNN和RNN

在上一篇文稿中主要对深度学习的基础做了一个阐述，对于其中的神经网络和BP算法进行额外的延伸与拓展。但作为日前最为火热的人工智能技术，掌握这些内容远远还不够。因为深度学习面临的实际问题往往不是线性可分的问题，有时甚至超出了分类的问题，这就必须对深度学习模型加

Site 2020-08-20

图神经网络的究竟有多强大？道翰天琼认知智能机器人平台API接口大脑为您揭秘。

图神经网络的究竟有多强大？道翰天琼认知智能机器人平台API接口大脑为您揭秘。认知智能CI机器人是杭州道翰天琼智能科技有限公司旗下产品。具有突破性，创新性，领航性。认知智能机器人技术体系更加先进，更加智能，是新一代智能，认知智能领域世界范围内唯一的认知智能机

CristianoJason 2020-08-19

谷歌用算力爆了一篇论文，解答有关无限宽度网络的一切

无限宽度神经网络是近来一个重要的研究课题，但要通过实证实验来探索它们的性质，必需大规模的计算能力才行。近日，谷歌大脑公布的一篇论文介绍了他们在有限和无限神经网络方面的系统性探索成果。该研究通过大规模对比实验得到了 12 条重要的实验结论并在此过程中找到了一

cetrolchen 2020-08-18

Pytorch_第十篇_卷积神经网络（CNN）概述

卷积神经网络，简称CNN。卷积神经网络相比于人工神经网络而言更适合于图像识别、语音识别等任务。本文主要涉及卷积神经网络的概念介绍，首先介绍卷积神经网络相比于人工神经网络的优势，其次介绍卷积神经网络的基本结构，最后我们分别介绍神经网络的各个部件从而完整的了解

walegahaha 2020-08-15

一文了解卷积神经网络基础，建议收藏

今天给大家讲一下卷积神经网络，主要包括四个部分：卷积神经网络的历史、全连接层、卷积层和池化层。CNN的英文全称是Convolutional Neural Network，雏形是LeCun在1998年发明的LeNet网络结构。那么到底什么是神经网络呢？198

georgesale 2020-08-14

用神经网络给照片补光，谷歌这项研究却实现了「鬼片」效果

打光是图像处理过程中的重要步骤，打光的好坏可能会影响整体效果的展示。打光方法也各有不同，MIT、谷歌等的一项新研究另辟蹊径，通过神经光传输方法进行图像的二次打光和视图合成，实现了相当不错的效果。图像合成早已不是新鲜话题，但是「打光」可是所有照片的难题。对于

XiaotingCheng 2020-08-13

图神经网络越深，表现就一定越好吗？

数十层甚至数百层神经网络的应用，是深度学习的重要标志之一。但现实情况却远非如此：比如今年被视作机器学习领域最火热的研究方向之一——图神经网络，大多数都只运用了寥寥几层网络。众所周知，深度图神经网络的训练过程非常艰难。近日来，人们致力于解决图神经网络中的深度

码猿同学 2020-08-07

73岁Hinton老爷子构思下一代神经网络：属于无监督对比学习

在近期举行的第 43 届国际信息检索年会上，Geoffrey Hinton 做了主题为《The Next Generation of Neural Networks》的报告。Geoffrey Hinton 是谷歌副总裁、工程研究员，也是 Vector

白飞飞Alan 2020-07-29

人工智能迁移学习如何工作在AI模型和培训过程起到那些作用

如今，人工智能程序可以识别照片和视频中的面部和物体，实时转录音频，提前数年通过X射线扫描检测癌症，并在某些最复杂的游戏中与人类竞争。幸运的是，转移学习是一种使用从一种训练有素的AI模型获得的知识到另一种知识的学科，可以帮助解决这些问题。例如，基本模型可能无

AI启蒙研究院 2020-07-23

lixgjob

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号