python PyTorch参数初始化和Finetune

Anton0

2018-02-11

前言

这篇文章算是论坛PyTorch Forums关于参数初始化和finetune的总结，也是我在写代码中用的算是“最佳实践”吧。最后希望大家没事多逛逛论坛，有很多高质量的回答。

参数初始化

参数的初始化其实就是对参数赋值。而我们需要学习的参数其实都是Variable，它其实是对Tensor的封装，同时提供了data，grad等借口，这就意味着我们可以直接对这些参数进行操作赋值了。这就是PyTorch简洁高效所在。

python PyTorch参数初始化和Finetune

所以我们可以进行如下操作进行初始化，当然其实有其他的方法，但是这种方法是PyTorch作者所推崇的：

def weight_init(m):
# 使用isinstance来判断m属于什么类型
  if isinstance(m, nn.Conv2d):
    n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
    m.weight.data.normal_(0, math.sqrt(2. / n))
  elif isinstance(m, nn.BatchNorm2d):
# m中的weight，bias其实都是Variable，为了能学习参数以及后向传播
    m.weight.data.fill_(1)
    m.bias.data.zero_()

Finetune

往往在加载了预训练模型的参数之后，我们需要finetune模型，可以使用不同的方式finetune。

局部微调

有时候我们加载了训练模型后，只想调节最后的几层，其他层不训练。其实不训练也就意味着不进行梯度计算，PyTorch中提供的requires_grad使得对训练的控制变得非常简单。

model = torchvision.models.resnet18(pretrained=True)
for param in model.parameters():
  param.requires_grad = False
# 替换最后的全连接层， 改为训练100类
# 新构造的模块的参数默认requires_grad为True
model.fc = nn.Linear(512, 100)

# 只优化最后的分类层
optimizer = optim.SGD(model.fc.parameters(), lr=1e-2, momentum=0.9)

全局微调

有时候我们需要对全局都进行finetune，只不过我们希望改换过的层和其他层的学习速率不一样，这时候我们可以把其他层和新层在optimizer中单独赋予不同的学习速率。比如：

ignored_params = list(map(id, model.fc.parameters()))
base_params = filter(lambda p: id(p) not in ignored_params,
           model.parameters())

optimizer = torch.optim.SGD([
      {'params': base_params},
      {'params': model.fc.parameters(), 'lr': 1e-3}
      ], lr=1e-2, momentum=0.9)

其中base_params使用1e-3来训练，model.fc.parameters使用1e-2来训练，momentum是二者共有的。

初始化 python

Anton0

0 关注 0 粉丝 0 动态

相关推荐

三分钟完成 ubuntu16.04初始化,Java,maven,docker环境的部署问题

Linux初始化和一些常用环境的搭建是一个虽简单但费时的工作，尤其是你的Linux由于某种不可控的因素宕机了，这意味着你又要从头开始部署一遍环境，有些令人抓狂，因此我有了搭建这个Linux初始化脚本库的想法，不管小白还是大佬，只需一键运行，然后喝杯咖啡，环

worldsnow 2020-11-06

spring容器内置的事件的顺序和说明

spring容器内置的事件的顺序和说明。refresh() --- 具体的注入bean

xuejianbest 2020-11-11

面试官：讲讲类的加载、链接和初始化？

作者个人研发的在高并发场景下，提供的简单、稳定、可扩展的延迟消息队列框架，具有精准的定时任务和延迟队列处理功能。自开源半年多以来，已成功为十几家中小型企业提供了精准定时调度方案，经受住了生产环境的考验。为使更多童鞋受益，现给出开源框架地址：。这不，一名读者

csdnxingyuntian 2020-11-02

SpringBoot Web 应用源码解析：综合实战和整体总结

关于 Web 方面的配置比较多，值得庆幸的是，Spring Boot 已经帮我们预置初始化了很多基础组件。但在实践的过程中，某些基础的组件并不能满足我们的实际需求,这时就需要我们重新初始化相应组件，甚至在某些极端的情况下需要完全接管 Spring Boot

丽丽 2020-10-30

一篇读懂Linux 是如何管理内存的

每个 Linux 进程都会有地址空间，这些地址空间由三个段区域组成：text 段、data 段、stack 段。数据段分为两部分，已经初始化的数据和尚未初始化的数据。所有 BSS 部分中的变量在加载后被初始化为 0 。和代码段不一样，data segme

bluecarrot 2020-09-17

详解Go语言中关于包导入必学的 8 个知识点

在 Go 语言中，一个包可包含多个 .go 文件，只要这些 .go 文件的头部都使用 package 关键字声明了同一个包。如你所见，Go 语言中导入的包，必须得用双引号包含，在这里吐槽一下。防止导入的包名和本地的变量发生冲突，比如 path 这个很常用

哈嘿Blog 2020-08-16

golang 进度条功能实现示例

最近在做一个需求，功能很简单，就是开发一个轻量级客户端，将一个指定文件中的内容通过 TCP 发送到服务器。由于该文件特别大，有可能到达100G的数量级，因此处理起来会比较慢，为了给用户提供比较友好的展示界面，因此，在其中加入了进度条显示功能。在这里，说一下

qidiantianxia 2020-08-16

proxmox ve 6.2.1 初始化脚本

apt update && apt upgrade -y && apt dist-upgrade -y. apt install -y vim net-tools wget curl htop git axel aria2

84931231 2020-07-30

JVM(类加载机制,虚拟机栈,)

类加载器子系统负责从文件系统或者网络中加载Class文件，class文件在文件开头有特定的文件标识。ClassLoader只负责class文件的加载，至于它是否可以运行，则由Execution Engine决定。主要包括四种验证，文件格式验证，元数据验证，

ChenRuiyz 2020-07-26

Spark 源码解读（五）SparkContext的初始化之创建和启动DAGScheduler

DAGScheduler主要用于在任务正式提交给TaskSchedulerImpl提交之前做一些准备工作，包括：创建job,将DAG中的RDD划分到不同的Stage,提交Stage等等。SparkContext中创建DAGScheduler的代码如下所示：

yanqianglifei 2020-07-07

自描述C++部分面试题集

在类中定义的数据成员一般都是基本的数据类型。C++中对对象的初始化时非常重要的操作，当创建一个对象的适合，C++编译器必须确保调用了所有子对象的构造函数。如果所有的子对象有默认构造函数，编译器可以自动调用他们。也就是说，先调用对象成员的构造函数，再调用本身

wbczyh 2020-07-05

嵌入式Linux系统的几大组件！

本文概述了Linux系统的几大组件，描述了这些组件之间的关系。文章解释了术语，并描述看似很基础的细节。其中一个组件从技术上讲是Linux之外的，常常不被谈论。其余组件都是共同打造整个Linux系统的所有软件元素。因此，Linux内核仅启动一个程序，并让该程

BOBShe 2020-07-03

redis集群

　　第一次进行全量复制，即将主服务器的数据通过rdb保存起来，然后复制到从服务器中，以后通过sync命令不断复制主服务器执行的命令来完成数据的同步。　　　　启动过程初始化服务器，替换sentinel代码，初始化sentinel状态，根据配置文件初始化监

yang0cs 2020-06-28

c/c++内存分区

主要用于存储函数的参数和局部变量。栈区由系统进行内存管理，在函数执行完成时，系统自动释放栈区的内存，而不需要用户的参与，整个程序的栈区的大小可以在编译器中由用户自行设定。如果用户忘记对所申请的内存资源进行释放，该内存资源可能会在程序结束时由操。初始化的全局

fushilin 2020-06-28

APP——自动化——python——关闭和打开初始化（desired_caps中设置的的app

‘platformVersion‘: ‘8.0.0‘, #待测手机系统版本。"unicodeKeyboard":"true", #支持中文输入，会自动安装unico

清水寺小僧 2020-06-25

paddle设计思想

　　python被组织成一个ProgramDesc，用户通过调用paddle提供算子来向Program添加tensor以及对变量的操作Operators，用户只需描述前向计算，原始的programDesc转化为一个中间语言Transplier。　　一个pa

uileader 2020-06-21

Dubbo-服务提供者初始化

事件发布，执行onApplicationEvent，开始执行ServiceBean暴露export操作。当Spring容器处理完<dubbo:service>标签后，会在Spring容器中生成一个ServiceBean ，服务的发布也会在Ser

wangyangsoftware 2020-06-16

Go语言变量（三）

变量是几乎所有的编程语言中最基本的组成元素。在Go语言中，变量和其它的C语言系的语言都是不同的，看下面的声明就知道了。Go语言的变量的声明和 js 和像，也是使用var来进行标识的。但是Go语言是静态类型语言，因些，变量是具有明确类型的，编译器也会检查变

cleanerxiaoqiang 2020-06-16

6、Go语言基础之数组

数组是同一种数据类型元素的集合。在Go语言中，数组从声明时就确定，使用时可以修改数组成员，但是数组大小不可变化。比如：var a [5]int，数组的长度必须是常量，并且长度是数组类型的一部分。一旦定义，长度不能变。数组可以通过下标进行访问，下标是从0开

xuguiyi00 2020-06-14

centos7下安装mysql6初始化安装密码的方法

# Remove leading # and set to the amount of RAM for the most important data. # cache in MySQL. Start at 70% of total RAM for ded

Accpcjg 2020-06-14

Anton0

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号