• 售前

  • 售后

热门帖子
入门百科

pytorch 实现冻结部分参数训练另一部分

[复制链接]
阿德莱德探路者 显示全部楼层 发表于 2021-10-26 13:53:33 |阅读模式 打印 上一主题 下一主题
1)添加下面一句话到模子中
  1. for p in self.parameters():
  2. p.requires_grad = False
复制代码
比如加载了resnet预训练模子之后,在resenet的根本上毗连了新的模快,resenet模块那部门可以先临时冻结不更新,只更新其他部门的参数,那么可以在下面参加上面那句话
  1. class RESNET_MF(nn.Module):
  2. def __init__(self, model, pretrained):
  3.   super(RESNET_MF, self).__init__()
  4.   self.resnet = model(pretrained)
  5.   for p in self.parameters():
  6.    p.requires_grad = False #预训练模型加载进来后全部设置为不更新参数,然后再后面加层
  7.   self.f = SpectralNorm(nn.Conv2d(2048, 512, 1))
  8.   self.g = SpectralNorm(nn.Conv2d(2048, 512, 1))
  9.   self.h = SpectralNorm(nn.Conv2d(2048, 2048, 1))
  10.   ...
复制代码
同时在优化器中添加:
  1. filter(lambda p: p.requires_grad, model.parameters())
复制代码
  1. optimizer = optim.Adam(filter(lambda p: p.requires_grad, model.parameters()), lr=0.001, \
  2. betas=(0.9, 0.999), eps=1e-08, weight_decay=1e-5)
复制代码
2) 参数保存在有序的字典中,那么可以通过查找参数的名字对应的id值,举行冻结

查看每一层的代码:
  1. model_dict = torch.load('net.pth.tar').state_dict()
  2. dict_name = list(model_dict)
  3. for i, p in enumerate(dict_name):
  4. print(i, p)
复制代码
打印一下这个文件,可以看到大抵是这个样子的:
  1. 0 gamma
  2. 1 resnet.conv1.weight
  3. 2 resnet.bn1.weight
  4. 3 resnet.bn1.bias
  5. 4 resnet.bn1.running_mean
  6. 5 resnet.bn1.running_var
  7. 6 resnet.layer1.0.conv1.weight
  8. 7 resnet.layer1.0.bn1.weight
  9. 8 resnet.layer1.0.bn1.bias
  10. 9 resnet.layer1.0.bn1.running_mean
  11. ....
复制代码
同样在模子中添加如许的代码:
  1. for i,p in enumerate(net.parameters()):
  2. if i < 165:
  3.   p.requires_grad = False
复制代码
在优化器中添加上面的那句话可以实现参数的屏蔽
增补:pytorch 加载预训练模子 + 断点规复 + 冻结训练(避坑版本)
1、 预训练模子网络结构 = 你要加载模子的网络结构

那么直接 套用
  1. path="你的 .pt文件路径"
  2. model = "你的网络"
  3. checkpoint = torch.load(path, map_location=device)
  4. model.load_state_dict(checkpoint)
复制代码
2、 预训练模子网络结构 与你的网络结构不一致

当你直接套用上面公式,会出现类似unexpected key module.xxx.weight标题
这种情况下,需要具体分析一下网络信息,再决定怎样加载。
  1. # model_dict 是一个字典,保存网络 各层名称和参数,
  2. model_dict = model.state_dict()
  3. print(model_dict.keys()
  4. # 这里打印出 网络 各层名称
复制代码
  1. checkpoint = torch.load(path,map_location=device)
  2. for k, v in checkpoint.items():
  3. print("keys:".k)
  4. # 这里打印出 预训练模型网络 各层名称, 是字典 【键】显示的另一种方式。
复制代码
然后,对比两者网络结构参数 的异同,
若各层网络名称 基本不一致,那这个预训练模子基本就没法用了,直接换模子吧
若两者网络参数有很多 类似的地方,但又不完全一致,那可以接纳如下方式。
(1) 部门网络关键字 ---- 完全匹配的情况
  1. model.load_state_dict(checkpoint, strict=True)
复制代码
load_state_dict 函数添加 参数 strict=True, 它直接忽略那些没有的dict,有类似的就复制,没有就直接放弃赋值!他要求预训练模子的关键字必须确切地严格地和 网络的 state_dict() 函数返回的关键字相匹配才华赋值。
strict 也不是很智能,适用于那些 网络关键字 基本能够匹配的情况。否则纵然加载乐成,网络参数也是空的。
(2)大部门网络关键字 ---- 部门匹配 (不完全类似,但类似),比方

网络关键字: backbone.stage0.rbr_dense.conv.weight
预训练模子 关键字:stage0.rbr_dense.conv.weight
可以看到,网络关键字 比预训练模子 多了一个前缀,别的完全一致,这种情况下,可以把 预训练模子的 stage0.rbr_dense.conv.weight 读入 网络的 backbone.stage0.rbr_dense.conv.weight 中。
  1. # 对于 字典而言,in 或 not in 运算符都是基于 key 来判断的
  2. model_dict = model.state_dict()
  3. checkpoint = torch.load(path,map_location=device)
  4. # k 是预训练模型的一个关键字, ss是 网络的有一个关键字
  5. for k, v in checkpoint.items():
  6. flag = False
  7. for ss in model_dict.keys():
  8. if k in ss: # 在每一个元素内部匹配
  9. s = ss; flag = True; break
  10. else:
  11. continue
  12. if flag:
  13. checkpoint[k] = model_dict[s]
复制代码
3、断点规复

我感觉这个和常规【模子保存加载】方法的区别重要是 epoch的规复
  1. # 模型保存
  2. state = {
  3. 'epoch': epoch,
  4. 'state_dict': model.state_dict(),
  5. 'optimizer': optimizer.state_dict(),
  6.   ... # 有其他希望保存的内容,也可自定义
  7. }
  8. torch.save(state, filepath)
  9. # 加载模型,恢复训练
  10. model.load_state_dict(state['state_dict'])
  11. optimizer.load_state_dict(state['optimizer'])
  12. start_epoch = checkpoint['epoch'] + 1
复制代码
4、冻结训练

一般冻结训练都是针对【backbone】来说的,较多应用于【迁徙学习】
比方,0-49 Epoch:冻结 backbone举行训练;50-99:不冻结训练。
  1. Init_Epoch = 0
  2. Freeze_Epoch = 50
  3. Unfreeze_Epoch =100
  4. #------------------------------------#
  5. # 冻结一定部分训练
  6. #------------------------------------#
  7. for param in model.backbone.parameters():
  8. param.requires_grad = False
  9. for epoch in range(Init_Epoch,Freeze_Epoch):
  10. # I`m Freeze-training !!
  11. pass
  12. #------------------------------------#
  13. # 解冻后训练
  14. #------------------------------------#
  15. for param in model.backbone.parameters():
  16. param.requires_grad = True
  17. for epoch in range(Freeze_Epoch,Unfreeze_Epoch):
  18. # I`m unfreeze-training !!
  19. pass
复制代码
以上为个人履历,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。

帖子地址: 

回复

使用道具 举报

分享
推广
火星云矿 | 预约S19Pro,享500抵1000!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

草根技术分享(草根吧)是全球知名中文IT技术交流平台,创建于2021年,包含原创博客、精品问答、职业培训、技术社区、资源下载等产品服务,提供原创、优质、完整内容的专业IT技术开发社区。
  • 官方手机版

  • 微信公众号

  • 商务合作