• 售前

  • 售后

热门帖子
入门百科

Pytorch BertModel的利用阐明

[复制链接]
朱婆婆老 显示全部楼层 发表于 2021-10-26 13:52:48 |阅读模式 打印 上一主题 下一主题
根本介绍

环境: Python 3.5+, Pytorch 0.4.1/1.0.0
安装:
  1. pip install pytorch-pretrained-bert
复制代码
必须参数:

--data_dir: "str": 数据根目次.目次下放着,train.xxx/dev.xxx/test.xxx三个数据文件.
--vocab_dir: "str": 词库文件所在.
--bert_model: "str": 存放着bert预训练好的模子. 必要是一个gz文件, 如"..x/xx/bert-base-chinese.tar.gz ", 里面包罗一个bert_config.json和pytorch_model.bin文件.
--task_name: "str": 用来选择对应数据集的参数,如"cola",对应着数据集.
--output_dir: "str": 模子预测效果和模子参数存储目次.
简单例子:

导入所需包
  1. import torch
  2. from pytorch_pretrained_bert import BertTokenizer, BertModel, BertForMaskedLM
复制代码
创建分词器
  1. tokenizer = BertTokenizer.from_pretrained(--vocab_dir)
复制代码
必要参数: --vocab_dir, 数据样式见此
拥有函数:

tokenize: 输入句子,根据--vocab_dir和贪婪原则切词. 返回单词列表
convert_token_to_ids: 将切词后的列表转换为词库对应id列表.
convert_ids_to_tokens: 将id列表转换为单词列表.
  1. text = '[CLS] 武松打老虎 [SEP] 你在哪 [SEP]'
  2. tokenized_text = tokenizer.tokenize(text)
  3. indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
  4. segments_ids = [0, 0, 0, 0, 0, 0, 0,0,0,0, 1,1, 1, 1, 1, 1, 1, 1]
  5. tokens_tensor = torch.tensor([indexed_tokens])
  6. segments_tensors = torch.tensor([segments_ids])
复制代码
这里对标志符号的切词似乎有问题([cls]/[sep]), 而且中文bert是基于字级别编码的,因此切出来的都是一个一个汉字:
  1. ['[', 'cl', '##s', ']', '武', '松', '打', '老', '虎', '[', 'sep', ']', '你', '在', '哪', '[', 'sep', ']']
复制代码
创建bert模子并加载预训练模子:
  1. model = BertModel.from_pretrained(--bert_model)
复制代码
放入GPU:
  1. tokens_tensor = tokens_tensor.cuda()
  2. segments_tensors = segments_tensors.cuda()
  3. model.cuda()
复制代码
前向流传:
  1. encoded_layers, pooled_output= model(tokens_tensor, segments_tensors)
复制代码
参数:

input_ids: (batch_size, sqe_len)代表输入实例的Tensor
token_type_ids=None: (batch_size, sqe_len)一个实例可以含有两个句子,这个相当于句子标志.
attention_mask=None: (batch_size*): 传入每个实例的长度,用于attention的mask.
output_all_encoded_layers=True: 控制是否输出全部encoder层的效果.
返回值:

encoded_layer:长度为num_hidden_layers的(batch_size, sequence_length,hidden_size)的Tensor.列表
pooled_output: (batch_size, hidden_size), 最后一层encoder的第一个词[CLS]颠末Linear层和激活函数Tanh()后的Tensor. 其代表了句子信息
增补:pytorch利用Bert
主要分为以下几个步调:

下载模子放到目次中
利用transformers中的BertModel,BertTokenizer来加载模子与分词器
利用tokenizer的encode和decode 函数分别编码与解码,留意参数add_special_tokens和skip_special_tokens
forward的输入是一个[batch_size, seq_length]的tensor,再必要留意的是attention_mask参数。
输出是一个tuple,tuple的第一个值是bert的最后一个transformer层的hidden_state,size是[batch_size, seq_length, hidden_size],也就是bert最后的输出,再用于卑鄙的使命。
  1. # -*- encoding: utf-8 -*-
  2. import warnings
  3. warnings.filterwarnings('ignore')
  4. from transformers import BertModel, BertTokenizer, BertConfig
  5. import os
  6. from os.path import dirname, abspath
  7. root_dir = dirname(dirname(dirname(abspath(__file__))))
  8. import torch
  9. # 把预训练的模型从官网下载下来放到目录中
  10. pretrained_path = os.path.join(root_dir, 'pretrained/bert_zh')
  11. # 从文件中加载bert模型
  12. model = BertModel.from_pretrained(pretrained_path)
  13. # 从bert目录中加载词典
  14. tokenizer = BertTokenizer.from_pretrained(pretrained_path)
  15. print(f'vocab size :{tokenizer.vocab_size}')
  16. # 把'[PAD]'编码
  17. print(tokenizer.encode('[PAD]'))
  18. print(tokenizer.encode('[SEP]'))
  19. # 把中文句子编码,默认加入了special tokens了,也就是句子开头加入了[CLS] 句子结尾加入了[SEP]
  20. ids = tokenizer.encode("我是中国人", add_special_tokens=True)
  21. # 从结果中看,101是[CLS]的id,而2769是"我"的id
  22. # [101, 2769, 3221, 704, 1744, 782, 102]
  23. print(ids)
  24. # 把ids解码为中文,默认是没有跳过特殊字符的
  25. print(tokenizer.decode([101, 2769, 3221, 704, 1744, 782, 102], skip_special_tokens=False))
  26. # print(model)
  27. inputs = torch.tensor(ids).unsqueeze(0)
  28. # forward,result是一个tuple,第一个tensor是最后的hidden-state
  29. result = model(torch.tensor(inputs))
  30. # [1, 5, 768]
  31. print(result[0].size())
  32. # [1, 768]
  33. print(result[1].size())
  34. for name, parameter in model.named_parameters():
  35.   # 打印每一层,及每一层的参数
  36.   print(name)
  37.   # 每一层的参数默认都requires_grad=True的,参数是可以学习的
  38.   print(parameter.requires_grad)
  39.   # 如果只想训练第11层transformer的参数的话:
  40.   if '11' in name:
  41.     parameter.requires_grad = True
  42.   else:
  43.     parameter.requires_grad = False
  44. print([p.requires_grad for name, p in model.named_parameters()])
复制代码
添加atten_mask的方法:

此中101是[CLS],102是[SEP],0是[PAD]
  1. >>> a
  2. tensor([[101,  3,  4, 23, 11,  1, 102,  0,  0,  0]])
  3. >>> notpad = a!=0
  4. >>> notpad
  5. tensor([[ True, True, True, True, True, True, True, False, False, False]])
  6. >>> notcls = a!=101
  7. >>> notcls
  8. tensor([[False, True, True, True, True, True, True, True, True, True]])
  9. >>> notsep = a!=102
  10. >>> notsep
  11. tensor([[ True, True, True, True, True, True, False, True, True, True]])
  12. >>> mask = notpad & notcls & notsep
  13. >>> mask
  14. tensor([[False, True, True, True, True, True, False, False, False, False]])
  15. >>>
复制代码
以上为个人履历,盼望能给各人一个参考,也盼望各人多多支持草根技术分享。如有错误或未思量完全的地方,望不吝赐教。

帖子地址: 

回复

使用道具 举报

分享
推广
火星云矿 | 预约S19Pro,享500抵1000!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

草根技术分享(草根吧)是全球知名中文IT技术交流平台,创建于2021年,包含原创博客、精品问答、职业培训、技术社区、资源下载等产品服务,提供原创、优质、完整内容的专业IT技术开发社区。
  • 官方手机版

  • 微信公众号

  • 商务合作