当前位置: 首页 > news >正文

14.AI搭建preparationのBERT预训练模型进行文本分类

一、回顾:

  1. 对深度学习框架Python2.0进行自然语言处理有了一个基础性的认识
  2. 注意力模型编码器(encoder_layer,用于分类的全连接层dense_layer),抛弃了传统的循环神经网络和卷积神经网络,通过注意力模型将任意位置的两个单词的距离转换成1
  3. 编码器层和全连接层分开,利用训练好的模型作为编码器独立使用,并且根据具体项目接上不同的尾端,以便在运训练好的编码器上通过微调进行训

二、BERT简介: 

Bidirectional  Encoder Representation From transformer,替代了 word embedding 的新型文字编码方案,BERT 实际有多个encoder block叠加而成,通过使用注意力模型的多个层次来获得文本的特征提取

三、基本架构与应用

1.MLM:随机从输入语料中这闭掉一些单词,然后通过上下文预测该单词

2.NSP:判断句子B是否句子A的上下文

四、使用HUGGING FACE获取BERT与训练模型

1.安装

pip install transformers

2.引用 

import torch
from transformers import BertTokenizer
from transformers import BertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
pretrain_model = BertModel.from_pretrained("bert-base-chinese")

3. 运用代码_获取对应文本的TOKEN

3.1('bert-base-chinese'模型)

import torch
from transformers import BertTokenizer
from transformers import BertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
pretrain_model = BertModel.from_pretrained("bert-base-chinese")tokens = tokenizer.encode("床前明月光",max_length=12,padding="max_length",truncation=True)
print(tokens)
print("----------------------")
print(tokenizer("床前明月光",max_length=12,padding="max_length",truncation=True))
print("----------------------")
tokens = torch.tensor([tokens]).int()
print(pretrain_model(tokens))

 3.2("uer/gpt2-chinese-ancient"模型)

import torch
from transformers import BertTokenizer,GPT2Model
model_name = "uer/gpt2-chinese-ancient"
tokenizer = BertTokenizer.from_pretrained(model_name)
pretrain_model = GPT2Model.from_pretrained(model_name)tokens = tokenizer.encode("春眠不觉晓",max_length=12,padding="max_length",truncation=True)
print(tokens)
print("----------------------")
print(tokenizer("春眠不觉晓",max_length=12,padding="max_length",truncation=True))
print("----------------------")tokens = torch.tensor([tokens]).int()
print(pretrain_model(tokens))

4.进行文本分类

数据准备>数据处理>模型设计>模型训练

get_data:

model:

 train:

 finally,随着训练,准确率会越来越高

http://www.lqws.cn/news/147529.html

相关文章:

  • LeetCode 1356.根据数字二进制下1的数目排序
  • Linux(13)——Ext系列⽂件系统
  • 【缺陷】温度对半导体缺陷电荷态跃迁能级的影响
  • PostgreSQL 技术峰会,为您打造深度交流优质平台
  • [10-1]I2C通信协议 江协科技学习笔记(17个知识点)
  • MATLAB读取文件内容:Excel、CSV和TXT文件解析
  • 「深度拆解」Spring Boot如何用DeepSeek重构MCP通信层?从线程模型到分布式推理的架构进化
  • 基于LocalAI与cpolar技术协同的本地化AI模型部署与远程访问方案解析
  • 阿里云域名怎么绑定
  • EasyRTC音视频实时通话助力新一代WebP2P视频物联网应用解决方案
  • 智慧赋能:移动充电桩的能源供给革命与便捷服务升级
  • Postgresql字符串操作函数
  • Python Excel 文件处理:openpyxl 与 pandas 库完全指南
  • WebRTC中的几个Rtp*Sender
  • 阿里云事件总线 EventBridge 正式商业化,构建智能化时代的企业级云上事件枢纽
  • 基于RK3568的多网多串电力能源1U机箱解决方案,支持B码,4G等
  • 【计算机网络】NAT、代理服务器、内网穿透、内网打洞、局域网中交换机
  • 计算机网络领域所有CCF-A/B/C类期刊汇总!
  • 如何选择专业数据可视化开发工具?为您拆解捷码全功能和落地指南!
  • 企业管理中,商业智能BI主要做哪些事情?
  • 解决神经网络输出尺寸过小的实战方案
  • LLaMA.cpp 文本生成惩罚机制详解:从原理到实践的完整指南
  • LLaMA-Factory和python版本的兼容性问题解决
  • 任务调度器-关于中心化调度 vs 去中心化调度的核心区别
  • Authpf(OpenBSD)认证防火墙到ssh连接到SSH端口转发技术栈 与渗透网络安全的关联 (RED Team Technique )
  • Spring之事务管理方式
  • 网络安全全景解析
  • 【联网玩具】EN 18031欧盟网络安全认证
  • 解读《网络安全法》最新修订,把握网络安全新趋势
  • 【论文解读】MemGPT: 迈向为操作系统的LLM