当前位置: 首页 > news >正文

Decoder-only PLM GPT1

生成式预训练transformer(Generative Pre-Training Transformer) GPT

模型架构

GPT-1 使用 12 层 Transformer 解码器(multi-layer Transformer decoder),每层包含 768 维隐状态向量 和 12 个注意力头。总参数量约为 1.17 亿

U是tokens的词嵌入向量,经过投影以后加上位置编码的信息Wp。位置编码方面,使用可学习的位置嵌入(Wp​),而非原始 Transformer 的固定正弦/余弦函数。n层transformer块。最后再做一个投影,用softmax得到概率分布

BERT用的不是stantard language model,它用的是带掩码的,也就是做完形填空。GPT是预测未来,预测未来比完形填空要难

预训练任务

半监督学习 无监督预训练有监督微调

In this paper, we explore a semi-supervised approach for language understanding tasks using a combination of unsupervised pre-training and supervised fine-tuning.

k是超参数,也就是窗口的大小,或者说是输入序列的长度。序列越长,网络看到的东西越多,越倾向于在更长的序列学习上下文关系。最大化条件概率,预测下一个 token

GPT用到的模型是transformer的decoder,预训练模型就是transformer的一个解码器

微调的时候,取最后一层 Transformer 的输出{h^m}_l​,通过线性层 + softmax 预测标签

在微调阶段加入语言建模任务,提升泛化性和收敛速度

参考文章

language_understanding_paper.pdfhttps://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdfhappy-llm/docs/chapter3/第三章 预训练语言模型.md at main · datawhalechina/happy-llmhttps://github.com/datawhalechina/happy-llm/blob/main/docs/chapter3/%E7%AC%AC%E4%B8%89%E7%AB%A0%20%E9%A2%84%E8%AE%AD%E7%BB%83%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B.md#33-decoder-only-plmdatawhale.com happy-llm课程

GPT,GPT-2,GPT-3 论文精读【论文精读】_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1AF411b7xQ/?vd_source=e7424398ef5ae0830b0a55abc35b2197

http://www.lqws.cn/news/546175.html

相关文章:

  • c++异常
  • LINUX625 DNS反向解析
  • gemini-cli 踩坑实录
  • Windows VMWare Centos环境下安装Docker并配置MySql
  • PART 7 视频
  • web布局25
  • iOS打包流程中的安全处理实践:集成IPA混淆保护的自动化方案
  • 消息队列的网络模型详解:IO多路复用、Reactor模型、零拷贝
  • 一键获取服务器硬件脚本:CPU/内存/磁盘/RAID检测脚本详解
  • 电子行业 MES 系统:生产管理的智能引擎
  • Minio的扩容
  • 【docker】docker run参数说明
  • Imbalanced-learn 5. Ensemble of samplers
  • 【水印论文阅读1】将水印规则的定义域从离散的符号空间转移到连续的语义空间
  • 【大模型水印论文阅读2】前缀文本编码、均匀性约束
  • 【linux】程序地址空间
  • 信息抽取领域关键Benchmark方法:分类体系
  • 不同类型的微型导轨精度降低速度有何差异?
  • 专注搜索引擎优化的专业模板平台
  • 【MySQL进阶】服务器配置与管理——系统变量,选项,状态变量
  • CVE-2015-5531源码分析与漏洞复现(Elasticsearch目录遍历漏洞)
  • C语言高级编程
  • 【日志】Unity游戏实习该怎么准备
  • Unity知识点-Renderer常用材质变量
  • 数据结构之顺序表(C语言版本)
  • 【高并发服务器项目测试报告】
  • 大事件项目记录4-用户接口开发-更新用户基本信息
  • 【论文阅读 | CVPR 2025 |MambaVision:一种混合 Mamba-Transformer 视觉骨干网络】
  • Node.js到底是什么
  • Dockerfile——AI教你学Docker