当前位置：首页 > news >正文

Decoder-only PLM GPT1

news 2025/6/28 11:50:32

生成式预训练transformer（Generative Pre-Training Transformer） GPT

模型架构

GPT-1 使用 12 层 Transformer 解码器（multi-layer Transformer decoder），每层包含 768 维隐状态向量 和 12 个注意力头。总参数量约为 1.17 亿

U是tokens的词嵌入向量，经过投影以后加上位置编码的信息Wp。位置编码方面，使用可学习的位置嵌入（Wp），而非原始 Transformer 的固定正弦/余弦函数。n层transformer块。最后再做一个投影，用softmax得到概率分布

BERT用的不是stantard language model，它用的是带掩码的，也就是做完形填空。GPT是预测未来，预测未来比完形填空要难

预训练任务

半监督学习 无监督预训练 和 有监督微调

In this paper, we explore a semi-supervised approach for language understanding tasks using a combination of unsupervised pre-training and supervised fine-tuning.

k是超参数，也就是窗口的大小，或者说是输入序列的长度。序列越长，网络看到的东西越多，越倾向于在更长的序列学习上下文关系。最大化条件概率，预测下一个 token

GPT用到的模型是transformer的decoder，预训练模型就是transformer的一个解码器

微调的时候，取最后一层 Transformer 的输出 ${h^m}_l$ ，通过线性层 + softmax 预测标签

在微调阶段加入语言建模任务，提升泛化性和收敛速度

参考文章

language_understanding_paper.pdfhttps://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdfhappy-llm/docs/chapter3/第三章预训练语言模型.md at main · datawhalechina/happy-llmhttps://github.com/datawhalechina/happy-llm/blob/main/docs/chapter3/%E7%AC%AC%E4%B8%89%E7%AB%A0%20%E9%A2%84%E8%AE%AD%E7%BB%83%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B.md#33-decoder-only-plmdatawhale.com happy-llm课程