Decoder-only PLM GPT1
生成式预训练transformer(Generative Pre-Training Transformer) GPT
模型架构
GPT-1 使用 12 层 Transformer 解码器(multi-layer Transformer decoder),每层包含 768 维隐状态向量 和 12 个注意力头。总参数量约为 1.17 亿
U是tokens的词嵌入向量,经过投影以后加上位置编码的信息Wp。位置编码方面,使用可学习的位置嵌入(Wp),而非原始 Transformer 的固定正弦/余弦函数。n层transformer块。最后再做一个投影,用softmax得到概率分布
BERT用的不是stantard language model,它用的是带掩码的,也就是做完形填空。GPT是预测未来,预测未来比完形填空要难
预训练任务
半监督学习 无监督预训练 和 有监督微调
In this paper, we explore a semi-supervised approach for language understanding tasks using a combination of unsupervised pre-training and supervised fine-tuning.
k是超参数,也就是窗口的大小,或者说是输入序列的长度。序列越长,网络看到的东西越多,越倾向于在更长的序列学习上下文关系。最大化条件概率,预测下一个 token
GPT用到的模型是transformer的decoder,预训练模型就是transformer的一个解码器
微调的时候,取最后一层 Transformer 的输出,通过线性层 + softmax 预测标签
在微调阶段加入语言建模任务,提升泛化性和收敛速度
参考文章
language_understanding_paper.pdfhttps://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdfhappy-llm/docs/chapter3/第三章 预训练语言模型.md at main · datawhalechina/happy-llm
https://github.com/datawhalechina/happy-llm/blob/main/docs/chapter3/%E7%AC%AC%E4%B8%89%E7%AB%A0%20%E9%A2%84%E8%AE%AD%E7%BB%83%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B.md#33-decoder-only-plmdatawhale.com happy-llm课程
GPT,GPT-2,GPT-3 论文精读【论文精读】_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1AF411b7xQ/?vd_source=e7424398ef5ae0830b0a55abc35b2197