当前位置: 首页 > news >正文

From Tranformer to Decoder ONLY

Transformer

为了达到深入浅出的目的,学习之前明确以下几个目标:

  • Transformer 是做什么的
  • Transformer 的输入是什么
  • Transformer 的输出是什么
  • Transformer 是什么,长什么样
  • Transformer 还能怎么优化

在这里插入图片描述
Transformer 模型整体结构分为两个主要部分:

  • Encoder(编码器)部分:负责处理输入,提取表示。
  • Decoder(解码器)部分:接收编码器输出并逐步生成目标输出(用于翻译等任务)。
  • 每个部分由多个结构相同的子层(Layer)堆叠而成。
输入 → Encoder(N层) → 中间表示 → Decoder(N层) → 输出

Add & LayerNorm(残差连接和层归一化)

  • 残差连接:帮助缓解深层网络训练中的梯度消失问题。
  • LayerNorm:标准化激活值,提升训练稳定性和速度。
  • 在每个子层(如注意力层和前馈层)后面都加上这一步骤。

编码器

输入表示(Input Embedding + Positional Encoding)

功能:将离散的输入序列(如词或Token)转换为连续的向量,并加入位置信息。

📌 包括两部分:

  • Input Embedding:将输入 token(如词或子词)映射为固定维度的向量(类似 word2vec、BERT embedding)。
    Positional Encoding(位置编码):为克服 Transformer 不具备顺序感,引入每个位置的向量。最初用的是正弦/余弦函数编码位置。

多头自注意力机制(Multi-Head Self-Attention)

功能:
每个位置可以根据整个输入序列中的其它位置信息动态调整其表示。多头机制增强模型表示能力。

📌 过程:
对每个输入向量 𝑥

多头注意力:

将 Q, K, V 分为多个子空间(多个头),每个头独立计算注意力,再拼接合并。

多头注意力的优势在于模型能关注多个不同的语义子空间。

前馈神经网络( Feed Forward Network)

功能:对每个位置单独地进行非线性变换(增强特征表达能力)。

可理解为对每个 token 表示的“激活变换”。

Decoder

http://www.lqws.cn/news/504937.html

相关文章:

  • 云原生周刊:Argo CD v3.1 正式发布
  • PyEcharts教程(009):PyEcharts绘制水球图
  • 【HTTP】取消已发送的请求
  • Leaflet面试题200道
  • C++修炼:智能指针
  • 自然语言处理入门
  • centos7 rpm 包升级openssh至10.0版本
  • 解码成都芯谷金融中心文化科技产业园:文化+科技双轮驱动
  • 枫清科技受邀参加2025数据智能大会
  • 如何通过nvm切换本地node环境详情教程(已装过node.js更改成nvm)
  • Vue3+el-table-v2虚拟表格大数据量多选功能详细教程
  • 字节跳动开源了一款 Deep Research 项目
  • YOLO、VOC、COCO数据集格式
  • C++中的数学计算库Eigen
  • LT8311EX一款适用于笔记本电脑,扩展坞的usb2.0高速运转芯片,成对使用,延伸长度达120米
  • EXCEL中实用的一些手段——BOM汇总查询
  • 【Datawhale组队学习202506】YOLO-Master task04 YOLO典型网络模块
  • 桥头守望者
  • 《前端资源守卫者:SRI安全防护全解析》
  • LangChain4j之会话功能AiServices工具类的使用(系列二)
  • 【WCF】单例模式的线程安全缓存管理器实现,给你的WebApi加入缓存吧
  • 【DeepSeek实战】3、Ollama实战指南:LobeChat+多网关架构打造高可用大模型集群
  • 数据赋能(319)——安全与合规——数据安全可控
  • 吉林大学软件工程期末复习整理
  • 基于大模型预测的化脓性阑尾炎诊疗方案研究报告
  • MSTP技术解析:提升网络负载均衡
  • 解决移动端播放MP4黑屏问题,PC端正常的问题
  • 华为云对象存储OBS 支持安卓/iOS/鸿蒙UTS组件
  • Android15启动icon界面的背景图颜色
  • contOS7安装docker命令及yum源更换为国内源