当前位置：首页 > news >正文

From Tranformer to Decoder ONLY

news 2025/6/27 6:23:32

Transformer

为了达到深入浅出的目的，学习之前明确以下几个目标：

Transformer 是做什么的
Transformer 的输入是什么
Transformer 的输出是什么
Transformer 是什么，长什么样
Transformer 还能怎么优化

在这里插入图片描述
Transformer 模型整体结构分为两个主要部分：

Encoder（编码器）部分：负责处理输入，提取表示。
Decoder（解码器）部分：接收编码器输出并逐步生成目标输出（用于翻译等任务）。
每个部分由多个结构相同的子层（Layer）堆叠而成。

输入 → Encoder（N层） → 中间表示 → Decoder（N层） → 输出

Add & LayerNorm（残差连接和层归一化）

残差连接：帮助缓解深层网络训练中的梯度消失问题。
LayerNorm：标准化激活值，提升训练稳定性和速度。
在每个子层（如注意力层和前馈层）后面都加上这一步骤。

编码器

输入表示（Input Embedding + Positional Encoding）

功能：将离散的输入序列（如词或Token）转换为连续的向量，并加入位置信息。

📌 包括两部分：

Input Embedding：将输入 token（如词或子词）映射为固定维度的向量（类似 word2vec、BERT embedding）。
Positional Encoding（位置编码）：为克服 Transformer 不具备顺序感，引入每个位置的向量。最初用的是正弦/余弦函数编码位置。

多头自注意力机制（Multi-Head Self-Attention）

功能：
每个位置可以根据整个输入序列中的其它位置信息动态调整其表示。多头机制增强模型表示能力。

📌 过程：
对每个输入向量 𝑥

多头注意力：

将 Q, K, V 分为多个子空间（多个头），每个头独立计算注意力，再拼接合并。

多头注意力的优势在于模型能关注多个不同的语义子空间。

前馈神经网络（ Feed Forward Network）

功能：对每个位置单独地进行非线性变换（增强特征表达能力）。

可理解为对每个 token 表示的“激活变换”。

Decoder

查看全文

http://www.lqws.cn/news/504937.html

云原生周刊：Argo CD v3.1 正式发布

PyEcharts教程（009）：PyEcharts绘制水球图

centos7 rpm 包升级openssh至10.0版本

解码成都芯谷金融中心文化科技产业园：文化+科技双轮驱动

枫清科技受邀参加2025数据智能大会

如何通过nvm切换本地node环境详情教程（已装过node.js更改成nvm）

Vue3+el-table-v2虚拟表格大数据量多选功能详细教程

字节跳动开源了一款 Deep Research 项目

YOLO、VOC、COCO数据集格式

C++中的数学计算库Eigen

LT8311EX一款适用于笔记本电脑，扩展坞的usb2.0高速运转芯片，成对使用,延伸长度达120米

EXCEL中实用的一些手段——BOM汇总查询

【Datawhale组队学习202506】YOLO-Master task04 YOLO典型网络模块

桥头守望者

《前端资源守卫者：SRI安全防护全解析》

LangChain4j之会话功能AiServices工具类的使用(系列二)

【WCF】单例模式的线程安全缓存管理器实现，给你的WebApi加入缓存吧

【DeepSeek实战】3、Ollama实战指南：LobeChat+多网关架构打造高可用大模型集群

数据赋能（319）——安全与合规——数据安全可控

吉林大学软件工程期末复习整理

基于大模型预测的化脓性阑尾炎诊疗方案研究报告

MSTP技术解析：提升网络负载均衡

解决移动端播放MP4黑屏问题，PC端正常的问题

华为云对象存储OBS 支持安卓/iOS/鸿蒙UTS组件

Android15启动icon界面的背景图颜色

contOS7安装docker命令及yum源更换为国内源