当前位置: 首页 > news >正文

多头注意力机制中全连接函数

在神经网络(特别是 Transformer 中的多头注意力机制)中,​​全连接函数(Fully Connected Layer, FC Layer)​​ 通常指的是一个线性变换层,即 nn.Linear 在 PyTorch 中的实现。它本质上是一个矩阵乘法加上偏置(bias)的操作,用于对输入数据进行线性变换。


​1. 全连接函数(nn.Linear)是什么?​

nn.Linear(d_model, d_model) 表示一个全连接层,它的功能是:

  • ​输入​​:一个形状为 [batch_size, seq_len, d_model] 的张量(在多头注意力中,query/key/value 的输入)。
  • ​操作​​:对输入进行线性变换,即 y = x @ W^T + b,其中:
    • W 是一个形状为 [d_model, d_model] 的权重矩阵。
    • b 是一个形状为 [d_model] 的偏置向量(可选)。
  • ​输出​​:形状仍为 [batch_size, seq_len, d_model] 的张量(因为输入和输
http://www.lqws.cn/news/468217.html

相关文章:

  • 成长笔记——多串口发送与接收
  • 面试题-函数类型的重载是啥意思
  • Qt + C++ 入门2(界面的知识点)
  • 吐槽之前后端合作开发
  • FastAPI框架的10个重要知识点总结
  • Typora文档另存与图片迁移的一种思路
  • VR飞夺泸定桥沉浸式历史再现​
  • [C++] STL数据结构小结
  • Linux - 安装 git(sudo apt-get)
  • WPF Style样式 全局样式资源字典
  • Qt/C++应用:防御性编程完全指南
  • leetcode332.重新安排行程:优先队列与DFS实现欧拉路径的行程规划
  • 【智能体】n8n聊天获取链接后爬虫知乎
  • 108. 将有序数组转换为二叉搜索树
  • Vue.js核心概念与实践指南:从实例绑定到数据代理
  • opencv try-catch
  • BGP路由反射器(RR)实验详解,结尾有详细脚本
  • 在 `setup` 函数中使用 Vuex
  • 自定义 Spring starter 的原理详解
  • 港科ISM选课攻略整理
  • CVE-2024-6387漏洞、CVE-2025-26465漏洞、CVE-2025-26466漏洞 一口气全解决
  • 【nature review】原子尺度上光与物质的相互作用
  • Rabbitmq的五种消息类型介绍,以及集成springboot的使用
  • 小程序右上角○关闭事件
  • c++中 Lambda表达式
  • Ubuntu崩溃修复大赛的技术文章大纲
  • ssssssssss
  • Solidity内部合约创建全解析:解锁Web3开发新姿势
  • 5.3 VSCode使用FFmpeg库
  • CSS 制作学成在线网页