当前位置：首页 > news >正文

多头注意力机制中全连接函数

news 2025/7/12 20:31:42

在神经网络（特别是 Transformer 中的多头注意力机制）中，全连接函数（Fully Connected Layer, FC Layer） 通常指的是一个线性变换层，即 nn.Linear 在 PyTorch 中的实现。它本质上是一个矩阵乘法加上偏置（bias）的操作，用于对输入数据进行线性变换。

1. 全连接函数（`nn.Linear`）是什么？

nn.Linear(d_model, d_model) 表示一个全连接层，它的功能是：

输入：一个形状为 [batch_size, seq_len, d_model] 的张量（在多头注意力中，query/key/value 的输入）。
操作：对输入进行线性变换，即 y = x @ W^T + b，其中：
- W 是一个形状为 [d_model, d_model] 的权重矩阵。
- b 是一个形状为 [d_model] 的偏置向量（可选）。
输出：形状仍为 [batch_size, seq_len, d_model] 的张量（因为输入和输

http://www.lqws.cn/news/468217.html

相关文章：

成长笔记——多串口发送与接收

面试题-函数类型的重载是啥意思

Qt + C++ 入门2(界面的知识点)

吐槽之前后端合作开发

FastAPI框架的10个重要知识点总结

Typora文档另存与图片迁移的一种思路

VR飞夺泸定桥沉浸式历史再现

[C++] STL数据结构小结

Linux - 安装 git（sudo apt-get）

WPF Style样式全局样式资源字典

Qt/C++应用：防御性编程完全指南

leetcode332.重新安排行程：优先队列与DFS实现欧拉路径的行程规划

【智能体】n8n聊天获取链接后爬虫知乎

108. 将有序数组转换为二叉搜索树

Vue.js核心概念与实践指南：从实例绑定到数据代理

opencv try-catch

BGP路由反射器(RR)实验详解，结尾有详细脚本

在 `setup` 函数中使用 Vuex

自定义 Spring starter 的原理详解

港科ISM选课攻略整理

CVE-2024-6387漏洞、CVE-2025-26465漏洞、CVE-2025-26466漏洞一口气全解决

【nature review】原子尺度上光与物质的相互作用

Rabbitmq的五种消息类型介绍，以及集成springboot的使用

小程序右上角○关闭事件

c++中 Lambda表达式

Ubuntu崩溃修复大赛的技术文章大纲

Solidity内部合约创建全解析：解锁Web3开发新姿势

5.3 VSCode使用FFmpeg库

CSS 制作学成在线网页