当前位置: 首页 > news >正文

NVIDIA GPU架构学习笔记

https://www.nvidia.cn/technologies/

https://zhuanlan.zhihu.com/p/659535223

Ada Lovelace

https://images.nvidia.cn/aem-dam/Solutions/geforce/ada/nvidia-ada-gpu-architecture.pdf

AD102 是 Ada GPU 系列的旗舰产品,并率先搭载 GeForce RTX 4090 显卡。NVIDIA 也将很快推出后续的 Ada GPU,包括 AD103 和 AD104,它们采用与 AD102 相同的基本架构。
完整的 AD102 GPU 包括 12 个图形处理集群 (GPC)、72 个纹理处理集群 (TPC)、144 个流多处理器 (SM) 以及带有 12 个 32 位内存控制器的 384 位内存接口。AD102 GPU 还包含 288 个 FP64 核心(每个 SM 2 个)。FP64 的 TFLOP 速率是 FP32 运算的 1/64。FP64 核心数量较少是为了确保所有包含 FP64 代码的程序(包括 FP64 Tensor Core 代码)都能正常运行。

GPC 是所有 AD10x Ada 系列 GPU 中占主导地位的高级硬件模块,所有关键图形处理单元都位于 GPC 中。每个 GPC 包含一个专用的光栅引擎、两个光栅操作 (ROP) 分区(每个分区包含八个独立的 ROP 单元)以及六个 TPC。

每个 TPC 包含一个 PolyMorph 引擎和两个 SM。AD10x GPU 中的每个 SM 包含 128 个 CUDA 核心、一个 Ada 第三代 RT 核心、四个 Ada 第四代 Tensor 核心、四个纹理单元、一个 256 KB 的寄存器文件和 128 KB 的 L1/共享内存,可根据图形或计算工作负载的需求配置不同的内存大小。

AD10x SM 分为四个处理块(或分区),每个分区包含一个 64 KB 的寄存器文件、一个 L0 指令缓存、一个 Warp 调度器、一个调度单元、16 个专用于处理 FP32 运算的 CUDA Core(每时钟周期最多 16 次 FP32 运算)、16 个可处理 FP32 或 INT32 运算的 CUDA Core(每时钟周期 16 次 FP32 运算或 16 次 INT32 运算)、一个 Ada 第四代 Tensor Core、四个加载/存储单元以及一个执行超越指令和图形插值指令的特殊功能单元 (SFU)。

http://www.lqws.cn/news/506269.html

相关文章:

  • SpringBoot项目快速开发框架JeecgBoot——项目简介及系统架构!
  • WPF CommunityToolkit.Mvvm 信使 (ObservableRecipient)
  • EasyExcel单元格内换行,合并单元格
  • 记录一下小程序城市索引栏开发经历
  • 鸿蒙开发深入解析:Service Ability(后台任务)全面指南
  • Spring Boot 返回错误文件的正确性分析与优化
  • httpbin.org是什么,有什么作用
  • 验证 TCP 连接在异常情况下的断开机制之进程(客户端)被 kill 掉
  • ABP VNext + BFF(Backend for Frontend)模式:Angular/React 专用聚合层
  • 【软考高级系统架构论文】论单元测试方法及应用
  • 技术QA | ADC/DAC芯片测试研讨会笔记请查收!
  • uni-app项目实战笔记24--uniapp实现图片保存到手机相册
  • 【matlab定位代码】基于AOA和TDOA混合的定位方法,背景为三维空间,自适应锚点数量,订阅专栏后可直接查看源代码
  • 记录写一个markdown-it插件来转换视频
  • HTML基础知识
  • Flask(五) 表单处理 request.form
  • day41/60
  • 51c嵌入式~电路~合集8
  • 集群聊天服务器---muduo库使用(2)
  • Kafka如何保证消息可靠?
  • 应用交付厂商F5发布全新应用交付与安全平台,全面释放AI潜能
  • Kubernetes 从入门到精通-StatefulSet控制器
  • vue 路由学习
  • Lost connection to Mysql server at ‘reading initial communication packet‘如何解决?
  • 09-Python函数详解
  • Anaconda虚拟环境安装torch-gpu
  • Linux操作系统Nginx Web服务
  • C++的单例模式
  • 【PDF】Java itextpdf 生成PDF时添加自定义页脚
  • 【android bluetooth 协议分析 05】【蓝牙连接详解2】【acl_interface_t介绍】