当前位置: 首页 > news >正文

【大模型推理】splitfuse

https://www.hiascend.com/doc_center/source/zh/mindie/10RC3/mindieservice/servicedev/mindie_service0129.html
调整 decode 批大小 时,通常存在以下规律:

  1. 批大小与吞吐/时延的关系
    在资源未饱和前,增大 decode 批大小会提升吞吐量(因计算资源利用率提高),但会导致单次 decode 的时延增加(需处理更多 token)。例如,当批大小较小时,吞吐量受限于计算效率;而批大小足够大时,吞吐量接近硬件极限,但时延显著上升 。

  2. PD 分离场景的优势
    Prefill-Decode 分离式架构 中,decode 阶段可独立设置更大的批大小(因无需与 prefill 阶段共享 GPU 资源),从而更充分地利用显存带宽和计算能力 。

  3. 实际运行的限制因素

    • 发送频率:若请求到达速率过高,可能导致批处理数据堆积,进而增加实际运行的批大小和时延 。
    • P 节点处理速率:若 P 节点(负责 decode 的计算单元)处理速度不足,即使设置大批次,也可能因资源瓶颈无法充分利用 。
  4. 优化建议

    • 在满足时延约束的前提下,逐步增大批大小以逼近吞吐上限 。
    • 若首 Token 时延(prefill 阶段)成为瓶颈,需结合 Chunked Prefill 技术拆分输入,平衡 prefill 和 decode 的负载 。

综上,批大小的调整需结合硬件特性、请求负载及服务等级目标(SLO)动态权衡 。

http://www.lqws.cn/news/148195.html

相关文章:

  • 第四十五天打卡
  • Flutter嵌入式开发实战 ——从树莓派到智能家居控制面板,打造工业级交互终端
  • 【websocket】安装与使用
  • 将 Jupyter Notebook 的默认存储路径从 C 盘迁移到 D 盘,可以通过以下步骤实现:
  • [10-2]MPU6050简介 江协科技学习笔记(22个知识点)
  • Next.js 中间件鉴权绕过漏洞 CVE-2025-29927
  • NLP学习路线图(二十五):注意力机制
  • Kafka 安装教程(支持 Windows / Linux / macOS)
  • 跑通 TrackNet-Badminton-Tracking-tensorflow2 项目全记录
  • 数据集-目标检测系列- 猴子 数据集 monkey >> DataBall
  • Python----目标检测(yolov5-7.0安装及训练细胞)
  • Python[数据结构及算法 --- 栈]
  • 《Pytorch深度学习实践》ch8-多分类
  • Python基于蒙特卡罗方法实现投资组合风险管理的VaR与ES模型项目实战
  • Spring Boot 启动流程及配置类解析原理
  • ZooKeeper 安装教程(Windows + Linux 双平台)
  • React 样式方案与状态方案初探
  • 【JavaEE】Spring Boot项目创建
  • Neko虚拟浏览器远程协作方案:Docker+内网穿透技术部署实践
  • 【时时三省】(C语言基础)多维数组名作函数参数
  • Vim 设置搜索高亮底色
  • Flink 高可用集群部署指南
  • linux 故障处置通用流程-36计-14-27
  • Windows 10 IoT 系统深度定制指南:从环境搭建到工业部署
  • Web 架构相关文章目录(持续更新中)
  • Monorepo架构: Nx Cloud 扩展能力与缓存加速
  • 【深尚想】OPA855QDSGRQ1运算放大器IC德州仪器TI汽车级高速8GHz增益带宽的全面解析
  • AI编程助手入门指南:GitHub Copilot、Cursor与Claude的安装与基础使用
  • 【Zephyr 系列 10】实战项目:打造一个蓝牙传感器终端 + 网关系统(完整架构与全栈实现)
  • 20250605使用boot-repair来恢复WIN10和ubuntu22.04.6双系统的启动