当前位置：首页 > news >正文

【大模型推理】splitfuse

news 2025/7/22 9:04:54

https://www.hiascend.com/doc_center/source/zh/mindie/10RC3/mindieservice/servicedev/mindie_service0129.html
调整 decode 批大小 时，通常存在以下规律：

批大小与吞吐/时延的关系：
在资源未饱和前，增大 decode 批大小会提升吞吐量（因计算资源利用率提高），但会导致单次 decode 的时延增加（需处理更多 token）。例如，当批大小较小时，吞吐量受限于计算效率；而批大小足够大时，吞吐量接近硬件极限，但时延显著上升。
PD 分离场景的优势：
在 Prefill-Decode 分离式架构 中，decode 阶段可独立设置更大的批大小（因无需与 prefill 阶段共享 GPU 资源），从而更充分地利用显存带宽和计算能力。
实际运行的限制因素：
- 发送频率：若请求到达速率过高，可能导致批处理数据堆积，进而增加实际运行的批大小和时延。
- P 节点处理速率：若 P 节点（负责 decode 的计算单元）处理速度不足，即使设置大批次，也可能因资源瓶颈无法充分利用。
优化建议：
- 在满足时延约束的前提下，逐步增大批大小以逼近吞吐上限。
- 若首 Token 时延（prefill 阶段）成为瓶颈，需结合 Chunked Prefill 技术拆分输入，平衡 prefill 和 decode 的负载。

综上，批大小的调整需结合硬件特性、请求负载及服务等级目标（SLO）动态权衡。

http://www.lqws.cn/news/148195.html

相关文章：

第四十五天打卡

Flutter嵌入式开发实战 ——从树莓派到智能家居控制面板，打造工业级交互终端

【websocket】安装与使用

将 Jupyter Notebook 的默认存储路径从 C 盘迁移到 D 盘，可以通过以下步骤实现：

[10-2]MPU6050简介江协科技学习笔记（22个知识点）

Next.js 中间件鉴权绕过漏洞 CVE-2025-29927

NLP学习路线图（二十五）：注意力机制

Kafka 安装教程（支持 Windows / Linux / macOS）

跑通 TrackNet-Badminton-Tracking-tensorflow2 项目全记录

数据集-目标检测系列- 猴子数据集 monkey ＞＞ DataBall

Python----目标检测（yolov5-7.0安装及训练细胞）

Python[数据结构及算法 --- 栈]

《Pytorch深度学习实践》ch8-多分类

Python基于蒙特卡罗方法实现投资组合风险管理的VaR与ES模型项目实战

Spring Boot 启动流程及配置类解析原理

ZooKeeper 安装教程（Windows + Linux 双平台）

React 样式方案与状态方案初探

【JavaEE】Spring Boot项目创建

Neko虚拟浏览器远程协作方案：Docker+内网穿透技术部署实践

【时时三省】(C语言基础)多维数组名作函数参数

Vim 设置搜索高亮底色

Flink 高可用集群部署指南

linux 故障处置通用流程-36计-14-27

Windows 10 IoT 系统深度定制指南：从环境搭建到工业部署

Web 架构相关文章目录（持续更新中）

Monorepo架构: Nx Cloud 扩展能力与缓存加速

【深尚想】OPA855QDSGRQ1运算放大器IC德州仪器TI汽车级高速8GHz增益带宽的全面解析

AI编程助手入门指南：GitHub Copilot、Cursor与Claude的安装与基础使用

【Zephyr 系列 10】实战项目：打造一个蓝牙传感器终端 + 网关系统（完整架构与全栈实现）

20250605使用boot-repair来恢复WIN10和ubuntu22.04.6双系统的启动