【大模型推理】splitfuse
https://www.hiascend.com/doc_center/source/zh/mindie/10RC3/mindieservice/servicedev/mindie_service0129.html
调整 decode 批大小 时,通常存在以下规律:
-
批大小与吞吐/时延的关系:
在资源未饱和前,增大 decode 批大小会提升吞吐量(因计算资源利用率提高),但会导致单次 decode 的时延增加(需处理更多 token)。例如,当批大小较小时,吞吐量受限于计算效率;而批大小足够大时,吞吐量接近硬件极限,但时延显著上升 。 -
PD 分离场景的优势:
在 Prefill-Decode 分离式架构 中,decode 阶段可独立设置更大的批大小(因无需与 prefill 阶段共享 GPU 资源),从而更充分地利用显存带宽和计算能力 。 -
实际运行的限制因素:
- 发送频率:若请求到达速率过高,可能导致批处理数据堆积,进而增加实际运行的批大小和时延 。
- P 节点处理速率:若 P 节点(负责 decode 的计算单元)处理速度不足,即使设置大批次,也可能因资源瓶颈无法充分利用 。
-
优化建议:
- 在满足时延约束的前提下,逐步增大批大小以逼近吞吐上限 。
- 若首 Token 时延(prefill 阶段)成为瓶颈,需结合 Chunked Prefill 技术拆分输入,平衡 prefill 和 decode 的负载 。
综上,批大小的调整需结合硬件特性、请求负载及服务等级目标(SLO)动态权衡 。