当前位置: 首页 > news >正文

NVIDIA开源Fast-dLLM!解析分块KV缓存与置信度感知并行解码技术

Talk主页:http://qingkeai.online/
文章原文:https://mp.weixin.qq.com/s/P0PIAMo1GVYH4mdWdIde_Q

Fast-dLLM 是NVIDIA联合香港大学、MIT等机构推出的扩散大语言模型推理加速方案。

在这里插入图片描述

论文:Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding
链接:http://arxiv.org/abs/2505.22618
代码:https://github.com/NVlabs/Fast-dLLM
项目主页:https://nvlabs.github.io/Fast-dLLM

其通过分块KV缓存与置信度感知并行解码技术,在无需重新训练模型的前提下,实现了推理速度的突破性提升——在LLaDA模型1024 token长文本生成任务中,端到端推理速度狂飙27.6倍,整体耗时从266秒压缩至12秒,且主流基准测试准确率损失控制在2%以内。

该方案兼具零训练成本与多模型兼容性,为扩散模型在长文本生成、实时交互等场景的落地提供了高效可行的优化路径。

港大&NV&MIT开源Fast-dLLM:无需重新训练模型,直接提升扩散语言模型的推理效率

6月24日晚8点,青稞Talk 第57期,香港大学MMLab博士生吴成岳,将直播分享《Fast-dLLM:无需重训的扩散大语言模型推理加速》。

分享嘉宾

吴成岳,香港大学MMLab博士生,导师为罗平老师和王文平老师,研究方向为多模态大模型,发表高水平学术论文十余篇,一作发表包括ICML,ACL,CVPR等业内顶级会议,2项发明专利申请中,开源项目GitHub获stars 18k+,谷歌学术引用723次,获得国家奖学金,香港政府奖学金,香港大学校长奖学金以及黑龙江省优秀毕业生,哈尔滨工业大学优秀毕业论文等荣誉,担任TPAMI,CVPR等多个顶刊顶会审稿人。

主题提纲

Fast-dLLM:无需重训的扩散大语言模型推理加速

1、扩散大语言模型推理难点
2、Fast-dLLM 核心技术解析:
- 分块 KV 缓存
- 置信度感知并行解码
3、在 LLaDA、Dream 模型上的性能验证及应用实践

直播时间

6月24日20:00 - 21:00

http://www.lqws.cn/news/456985.html

相关文章:

  • Flowise工作流引擎的本地部署与远程访问实践
  • cili3d笔记20 正交投影3d重建笔记1
  • http2与websocket关系
  • Seq2seq机器翻译
  • window显示驱动开发—使用状态刷新回调函数
  • ”三读四隔“:图解数据库三种读问题与四种事务隔离级别
  • 华为和H3C服务器配置远控管理地址
  • [2-02-02].第59节:功能函数 - 函数基础
  • 【案例】性能优化在持续集成与持续交付中的应用
  • Cargo:Rust包管理器的所有命令详解
  • Mac电脑 磁盘检测和监控工具 DriveDx
  • python+uniapp基于微信小程序的高校二手商品交易系统
  • 【Dify学习笔记:】本地部署RagFlow适配Dify
  • React Native +Taro创建项目,开发Android
  • IP 风险画像网络违规行为识别
  • 聊聊spring.mvc.servlet.load-on-startup
  • 浏览器调试核心技术指南:从基础到高级的完全掌握
  • el-table复杂表头(多级表头行或列的合并)
  • Llama 4 模型卡及提示格式介绍
  • 数据融合平台是什么?如何搭建数据融合平台?
  • windows清理系统备份文件夹WinSxS文件夹清理
  • 深入理解JVM执行引擎
  • FramePack 安装指南(中文)
  • 层级冲突的处理,弹窗生成遮罩问题
  • Xinference部署教程
  • 【CS创世SD NAND征文】STM32户外无线终端管理设备的数据存储方案
  • SelectDB 在 AWS Graviton ARM 架构下相比 x86 实现 36% 性价比提升
  • 代码随想录day10栈和队列1
  • Java 通过QQ邮箱发送邮件(包括附件) 直接可以使用
  • Postman接口测试完整版