当前位置：首页 > news >正文

论文略读：OmniKV: Dynamic Context Selection for Efficient Long-Context LLMs

news 2025/6/28 0:54:51

2025 ICLR

核心思想：在单个生成步骤内，被模型高度关注的（注意力得分高的）Token 集合，在不同的 Transformer 层之间表现出高度的相似性
论文提出OmniKV
- 仅选择少数几个层（称为 “Filter 层”）来计算完整的注意力分数并识别重要的 Token 子集
- 其他大多数层则直接复用（共享）来自最近 Filter 层识别出的 Token 索引。
- 在计算注意力时，仅加载并计算这个稀疏子集 KV Cache，从而大幅减少计算量和数据传输量
- - Prefill 阶段
    - 对输入的 Prompt 进行编码，生成完整的 KV Cache
    - 将大部分非 Filter 层的 KV Cache 卸载（offload）到 CPU 内存
    - 仅保留少量 Filter 层的 KV Cache 在 GPU 上
  - Decode 阶段（生成阶段）
    - Filter 层：计算完整注意力，并使用 Context Selector 动态选择当前步骤最重要的 Top-K 个 Token 索引
    - 非 Filter 层：直接从 CPU 加载（load）由前一个 Filter 层选择出的 Token 索引对应的 KV Cache 子集，并在该子集上执行稀疏注意力计算

http://www.lqws.cn/news/209305.html

相关文章：

QT进阶之路：带命名空间的自定义控件在Qt设计器与qss中的使用技巧

多线程中的泛型应用深度解析：类型安全与并发编程的完美融合

【Unity】模型

c++ 单例模式

二.单例模式‌

nonlocal 与global关键字

vue3 创建图标按钮

rl_sar实现sim2real的整体思路

Jetpack Compose瀑布流实现方案

设计模式-观察着模式

行为型设计模式之Interpreter（解释器）

C++常用的企业级日志库

DeepSeek-R1-0528：开源推理模型的革新与突破

在Ubuntu22.04 系统中安装Docker详细教程

低代码平台前端页面表格字段绑定与后端数据传输交互主要有哪些方式？华为云Astro在这方面有哪些方式？

银行卡二三四要素实名接口如何用PHP实现调用？

Linux操作系统故障应急场景及对应排查方法

Linux 系统中的算法技巧与性能优化

code-server安装使用，并配置frp反射域名访问

【PCIe总线】 -- PCI、PCIe相关实现

Java高级 | 【实验七】Springboot 过滤器和拦截器

WPF 播放器（AudioPlayer 2025）

vue · 插槽 | $slots：访问所有命名插槽内容 | 插槽的使用：子组件和父组件如何书写？

mysql已经安装，但是通过rpm -q 没有找mysql相关的已安装包

【数据结构】6. 时间与空间复杂度

STM32学习笔记：外部中断(EXTI)原理与应用详解

如何使用Jmeter进行压力测试？

NLP学习路线图（三十一）：迁移学习在NLP中的应用

知识改变命运？如何有规划的学好计算机专业？

元器件基础学习笔记——结型场效应晶体管（JFET）