当前位置：首页 > news >正文

再见 RAG？Gemini 2.0 Flash 刚刚 “杀死” 了它！

news 2025/8/19 14:45:44

最近谷歌发布了 Gemini 2.0 Flash，说实话，它可能是目前市面上性价比最高的 AI 模型了。

许多人写过关于 RAG 可能不再需要的文章，也可以看到人们在讨论它。有些人理解，有些人不理解，还有些人非常担心。

所以让我们解释一下：

RAG 到底是什么？

为什么它可能不再像我们过去认为的那样必要？

如果你正在构建 AI 相关的东西 —— 或者只是好奇 —— 为什么你应该关心它？

RAG 到底是什么？

如果你是 AI 领域的新手，那么请记住，RAG 代表检索增强生成（Retrieval-Augmented Generation）。它一直是一种常用技术，用于帮助 ChatGPT 等 AI 模型访问其原始训练数据中没有的外部信息。

你可能在不知不觉中见过它的实际应用。

用过 Perplexity 或必应的 AI 搜索吗？当它们在回答你的问题时进行搜索，这就是 RAG 在起作用。甚至当你将文件上传到 ChatGPT 并询问相关问题时 —— 这也是 RAG。

RAG 如此重要的原因是，AI 模型过去的记忆窗口非常小。回到 2023 年初，当时模型只能处理约4000 个 token（相当于 6 页文本）。这意味着如果你有大量信息，而 AI 无法 “记住” 所有内容 —— 你必须将其分解，以特殊方式存储（嵌入、向量数据库、分块等），然后在需要时检索正确的部分。

但现在？忘了吧。

这是传统 RAG 的处理流程：

Gemini 2.0 Flash（RAG杀手？）

是的，你没听错！如今所有AI模型都能一次性处理海量信息。

但Gemini 2.0呢？它能处理高达100万token。有些模型甚至达到了200万。

这意味着你不再需要将数据切成小块并研究如何检索——现在可以直接将完整数据导入模型，让它一次性对所有内容进行推理。

最关键的是——这些新模型不仅记忆容量更大，还精准得多。谷歌的最新模型拥有我们见过的最低幻觉率（即“编造内容”的概率）。仅凭这一点就带来了巨大改变。

Gemini 2.0直接文档处理

为什么这会颠覆一切？

举个真实场景的例子：

假设你有一份财报电话会议记录——长达5万token（非常庞大）。如果使用传统RAG，你必须将其拆分成512-token的小块并存储。当有人提问时，你需要抓取最相关的片段并输入AI。

问题在于：你无法对整个文档进行全局推理。

试想这样一个问题：

“这家公司的营收与去年相比如何？”

如果只抓取小片段，你可能无法获得完整信息。但如果将整个文档记录输入Gemini 2.0呢？它能通览所有内容——从CEO的开场白到中间的财务数据，再到他们回答分析师问题的内容——并给出更优质、更周全的答案。

所以当我们说“RAG已死”时，意思是：

传统RAG处理方式（将单个文档拆分成块）已经过时了。

你不再需要它。只需将所有内容喂给大模型，让它施展魔法即可。

不过，RAG 并未完全消亡

现在，有人会问：

“如果我有10万份文档呢？”

这个问题很合理！

如果你在处理海量数据集（比如苹果过去十年的所有财报），仍然需要一种筛选方法。但即便如此，处理方式也不同了：

先搜索相关文档（例如只提取2020-2024年的苹果财报会议记录）。
将完整文档并行分别输入AI模型。
合并响应并生成最终答案。

这种方法比传统分块法精准得多——它让AI能够真正基于完整文档进行思考，而不是被迫处理碎片化片段。

下图展示了处理大型文档集的现代方法流程图：

核心结论

如果你在构建AI产品或进行实验，记住要保持简单，很多人会在没必要时把事情复杂化。只需将完整文档上传到Gemini 2.0（或任何大上下文AI模型），让它处理推理即可。

一年后情况会变吗？很可能。AI模型正变得更便宜、更智能、更快。但就目前而言，传统RAG方法已成为过去式。把数据扔进谷歌的新模型，用更少的麻烦获得更好的结果。如果你有文档需要分析，不妨试试——可能会惊讶于一切变得如此简单。

http://www.lqws.cn/news/596917.html

相关文章：

学习面向对象

第TR3周：Pytorch复现Transformer

快速手搓一个MCP服务指南（九）： FastMCP 服务器组合技术：构建模块化AI应用的终极方案

【仿muduo库实现并发服务器】Poller模块

基于中国印尼会计准则差异，中国企业在印尼推广ERP（SAP、Oracle）系统需要注意的细节

Pycharm命令行能运行，但绿色三角报错？

mac重复文件清理，摄影师同款清理方案

nosql项目：基于 Redis 哨兵模式的鲜花预订配送系统

设计模式之组合模式

将实时流的 H.264（视频）与 G.711A（音频）封装成 MP4 文件

关于量子计算的一份介绍

12【进程间通信——管道】

Vue 响应式数据传递：ref、reactive 与 Provide/Inject 完全指南

基于 Three.js 与 WebGL 的商场全景 VR 导航系统源码级解析

遥感云大数据在灾害、水体与湿地领域案例及GPT应用

第八章：LeRobot摄像头配置与应用指南

使用GeoServer发布地图shapefi（.shp）数据

Spring Bean的生命周期与作用域详解

Vue-17-前端框架Vue之应用基础集中式状态管理pinia(二)

AI智能体在用户行为数据分析中有哪些应用？

Android 网络全栈攻略（四）—— TCPIP 协议族与 HTTPS 协议

Linux基本命令篇 —— grep命令

基于ApachePOI实现百度POI分类快速导入PostgreSQL数据库实战

opencv使用 GStreamer 硬解码和 CUDA 加速的方案

【cesium】基于vue-cesium开发地理空间分析应用

在 Vue 3 中，如果需要显示 HTML 标签，可以使用 v-html 指令

android stdio 创建 mediaplayertest

零信任安全管理系统产品对比介绍

小米YU7使用UWB技术，厘米级定位精准迎宾，安全防破解无感控车

.NET测试工具Parasoft dotTEST：全兼容RMS的测试解决方案