站在十字路口的 RAG——2025 年中对 AI 渐进式演进的反思
距离我们上次年终回顾已经过去了六个月。随着今年年初 DeepSeek 引发的首波兴奋潮开始消退,AI 似乎进入了一个停滞阶段。这种模式在检索增强生成(RAG)领域同样明显:尽管关于 RAG 的学术论文依然层出不穷,但近几个月来显着的突破却寥寥无几。同样,RAGFlow 最近的迭代也主要集中在渐进式改进而非重大功能发布。这是未来飞跃的序曲,还是进入了一个稳定增长的阶段?因此,一次年中评估既合时宜,也十分必要。<!--truncate-->

自诞生以来,RAG 一直是持续辩论的焦点——从 2023 年的“微调之争”到 2024 年的“长文本争议”。然而,自 2025 年以来,随着注意力转向智能体(Agent)系统,关于 RAG 的讨论有所减少。这种转变催生了“Agent 消除 RAG 需求”的说法。作为该领域的从业者,我们认为此类主张更多是市场驱动的噱头,但也承认它们可能会误导非专业人士。有些人甚至开始将 RAG 重新品牌化为“Agentic RAG”,并伴随着夸张的市场预测,宣称其将主导传统 RAG [参考文献 1]。正是由于这种日益增长的困惑,促使我们进行本次回顾。
值得注意的是,最早提及“Agentic RAG”的时间大约是在一年前 RAGFlow 发布“Agent”功能时。因此,RAGFlow 经常在学术文献中被引用为 Agentic RAG 比较的基准。因此,我们的分析将从审查 RAG 和 Agent 开始。
定义澄清:我们将“Agent”定义为涵盖工作流(Workflows)和智能代理。在 RAGFlow 的当前版本(v0.19)中,一年前标注的“Agent”标签仍局限于工作流功能,尚未具备完全的智能代理能力。与 Anthropic 建议将这些概念分开的提案不同 [参考文献 2],RAGFlow 坚持集成设计理念,其中工作流和智能体本质上是统一的。
反思驱动:Agent 赋能 RAG 推理的关键
通过人工或模型驱动的反思循环,Agent 解决了 RAG 推理难题并实现了智能突破;两者密不可分。
在 2024 年底到 2025 年初的活动中,我们始终强调 2025 年 RAG 的三个关键特征:推理、记忆和多模态。前两个与 Agent 内在相关。在今年的首篇博客中,我们全面概述了推理的实现。最近的一项调查 [参考文献 3] 进一步综合了推理与 RAG,我们对该框架进行了改编和简化,如下所示:

显而易见,作者已将去年的成果纳入其推理框架。RAGFlow 一年前实现的 Self-RAG、RAPTOR 和 Adaptive-RAG 等方案在原始资料中被归类为“预定义推理”。我们建议将其定义为“基于工作流的方法(Workflow-Based Approaches)”。因此,我们早期出版物中描述的“Agentic RAG”是利用工作流——即手动定义 RAG 与 Agent 之间的交互——通过 Iteration(迭代)和 Switch(开关)等组件实现反思(Agent 的核心能力)。这种方法解决了诸如模糊意图和长文本理解等推理挑战。
相比之下,“基于 Agent 的方法(Agentic-Based Approaches)”使用模型自主驱动反思。示例包括 Search O1、各种开源 DeepResearch 实现以及 Search R1。这些可进一步分为两类:
- 提示词驱动的反思(Prompt-Driven Reflection,箭头上方):依赖于 LLM 提示词。
- 依赖训练的反思(Training-Dependent Reflection,通常为强化学习):学习特定领域的思维链(CoT)和反思终止条件。
一个关键的澄清:Search R1 风格的方法并非天生优越。它们的主要作用是针对通用 LLM 中的特定领域数据优化 CoT 和终止条件,但其核心仍然依赖于基于提示词的 Agent 框架。
记忆的基础:RAG 如何支持 Agent 的记忆系统
RAG 构建了 Agent 的长期记忆,通过索引、遗忘和固化实现任务状态跟踪和上下文加速,同时与短期记忆协作形成完整的架构。
无论 Agent 如何实现,其本质在很大程度上并未脱离 RAG。那么,Agent 如何使看似常规的 RAG 变得更智能,且减少对推理模型的依赖?其变革力量在于将 LLM 从单步“直觉推测”转变为能够进行迭代观察和反思的系统——非常类似于人类认知。这种基础性的协同效应解释了为什么 RAGFlow 等 RAG 框架会自然地向完全 Agent 集成(超越工作流)演进,这也是 RAGFlow 即将发布的版本中的一个关键特性。
2025 年常被称为“Agent 元年”,涌现出了琳琅满目的 Agent 应用。然而,与 2024 年相比,核心 Agent 框架的进展微乎其微。Agent 采用率的上升主要归功于大语言模型(LLM)情境学习(ICL)能力的提升,其次是成熟的工具生态系统以及诸如“多智能体系统”等流行语催生的新用例。因此,除了 LLM 本身的改进外,核心 Agent 范式在技术创新方面表现有限。一个值得注意的进步领域是所谓“记忆(Memory)”机制的发展。
如果说 OpenAI 在 2024 年收购 Rockset 是为了增强检索增强生成(RAG),那么其在 2025 年投资 Supabase 则是为了给 Agent 配备更易用的工具,并在一定程度上提供记忆管理。从 Agent 的视角看,RAG 和各种数据基础设施解决方案在功能上是等效的——仅仅是 Agent 上下文中调用的工具。然而,RAG 与记忆之间的内在联系使 RAG 区别于其他数据基础设施组件。

记忆只有在 Agent 的语境下才具有意义,这引发了一个问题:记忆与 RAG 的区别是什么?[参考文献 4] 提供了详尽的总结,将记忆大致分为情境记忆(Contextual Memory)和参数记忆(Parametric Memory)——后者通常涉及 KV Cache 和模型,我们稍后会讨论。通常,“Agent 记忆”指的是情境记忆,它在两个关键方面使 Agent 受益:
- 存储任务管理元数据:例如,在 Agent 推理中,为规划(Planning)引入确定性(如结合人工反馈)意味着规划不再完全由 LLM 决定。相反,需要一种机制来存储规划的状态,使 Agent 从无状态转变为有状态。此外,在推理过程中跟踪任务拆解也需要一个存储任务相关元数据的仓库。
- 上下文管理:除了保留上下文,记忆还会缓存并加速 LLM 的输出,并提供定制化响应所需的个性化数据。

从接口角度看,下图显示记忆必须提供四个核心功能。虽然“更新(Updating)”显而易见,但其他三个功能解释如下:
- 索引(Indexing):记忆必须提供超越简单查询的高级搜索能力。对于上下文管理(Agent 记忆的第二个关键价值),实时搜索通常至关重要。例如,存储在短期记忆中的会话数据可能需要按主题搜索,以丰富后续交互。
- 遗忘(Forgetting):这是指有意识的遗忘,模仿人类认知。遗忘有助于保持专注,且从技术上讲,较小的数据集通常能提高搜索精度。
- 固化(Consolidation):意为“强化”,通过对存储数据进行总结和标注来模拟认知过程。在技术上,这与 RAG 范式中的 GraphRAG 紧密对齐,即 LLM 将记忆内容组织成知识图谱,通过提供更丰富的上下文来增强召回效果。
下图展示了记忆与 RAG 之间的真实关系,揭示了 RAG 本质上是长期记忆的一部分。记忆还包括短期记忆,通常保存 Agent 基于会话的交互和个性化数据(通常是原始或未经处理的形式)。高价值数据随后通过“固化”转移,成为长期记忆的另一部分。

因此,没有强大 RAG 支持的记忆从根本上是不可持续的。除了这种依赖性,记忆的其他方面仍然有限。关于参数记忆,虽然它看起来更接近“记忆”的本质,但其核心原理并没有内在的技术优势:它是一种基于 KV Cache 和注意力机制操作的计算密集型方法,与 LLM 的推理引擎紧密集成,本质上是一种稠密注意力机制。相比之下,基于 RAG 构建的长期记忆在实际上无限的上下文中为推理提供过滤后的补充材料——这也是一种注意力机制,但是一种稀疏的机制。如果用稀疏注意力实现 KV Cache 会有什么影响?我们稍后将探讨这个问题。
RAG 2025:克服技术挑战的平台期
长文本推理依赖于分层索引;多模态数据面临存储膨胀的困扰;缓慢的基础设施限制了创新。
在探讨了 RAG 与 Agent 的关系之后,让我们重新聚焦于 RAG 本身。尽管 2025 年 RAG 相关的论文仍在稳步发表,但概念和系统上的真正创新却明显匮乏。RAG 技术是否已达到关键的平台期?RAG 的核心依赖于信息检索(IR),这是一个成熟的领域。然而,RAG 提出了超越传统 IR 的新挑战,包括查询多样性和多模态数据。
查询多样性仍然是信息检索(IR)中的一个永恒挑战,旨在弥合查询与答案之间的语义鸿沟。许多方法都在解决这一问题,包括 2024 年的一些著名作品,如 GraphRAG、Contextual Retrieval(上下文检索)、RAPTOR 以及 RAGFlow 使用领域专家知识构建自动标签库的方法。这些方法本质上都采用了某种形式的稀疏注意力:复杂的查询需要更长的上下文,并从中识别相关的注意力点。对于简单查询,现有的解决方案已经很有效,依赖于良好的分块和高效的多路召回。然而,针对复杂查询的真正有效实现仍然难以捉摸。
因此,有人认为,如果弥合语义鸿沟在很大程度上取决于 LLM 生成辅助数据,为什么不直接将知识注入 LLM 的工作记忆,跳过这些折中方案呢?这一想法起源于 CAG [参考文献 5],它建议使用 KV Cache 来存储由 LLM 转换为 KV 格式的所有数据。随后的努力试图通过将 KV 数据与数据库技术相结合来实现稀疏注意力,从而降低稠密注意力沉重的带宽和计算成本。示例包括 RetrievalAttention [参考文献 6]、RetroInfer [参考文献 7] 和 AlayaDB [参考文献 8]。这些方案将 KV Cache 数据拆分为两个区域:一部分留在传统的 KV Cache 中,大部分则存储在向量索引或数据库中。在生成过程中——特别是 LLM 推理的 Decoder 阶段——当前的查询向量 (Q) 从索引或数据库中检索相关的数值向量 (V)。然后将这些 V 向量加载到 KV Cache 中以完成最终的注意力计算,如下图所示。

虽然这项技术在解决当前 RAG 挑战方面展现了潜力,但仍面临重大障碍。此类方案的主要目标通常是降低 LLM 推理成本。传统的推理采用 Prefill/Decoder 分离,依赖稠密注意力机制,虽然准确度高,但成本高昂且对 GPU 显存需求巨大。相比之下,稀疏注意力方案利用 CPU 内存、磁盘存储和近似最近邻(ANN)向量搜索来降低成本。
这些解决方案需要与 LLM 推理引擎深度集成,必须进行修改以同时处理文本和向量数据,这实际上将其使用限制在了开源模型上。此外,Decoder 阶段频繁的向量检索要求检索系统与推理引擎同机部署以减少网络延迟,这主要限制了其在私有化或本地部署环境中的应用。
矛盾的是,这种集成的“注意力引擎(Attention Engine)”方法可能无法完全解决核心的 RAG 问题,尤其是对于长文档。在长文本 LLM 中,过于冗长的输入可能会损害性能,导致关键细节被忽略或误读。对于精确的细节检索,传统 RAG 方法仍然具有优势。
因此,虽然我们必须密切关注“注意力引擎”方法,但实际重点仍然是 LLM 之外的 RAG,即改进对长文本推理的支持。无论是注意力引擎还是搜索引擎,它们的优势并不完全重叠——前者擅长在较小数据集上进行快速推理,后者擅长在海量数据中快速检索。即使在 RAG 的范围不断演进和扩大的今天,它们在很大程度上仍是互补的。
目前,除了 GraphRAG 和 RAPTOR 等支持跨分块推理的方法外,很少有针对超长文本检索和推理的解决方案展现出强大的工程可行性。主要方法可总结如下:
- 不分块,全文档检索:跳过分块,根据简短查询召回整个文档,直接喂入上下文。这在文档数量较少时有效,但在大规模场景下,由于对全局文档上下文理解不足,会导致召回相关性较低。
- 分层索引与文档内 Agentic RAG:在解析过程中构建反映文档结构(如章节、小节)的树状索引。召回在文档级别进行,随后利用分层索引在文档内进行结构化遍历以定位相关块,从而在文档内部实现“Agentic RAG”。
- 重叠分块与多粒度检索:使用具有显著重叠的分块,并构建多层索引(如文档、章节、段落级)。这采用了一种结合粗细粒度的联合检索策略。虽然概念上很直接,但每种方法都提出了独特的挑战。作为工具提供商,RAGFlow 计划在适当时机提供类似功能。
转向第二个方面:多模态数据。在我们的年终回顾中,我们强调了多模态 RAG (MM-RAG) 是 2025 年的一个关键趋势。然而到年中,这一趋势尚未形成势头。主要障碍仍然是支撑基础设施的不成熟。如前所述,延迟交互(late interaction)模型继续主导 MM-RAG 流程,这意味着嵌入模型生成的是 Tensor(张量)或多向量。例如,单张图片可能由 1,024 个向量表示,每个向量包含 128 维浮点数,如下图所示。
虽然一些向量数据库现在声称提供原生 Tensor 支持,但实际应用中全面利用 Tensor 的解决方案依然稀缺。这种稀缺源于 Tensor 导致的剧大数据膨胀,存储需求可能增加多达两个数量级。因此,除了原生 Tensor 支持外,还需要整体方案来缓解存储膨胀,包括:
- 数据库级别的二进制量化:用单个比特位表示每个向量维度,从而将存储空间减少到原始大小的大约三十二分之一。
- 量化多向量或 Tensor 索引支持:确保向量索引能够高效管理这些经过二进制量化的多向量。
- 重排序器(Reranker)补偿:为减少量化带来的精度损失,在重排序阶段将二进制向量反量化回浮点数以重新计算相似度得分,从而保持准确性。

在模型层面,也需要努力减少 Tensor 存储增长带来的开销。这包括:
- 使用多表征学习(MRL)降低每个向量的维度,例如将维度削减至 64 可以在略微降低召回准确率的情况下使存储减半。
- 应用 Token 或 Patch 合并以减少向量数量,例如将 1,024 个 patch 缩减为 128 个。
虽然在优化文本排序模型方面取得了一些进展,但要满足多模态 RAG 的需求,仍有大量工作要做。因此,MM-RAG 的广泛采用取决于其支撑基础设施的发展。
结语
综上所述,我们的分析显示,2025 年 RAG 核心技术进展有限。与此同时,RAG 与 Agent 之间的相互依赖关系显著加深——无论是作为 Agent 记忆的基础,还是赋能 DeepResearch 能力。从 Agent 的视角看,RAG 可能只是众多工具中的一个,但通过管理非结构化数据和记忆,它已成为最基础、最关键的工具之一。可以毫不夸张地说,没有强大的 RAG,Agent 在企业中的实际部署将是不可行的。因此,RAG 作为独立架构层的价值现在比以往任何时候都更加凸显。这些见解将直接指导 RAGFlow 下一个版本的核心功能开发。
至于 RAG 演进中的复杂挑战,就交给时间来解决吧。毕竟,RAG 本质上是一个架构框架;它的真正潜力将通过基础设施和模型的协同进化来实现。敬请关注,并欢迎给 RAGFlow 点亮 Star:https://github.com/infiniflow/ragflow
参考文献
- https://market.us/report/agentic-retrieval-augmented-generation-market/
- https://www.anthropic.com/engineering/building-effective-agents
- Reasoning RAG via System 1 or System 2: A Survey on Reasoning Agentic Retrieval-Augmented Generation for Industry Challenges https://arxiv.org/abs/2506.10408
- Rethinking Memory in AI: Taxonomy, Operations, Topics and Future Directions https://arxiv.org/abs/2505.00675
- Don't Do RAG: When Cache-Augmented Generation is All You Need for Knowledge Tasks https://arxiv.org/abs/2412.15605
- RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval https://arxiv.org/abs/2409.10516
- RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference https://arxiv.org/abs/2505.02922
- AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference https://arxiv.org/abs/2504.10326
