RAGFlow 0.21.0 - 数据注入管道、长文本 RAG 和管理后台命令行
RAGFlow 0.21.0 正式发布
此版本将重心从增强在线 Agent 能力转向夯实数据基础,从根本上优先提升易用性和对话质量。0.21.0 版本直接解决了 RAG 的常见痛点——从数据准备到长文档理解,带来了关键升级:一个灵活、可编排的注入管道(Ingestion Pipeline)、用于弥合复杂文件中语义鸿沟的长文本 RAG,以及一个用于简化运维的新版管理后台命令行工具。总而言之,这些元素构成了 RAGFlow 全新的数据管道核心,为构建稳健高效的 RAG 应用提供了更坚实的基础。
可编排的解析流水线
如果说早期的 Agent 主要解决在线数据的编排问题——正如我们在 Workflow 和 Agentic Workflow 中所见——那么注入管道则通过将相同的技术架构应用于编排离线数据注入,体现了这一能力。它的引入使用户能够在一个统一的框架内构建高度定制化的 RAG 数据管道。这不仅简化了定制开发,也更充分地体现了 RAGFlow 中的“Flow”。
一个典型的 RAG 注入过程涉及文档解析、文本分块、向量化和索引构建等关键阶段。当 RAGFlow 于 2024 年 4 月首次发布时,它已经集成了一套先进的工具链,包括基于 DeepDoc 的解析引擎和模板化的分块机制。这些顶尖的解决方案是其早期被广泛采用的基础。
然而,随着行业的快速发展和实践应用的深入,我们观察到了新的趋势和需求:
- 视觉语言模型(VLM)的崛起:日益成熟的 VLM 推动了一波微调文档解析模型的发展。这些模型为具有复杂布局或图文混排的非结构化文档提供了显著提高的准确性。
- 对灵活分块的需求:用户现在寻求更定制化的分块策略。面对多样化的知识库场景,RAGFlow 原有的内置分块模板已证明不足以覆盖所有特定情况,这可能会影响最终问答结果的准确性。
为此,RAGFlow 0.21.0 正式引入了注入管道,其核心能力包括:
- 可编排的数据注入:基于底层的 Agent 框架,用户可以创建多样化的数据注入管道。每个管道可以应用不同的策略来连接数据源与最终的索引,将先前内置的数据写入过程转变为用户可定制的工作流。这提供了更灵活、更符合特定业务逻辑的注入方式。
- 上传与清洗解耦:该架构将数据上传与清洗分离,为未来的批量数据源建立了标准接口,并为扩展数据预处理工作流奠定了坚实的基础。
- 重构的解析器:解析器(Parser)组件经过重新设计,以实现可扩展性,为集成 DeepDoc 之外的先进文档解析模型奠定了基础。
- 可定制的分块接口:通过解耦分块步骤,用户可以接入自定义的分块器,以更好地适应不同知识结构的切分需求。
- 优化复杂 RAG 的效率:对 IO/计算密集型任务(如 GraphRAG 和 RAPTOR)的执行进行了彻底改革。在管道化之前的架构中,处理每个新文档都会触发一个完整的计算周期,导致性能缓慢。新的管道支持批量执行,显著提高了数据吞吐量和整体效率。
如果说 ETL/ELT 代表了现代数据栈中处理结构化数据的标准管道——dbt 和 Fivetran 等工具为数据仓库和数据湖提供了统一灵活的数据集成解决方案——那么 RAGFlow 的注入管道则定位为非结构化数据的等效基础设施。下图展示了这一架构类比:
具体来说,ETL/ELT 中的提取(Extract)阶段负责从各种来源拉取数据,而 RAGFlow 注入管道则通过一个专门的解析(Parsing)阶段来增强这一过程,以从非结构化数据中提取信息。该阶段集成了多种解析模型,以 DeepDoc 为首,将多模态文档(例如,文本和图像)转换为适合处理的单模态表示。
在转换(Transform)阶段,传统的 ETL/ELT 侧重于数据清洗和业务逻辑,而 RAGFlow 则构建了一系列以 LLM 为中心的 Agent 组件。这些组件经过优化,以解决检索中的语义鸿沟,其核心使命可以概括为:提升召回率和排序准确性。
在数据加载(Load)方面,ETL/ELT 将结果写入数据仓库或数据湖,而 RAGFlow 使用索引器(Indexer)组件将处理过的内容构建成一种为检索优化的索引格式。这反映了 RAG 引擎的混合检索架构,该架构必须支持全文、向量以及未来的张量检索,以确保最佳的召回率。
因此,现代数据栈服务于结构化数据的商业分析,而带有注入管道的 RAG 引擎则专注于非结构化数据的智能检索——为 LLM 提供高质量的上下文。两者在各自的领域中占据着等效的生态位。
关于处理结构化数据,这并非 RAG 引擎的核心职责。它由构建在引擎之上的上下文层(Context Layer)处理。该层利用 MCP(模型上下文协议)——被称为“AI 时代的 TCP/IP”——以及配套的上下文工程(Context Engineering)来自动填充所有类型的上下文。这是 RAGFlow 下一开发阶段的重点关注领域。
以下是 v0.21.0 中注入管道的初步展示;更详细的指南将随后发布。我们将用于解析、分块和其他非结构化数据处理任务的组件引入了 Agent 画布,使用户能够自由地编排其解析工作流。

编排一个注入管道可以自动化解析文件并按长度分块的过程。然后,它利用大语言模型生成摘要、关键词、问题甚至元数据。以前,这些元数据必须手动输入。现在,一次配置即可大幅减少维护开销。
此外,管道过程是完全可观测的,会记录并显示每个文件的完整处理日志。

0.21.0 版本中注入管道的实现是基础性的一步。在下一个版本中,我们计划通过以下方式显著增强它:
- 增加对更多数据源的支持。
- 提供更广泛的解析器选择。
- 引入更灵活的转换器(Transformer)组件,以促进编排更丰富的语义增强模板。
长文本 RAG
进入 2025 年,检索增强生成(RAG)面临着由两个主要因素驱动的显著挑战。
传统 RAG 的根本局限性
传统的 RAG 架构通常无法保证强大的对话性能,因为它们依赖于以文本块为主要单位的检索机制。这使得它们对分块质量高度敏感,并且可能因上下文不足而导致结果质量下降。例如:
- 如果一个连贯的语义单元被分割到不同的块中,检索可能会不完整。
- 如果一个块缺乏全局上下文,呈现给 LLM 的信息就会被削弱。
虽然自动检测章节标题并将其附加到块中等策略有助于提供全局语义,但它们受到标题识别准确性和标题自身完整性的限制。
先进预处理技术的成本效益问题
现代预处理方法——GraphRAG、RAPTOR 和上下文检索——旨在向原始数据中注入额外的语义信息,以提高复杂查询的搜索命中率和准确性。然而,它们都存在成本高和效果不可预测的问题。
- GraphRAG:这种方法消耗的 token 数量通常是原始文本的数倍,并且自动生成的知识图谱常常不尽人意。其在复杂多跳推理中的有效性受到不可控推理路径的限制。作为原始块之外的补充检索,知识图谱也丢失了源文件中的一些细粒度上下文。
- RAPTOR:该技术产生的聚类摘要作为独立的块被召回,但自然缺乏源文本的细节,重新引入了上下文不足的问题。
上下文检索:此方法通过关键词或潜在问题等额外语义来丰富原始块。它存在一个明确的权衡:
- 更有效的选项是每个块多次查询 LLM,同时使用全文和当前块作为上下文,这能提升性能,但会将 token 成本推高至原始文本的数倍。
- 更便宜的选项仅基于当前块生成语义信息,节省了成本,但提供的全局上下文有限,性能提升也有限。过去几年,出现了新的 RAG 方案。
- 完全放弃检索:一些方法让 LLM 直接读取文档,根据上下文窗口将其分割成块,并执行多阶段搜索。首先,LLM 决定哪个全局文档是相关的,然后是哪些块,最后加载这些块来回答问题。虽然这避免了召回不准确的问题,但它损害了响应延迟、并发性和大规模数据处理能力,使得实际部署变得困难。
- 放弃嵌入或索引,转而使用 grep 等工具:这将 RAG 演变为 Agentic RAG。随着应用程序变得越来越复杂,用户查询也日益多样化,将 RAG 与 Agent 结合变得越来越不可避免,因为只有 LLM 才能将原始查询转换为结构化的检索命令。在 RAGFlow 中,这一能力早已实现。放弃索引而使用 grep 是在个人或小规模场景下为了简化 Agent 开发而做出的妥协;在企业环境中,一个强大的检索引擎仍然至关重要。
- 长文本 RAG:作为 0.21.0 版本引入的功能,与 GraphRAG、RAPTOR 和上下文检索同属一类,该方法使用 LLM 来丰富原始文本的语义以提高召回率,同时保留索引和搜索。检索仍然是核心。长文本 RAG 模仿了人们查阅信息的方式:通过目录确定相关章节,然后找到确切的页面获取详细信息。在索引期间,LLM 提取章节信息并将其附加到每个块中,以提供全局上下文;在检索期间,它找到匹配的块,并利用目录结构来填补因分块造成的语义碎片化带来的空白。
- 当前体验与未来方向:用户可以通过“TOC 提取”(目录)功能尝试长文本 RAG,尽管它目前处于测试阶段。下一个版本将添加一个注入管道。改进 RAG 的一个关键路径是在不完全摒弃检索的情况下,使用 LLM 来丰富内容语义。因此,一个允许用户组装基于 LLM 的内容转换组件的灵活管道,是提升 RAG 检索质量的重要方向。
后端管理 CLI
RAGFlow 的发展已从核心模块开发转向加强管理和运营能力。
- 在早期版本中,尽管解析和检索增强生成功能有所改进,但系统管理功能却相对滞后。管理员无法修改密码或删除账户,这给部署和维护带来了复杂性。
- 随着 RAGFlow 0.21.0 的发布,基础的系统管理功能得到了显著提升。一个新的命令行管理工具为管理员提供了一个集中、便捷的界面。其核心功能包括:
- 服务生命周期管理:监控 RAGFlow 内置服务,以实现更大的操作灵活性。
- 全面的用户管理:
- 创建新的注册用户。
- 直接修改登录密码。
- 删除用户账户。
- 启用或禁用账户。
- 查看所有注册用户的详细信息。
- 资源概览:列出注册用户下创建的知识库和 Agent,以进行系统范围的监控。
这次升级凸显了 RAGFlow 对强大功能和企业级应用所必需的基础管理能力的承诺。展望未来,团队计划推出一个企业级的网页管理面板及配套的用户界面,以简化管理、提高效率并增强最终用户体验,从而支持更高的成熟度和稳定性。
结语
RAGFlow 0.21.0 标志着一个重要的里程碑,它在以往进展的基础上,勾勒出未来的发展蓝图。它首次将检索(RAG)与编排(Flow)相结合,形成一个智能引擎,以支持 LLM 上下文层,并以非结构化数据 ELT 和强大的 RAG 能力集为基础。
从赋予用户能力的注入管道,到缓解语义碎片化的长文本 RAG,再到确保可靠运行的管理后台,每一项新功能都旨在使 RAG 系统更智能、更灵活、更适合企业级应用。这不仅仅是功能的堆砌,更是一次架构的演进,为未来的发展奠定了坚实的基础。
我们持续关注的重点仍然是 LLM 上下文层:为 LLM 构建一个强大、可靠的数据基础,并有效地服务于所有 Agent。这仍然是 RAGFlow 的核心目标。
我们邀请您继续关注我们的项目并为其点赞(star),与我们共同成长。