RAGFlow 0.22.0 概览 — 支持的数据源、增强的解析器、Agent 优化和管理界面
0.22 亮点介绍
构建一个 RAGFlow 数据集涉及三个主要步骤:文件上传、解析和分块。0.21.0 版本通过引入“摄入管道”(Ingestion pipeline)使解析和分块阶段变得更加灵活。
这次发布的 0.22.0 版本重点关注数据上传步骤,旨在帮助开发者更快地构建数据集。
我们还增加了以下关键改进
- “摄入管道”中的解析器(Parser)组件现在提供了更多模型选择,以实现更好的文件解析效果。
- 我们优化了智能体(Agent)的 检索(Retrieval) 和 等待响应(Await response) 组件。
- 全新的管理员界面(Admin UI)为您提供更清晰、更便捷的系统管理方式。
支持丰富的外部数据源
新增的“数据源”模块允许您将外部数据连接到数据集中。现在,您可以将来自不同位置的文件直接同步到 RAGFlow 中。
在您的个人中心使用“数据源”菜单,可以添加和设置 Confluence、AWS S3、Google Drive、Discord 和 Notion 等数据源。这让您能在一个地方管理所有数据,并实现自动同步。
示例:S3 配置
- 请确保您的 AWS 账户中有一个 S3 存储桶。
- 将您的 S3 详细信息添加到 S3 数据源表单中。
- 添加后,点击设置图标查看数据源详情。
- 如果您将“刷新频率(Refresh Freq)”设置为“1”,系统将每分钟检查一次新文件。
- RAGFlow 会监控您指定的 S3 存储桶(例如
ragflow-bucket)。如果发现新文件,它会立即开始同步。 - 同步完成后,系统会等待一分钟再进行下一次检查。您随时可以使用“暂停”按钮来开启或关闭此自动刷新功能。

将数据源关联至数据集
- 创建一个新数据集(例如,
TEST_S3)。 - 点击
Configuration并滚动到页面底部。 - 点击
Link Data Source并选择您想要的数据源(例如 S3)。

成功链接后,您将看到三个图标
- 重建(Rebuild): 点击此按钮将删除数据集中的所有文件和日志,并重新导入所有内容。
- 设置(Settings): 在这里查看同步日志。
- 取消链接(Unlink): 这会断开数据源的连接。它会保留数据集中已有的所有文件,但停止新的同步。
![]()
日志中的状态消息
- 已计划(Scheduled): 任务已进入队列,等待下一次检查文件。
- 运行中(Running): 系统正在移动文件。
- 成功(Success): 已完成新文件的检查。
- 失败(Failed): 上传失败。请查看错误消息以获取详细信息。
- 取消(Cancel): 您已暂停传输。
您可以将多个数据源链接到一个数据集中,一个数据源也可以为多个数据集提供数据。
增强型解析器
MinerU
RAGFlow 现在支持 MinerU 2.6.3 作为解析 PDF 的另一个选项。它支持多种后端,如 pipeline、vlm-transformers、vlm-vlm-engine 和 http-client。
原理很简单:RAGFlow 请求 MinerU 解析文件,读取结果,然后将它们添加到您的数据集中。
关键环境变量
| 变量 | 说明 | 默认值 | 示例 |
|---|---|---|---|
MINERU_EXECUTABLE | 您计算机上 MinerU 的路径 | mineru | MINERU_EXECUTABLE=/home/ragflow/uv_tools/.venv/bin/mineru |
MINERU_DELETE_OUTPUT | 保留还是删除 MinerU 的输出文件? | 1 (删除) | MINERU_DELETE_OUTPUT=0 (保留) |
MINERU_OUTPUT_DIR | MinerU 输出文件的存放位置 | 系统临时文件夹 | MINERU_OUTPUT_DIR=/home/ragflow/mineru/output |
MINERU_BACKEND | 使用哪个 MinerU 后端 | pipeline | MINERU_BACKEND=vlm-transformers |
启动
- 如果您使用
vlm-http-client后端,请通过MINERU_SERVER_URL设置服务器地址。 - 要连接到远程的 MinerU 解析器,请使用
MINERU_APISERVER提供其地址。
如何启动
- 从源码启动: 单独安装 MinerU(其依赖项可能与 RAGFlow 的冲突)。然后设置环境变量并启动 RAGFlow 服务器。
- 使用 Docker: 在
docker/.env文件中设置USE_MINERU=true并重启您的容器。
Docling
RAGFlow 还支持 Docling 作为另一个 PDF 解析器。它的工作方式与 MinerU 相同。
Docling 会在文档中查找文本、公式、表格和图像。然后 RAGFlow 会使用 Docling 的发现。
Docling 的功能
- 提取文本(段落、标题、列表)。
- 提取数学公式。
- 识别表格和图像(并保存它们)。
- 标记所有内容的位置。
启动: 在 docker/.env 文件中设置 USE_DOCLING=true 并重启您的容器。
Agent 优化
检索现已支持元数据
您现在可以向数据集中的文件添加标签(元数据)。在检索过程中,智能体可以利用这些标签来筛选结果,从而只查看特定文件,而不是整个知识库。
示例: 假设有一个充满 AI 论文的数据集。其中一些是关于 AI 智能体的,另一些是关于 AI 评估的。如果您想要一个只回答评估问题的问答助手,可以为相关的论文添加一个标签,如 "Topic": "Evaluation"。当智能体检索信息时,它将筛选出带有该标签的文件。

以前,这只能在聊天应用中实现。现在,智能体的“检索”组件也可以做到这一点。

更出色的 Agent 协作能力
您现在可以在 等待响应(Await Response) 组件的消息中使用上游智能体的输出。
旧方式: “等待响应”组件中的消息总是静态文本。

新方式: 您可以插入工作流中较早步骤的动态内容,比如来自规划智能体的计划。

这对于“深度研究”智能体或任何需要人工在继续之前检查工作的场景都非常有用。它也是未来“摄入管道”改进的关键部分。



您可以在智能体模板库中找到这个用例,作为一个即用型模板。
管理后台 UI
该版本增加了一个全新的 管理员界面(Admin UI),这是一个为系统管理员设计的可视化仪表盘。
它将您过去需要通过命令完成的任务整合到一个简单的界面中,使管理变得更加容易。
即时查看系统状态
服务状态(Service Status) 仪表盘显示所有核心服务的健康状况。它列出了服务的名称、类型、主机、端口和状态。如果出现问题(例如 Elasticsearch 超时),您可以快速找到问题所在,并复制地址进行测试,而无需登录到不同的服务器。

该界面还显示服务详情。您可以看到详细的日志和连接信息(如数据库密码),而无需接触服务器命令行。这使得解决问题更快,并保持系统更透明、更安全。

轻松管理用户
用户管理(User Management) 部分允许您创建、启用、禁用、重置密码和删除用户。您可以按电子邮件或昵称快速查找用户,并查看他们拥有的数据集和智能体。

结语
RAGFlow 0.21.0 为您提供了强大的数据“摄入管道”。现在,RAGFlow 0.22.0 连接到您数据所在的所有地方。它们共同帮助您打破“数据孤岛”,将所有内容汇集一处,为您的 LLM 提供动力。
我们还改进了智能体与人的协作方式。现在您可以介入智能体的工作流程并指导它,以团队合作的方式获得比完全自动化更准确、更好的结果。
我们将继续添加更多的数据源、更好的解析器和更智能的管道,使 RAGFlow 成为您 LLM 应用的最佳数据基础。
GitHub: https://github.com/infiniflow/ragflow
参考