跳转到主内容

RAGFlow 0.22.0 概览 — 支持的数据源、增强的解析器、Agent 优化和管理界面

阅读时间 6 分钟

0.22 亮点介绍

构建一个 RAGFlow 数据集涉及三个主要步骤:文件上传、解析和分块。0.21.0 版本通过引入“摄入管道”(Ingestion pipeline)使解析和分块阶段变得更加灵活。

这次发布的 0.22.0 版本重点关注数据上传步骤,旨在帮助开发者更快地构建数据集。

我们还增加了以下关键改进

  • “摄入管道”中的解析器(Parser)组件现在提供了更多模型选择,以实现更好的文件解析效果。
  • 我们优化了智能体(Agent)的 检索(Retrieval)等待响应(Await response) 组件。
  • 全新的管理员界面(Admin UI)为您提供更清晰、更便捷的系统管理方式。

支持丰富的外部数据源

新增的“数据源”模块允许您将外部数据连接到数据集中。现在,您可以将来自不同位置的文件直接同步到 RAGFlow 中。

在您的个人中心使用“数据源”菜单,可以添加和设置 Confluence、AWS S3、Google Drive、Discord 和 Notion 等数据源。这让您能在一个地方管理所有数据,并实现自动同步。

示例:S3 配置

  1. 请确保您的 AWS 账户中有一个 S3 存储桶。

  1. 将您的 S3 详细信息添加到 S3 数据源表单中。

  1. 添加后,点击设置图标查看数据源详情。

  1. 如果您将“刷新频率(Refresh Freq)”设置为“1”,系统将每分钟检查一次新文件。
  2. RAGFlow 会监控您指定的 S3 存储桶(例如 ragflow-bucket)。如果发现新文件,它会立即开始同步。
  3. 同步完成后,系统会等待一分钟再进行下一次检查。您随时可以使用“暂停”按钮来开启或关闭此自动刷新功能。

将数据源关联至数据集

  1. 创建一个新数据集(例如,TEST_S3)。
  2. 点击 Configuration 并滚动到页面底部。
  3. 点击 Link Data Source 并选择您想要的数据源(例如 S3)。

成功链接后,您将看到三个图标

  • 重建(Rebuild): 点击此按钮将删除数据集中的所有文件和日志,并重新导入所有内容。
  • 设置(Settings): 在这里查看同步日志。
  • 取消链接(Unlink): 这会断开数据源的连接。它会保留数据集中已有的所有文件,但停止新的同步。

日志中的状态消息

  • 已计划(Scheduled): 任务已进入队列,等待下一次检查文件。
  • 运行中(Running): 系统正在移动文件。
  • 成功(Success): 已完成新文件的检查。
  • 失败(Failed): 上传失败。请查看错误消息以获取详细信息。
  • 取消(Cancel): 您已暂停传输。

您可以将多个数据源链接到一个数据集中,一个数据源也可以为多个数据集提供数据。

增强型解析器

MinerU

RAGFlow 现在支持 MinerU 2.6.3 作为解析 PDF 的另一个选项。它支持多种后端,如 pipelinevlm-transformersvlm-vlm-enginehttp-client

原理很简单:RAGFlow 请求 MinerU 解析文件,读取结果,然后将它们添加到您的数据集中。

关键环境变量

变量说明默认值示例
MINERU_EXECUTABLE您计算机上 MinerU 的路径mineruMINERU_EXECUTABLE=/home/ragflow/uv_tools/.venv/bin/mineru
MINERU_DELETE_OUTPUT保留还是删除 MinerU 的输出文件?1 (删除)MINERU_DELETE_OUTPUT=0 (保留)
MINERU_OUTPUT_DIRMinerU 输出文件的存放位置系统临时文件夹MINERU_OUTPUT_DIR=/home/ragflow/mineru/output
MINERU_BACKEND使用哪个 MinerU 后端pipelineMINERU_BACKEND=vlm-transformers

启动

  • 如果您使用 vlm-http-client 后端,请通过 MINERU_SERVER_URL 设置服务器地址。
  • 要连接到远程的 MinerU 解析器,请使用 MINERU_APISERVER 提供其地址。

如何启动

  1. 从源码启动: 单独安装 MinerU(其依赖项可能与 RAGFlow 的冲突)。然后设置环境变量并启动 RAGFlow 服务器。
  2. 使用 Docker:docker/.env 文件中设置 USE_MINERU=true 并重启您的容器。

Docling

RAGFlow 还支持 Docling 作为另一个 PDF 解析器。它的工作方式与 MinerU 相同。

Docling 会在文档中查找文本、公式、表格和图像。然后 RAGFlow 会使用 Docling 的发现。

Docling 的功能

  1. 提取文本(段落、标题、列表)。
  2. 提取数学公式。
  3. 识别表格和图像(并保存它们)。
  4. 标记所有内容的位置。

启动:docker/.env 文件中设置 USE_DOCLING=true 并重启您的容器。

Agent 优化

检索现已支持元数据

您现在可以向数据集中的文件添加标签(元数据)。在检索过程中,智能体可以利用这些标签来筛选结果,从而只查看特定文件,而不是整个知识库。

示例: 假设有一个充满 AI 论文的数据集。其中一些是关于 AI 智能体的,另一些是关于 AI 评估的。如果您想要一个只回答评估问题的问答助手,可以为相关的论文添加一个标签,如 "Topic": "Evaluation"。当智能体检索信息时,它将筛选出带有该标签的文件。

以前,这只能在聊天应用中实现。现在,智能体的“检索”组件也可以做到这一点。

更出色的 Agent 协作能力

您现在可以在 等待响应(Await Response) 组件的消息中使用上游智能体的输出。

旧方式: “等待响应”组件中的消息总是静态文本。

新方式: 您可以插入工作流中较早步骤的动态内容,比如来自规划智能体的计划。

这对于“深度研究”智能体或任何需要人工在继续之前检查工作的场景都非常有用。它也是未来“摄入管道”改进的关键部分。

您可以在智能体模板库中找到这个用例,作为一个即用型模板。

管理后台 UI

该版本增加了一个全新的 管理员界面(Admin UI),这是一个为系统管理员设计的可视化仪表盘。

它将您过去需要通过命令完成的任务整合到一个简单的界面中,使管理变得更加容易。

即时查看系统状态

服务状态(Service Status) 仪表盘显示所有核心服务的健康状况。它列出了服务的名称、类型、主机、端口和状态。如果出现问题(例如 Elasticsearch 超时),您可以快速找到问题所在,并复制地址进行测试,而无需登录到不同的服务器。

该界面还显示服务详情。您可以看到详细的日志和连接信息(如数据库密码),而无需接触服务器命令行。这使得解决问题更快,并保持系统更透明、更安全。

轻松管理用户

用户管理(User Management) 部分允许您创建、启用、禁用、重置密码和删除用户。您可以按电子邮件或昵称快速查找用户,并查看他们拥有的数据集和智能体。

结语

RAGFlow 0.21.0 为您提供了强大的数据“摄入管道”。现在,RAGFlow 0.22.0 连接到您数据所在的所有地方。它们共同帮助您打破“数据孤岛”,将所有内容汇集一处,为您的 LLM 提供动力。

我们还改进了智能体与人的协作方式。现在您可以介入智能体的工作流程并指导它,以团队合作的方式获得比完全自动化更准确、更好的结果。

我们将继续添加更多的数据源、更好的解析器和更智能的管道,使 RAGFlow 成为您 LLM 应用的最佳数据基础。

GitHub: https://github.com/infiniflow/ragflow

参考

  1. https://ragflow.com.cn/docs/faq#how-to-use-mineru-to-parse-pdf-documents
© . This site is unofficial and not affiliated with InfiniFlow.