跳到主内容
版本:开发版

运行检索测试

对您的知识库进行检索测试,以检查是否可以检索到预期的块。


在您的文件上传并解析后,建议您在继续配置聊天助手之前运行检索测试。运行检索测试绝不是不必要或多余的步骤!就像微调精密仪器一样,RAGFlow 需要仔细调整才能提供最佳的问答性能。您的知识库设置、聊天助手配置以及指定的大模型和小型模型都可能显著影响最终结果。运行检索测试可以验证是否可以恢复预期的块,从而让您快速发现需要改进的地方或找出需要解决的任何问题。例如,在调试问答系统时,如果您知道可以检索到正确的块,就可以将精力集中在其他方面。例如,在议题 #5627 中,发现问题是由于 LLM 的限制所致。

在检索测试期间,使用混合搜索来检索通过您指定的块分割方法创建的块。这种搜索根据您的设置,结合了加权关键词相似度与加权向量余弦相似度或加权重排分数。

  • 如果没有选择重排模型,加权关键词相似度将与加权向量余弦相似度相结合。
  • 如果选择了重排模型,加权关键词相似度将与加权向量重排分数相结合。

相比之下,通过知识图谱构建创建的块仅使用向量余弦相似度进行检索。

先决条件

  • 在运行检索测试之前,您的文件已上传并成功解析。
  • 必须成功构建知识图谱后才能启用使用知识图谱

配置

相似度阈值

这设置了检索块的标准:相似度低于阈值的块将被过滤掉。默认情况下,阈值设置为 0.2。这意味着只有混合相似度得分大于或等于 20 的块才会被检索到。

关键词相似度权重

这设置了关键词相似度在组合相似度分数中的权重,无论与向量余弦相似度还是重排分数一起使用。默认情况下,它设置为 0.7,使另一个组件的权重为 0.3 (1 - 0.7)。

重排模型

  • 如果留空,RAGFlow 将使用加权关键词相似度和加权向量余弦相似度的组合。
  • 如果选择了重排模型,加权关键词相似度将与加权向量重排分数相结合。
重要

使用重排模型将显著增加接收响应的时间。

使用知识图谱

在知识图谱中,实体描述、关系描述或社区报告都作为独立的块存在。此开关指示是否将这些块添加到检索中。

此开关默认禁用。启用后,RAGFlow 在检索测试期间执行以下操作

  1. 使用 LLM 从您的查询中提取实体和实体类型。
  2. 根据 PageRank 值,使用提取的实体类型从图谱中检索排名前 N 的实体。
  3. 使用提取的查询实体的嵌入向量,从图谱中查找相似的实体及其 N 跳关系。
  4. 使用查询嵌入向量,从图谱中检索相似的关系。
  5. 将这些检索到的实体和关系分别将其 PageRank 值与其对查询的相似度分数相乘,然后进行排序,返回前 n 个作为最终检索结果。
  6. 检索最终检索结果中包含最多实体的社区报告。
    检索到的实体描述、关系描述和排名前 1 的社区报告被发送到 LLM 进行内容生成。
重要

在检索测试中使用知识图谱将显著增加接收响应的时间。

测试文本

此字段用于输入您的测试查询。

步骤

  1. 导航到知识库的检索测试页面,在测试文本中输入您的查询,然后点击测试运行测试。

  2. 如果结果不令人满意,请调整配置部分列出的选项并重新运行测试。

    以下是未使用知识图谱进行的检索测试截图。它展示了结合加权关键词相似度和加权向量余弦相似度的混合搜索。总体混合相似度得分是 28.56,计算方法为 25.17(词项相似度得分)x 0.7 + 36.49(向量相似度得分)x 0.3
    Image

    以下是使用知识图谱进行的检索测试截图。它显示知识图谱生成的块仅使用向量相似度进行检索
    Image

警告

如果您为了获得最佳结果调整了默认设置,例如关键词相似度权重或相似度阈值,请注意这些更改不会自动保存。您必须将其应用于您的聊天助手设置或检索智能体组件设置。

常见问题

启用“使用知识图谱”开关时是否使用 LLM?

是的,您的 LLM 将参与分析您的查询并从知识图谱中提取相关的实体和关系。这也解释了为什么会消耗额外的 token 和时间。