运行检索测试
对您的知识库进行检索测试,以检查是否可以检索到预期的 Chunk。
文件上传并解析后,建议您在进行聊天机器人配置之前先运行一次检索测试。运行检索测试绝不是不必要或多余的步骤!就像微调精密仪器一样,RAGFlow 也需要仔细调优,以达到最佳的问答性能。您的知识库设置、聊天机器人配置以及指定的大模型和小模型都会显著影响最终结果。运行检索测试可以验证是否能召回预期的 Chunk,从而让您快速发现需要改进的地方或定位问题所在。例如,在调试问答系统时,如果您知道可以检索到正确的 Chunk,就可以将精力集中在其他方面。例如,在问题 #5627 中,最终发现问题是由于大语言模型的局限性造成的。
在检索测试期间,系统会使用混合搜索来检索通过您指定的 Chunk 方法创建的 Chunk。根据您的设置,此搜索将加权关键词相似度与加权向量余弦相似度或加权重排分数相结合。
- 如果未选择重排模型,则将加权关键词相似度与加权向量余弦相似度相结合。
- 如果选择了重排模型,则将加权关键词相似度与加权重排分数相结合。
相比之下,通过构建知识图谱创建的 Chunk 仅使用向量余弦相似度进行检索。
前提条件
- 在运行检索测试之前,您的文件已上传并成功解析。
- 在启用**使用知识图谱**之前,必须成功构建知识图谱。
配置
相似度阈值
该参数设定了检索 Chunk 的门槛:相似度低于阈值的 Chunk 将被过滤掉。默认情况下,阈值设置为 0.2。这意味着只有混合相似度分数达到 20 或更高的 Chunk 才会被检索。
关键词相似度权重
该参数设置了关键词相似度在组合相似度分数中的权重,无论是与向量余弦相似度还是与重排分数结合使用。默认值为 0.7,这意味着另一个组件的权重为 0.3(1 - 0.7)。
重排模型
- 如果留空,RAGFlow 将使用加权关键词相似度和加权向量余弦相似度的组合。
- 如果选择了重排模型,则将加权关键词相似度与加权重排分数相结合。
使用重排模型会显著增加接收响应的时间。
使用知识图谱
在知识图谱中,实体描述、关系描述或社群报告都作为独立的 Chunk 存在。此开关指示是否将这些 Chunk 添加到检索中。
该开关默认关闭。启用后,RAGFlow 在检索测试期间执行以下操作:
- 使用大语言模型从您的查询中提取实体和实体类型。
- 根据提取的实体类型,依据 PageRank 值从图谱中检索前 N 个实体。
- 使用提取的查询实体的嵌入,从图谱中查找相似的实体及其 N 跳关系。
- 使用查询嵌入从图谱中检索相似的关系。
- 将每个检索到的实体和关系的 PageRank 值与其和查询的相似度分数相乘进行排序,返回前 n 个作为最终的检索结果。
- 检索最终检索结果中涉及最多实体的社群报告。
检索到的实体描述、关系描述和排名前 1 的社群报告将被发送给大语言模型用于内容生成。
在检索测试中使用知识图谱会显著增加接收响应的时间。
跨语言搜索
要执行跨语言搜索,请从下拉菜单中选择一个或多个目标语言。系统的默认聊天模型会将您在“测试文本”字段中输入的查询翻译成所选的目标语言。这种翻译可确保跨语言的准确语义匹配,使您能够检索到相关的结果,而不受语言差异的影响。
- 选择目标语言时,请确保这些语言存在于知识库中,以保证有效搜索。
- 如果未选择目标语言,系统将仅在查询所用语言中进行搜索,这可能导致错过其他语言中的相关信息。
测试文本
此字段用于输入您的测试查询。
操作步骤
-
导航到知识库的**检索测试**页面,在**测试文本**中输入您的查询,然后点击**测试**以运行测试。
-
如果结果不理想,请调整“配置”部分中列出的选项,然后重新运行测试。
以下是在不使用知识图谱的情况下进行的检索测试的屏幕截图。它展示了结合加权关键词相似度和加权向量余弦相似度的混合搜索。总的混合相似度分数为 28.56,计算方式为 25.17(词项相似度分数)x 0.7 + 36.49(向量相似度分数)x 0.3。
以下是使用知识图谱进行的检索测试的屏幕截图。它显示,对于知识图谱生成的 Chunk,仅使用向量相似度。
如果您调整了默认设置以获得最佳结果,例如关键词相似度权重或相似度阈值,请注意这些更改不会自动保存。您必须将它们应用到聊天机器人的设置或**检索** Agent 组件的设置中。
常见问题
启用“使用知识图谱”开关时是否会使用大语言模型?
是的,您的大语言模型将参与分析您的查询,并从知识图谱中提取相关的实体和关系。这也解释了为什么会消耗额外的 token 和时间。