自动关键词自动提问
使用聊天模型从知识库的每个 Chunk 中生成关键词或问题。
在选择 Chunking 方法时,您还可以启用自动关键词或自动问答功能以提高检索率。此功能使用聊天模型从每个创建的 Chunk 中生成指定数量的关键词和问题,从而从原始内容生成“额外的信息层”。
警告
启用此功能会增加文档索引时间和消耗额外的 Token,因为所有创建的 Chunk 都将被发送到聊天模型以生成关键词或问题。
什么是自动关键词?
自动关键词是指 RAGFlow 的自动关键词生成功能。它使用聊天模型从每个 Chunk 生成一组关键词或同义词,以纠正错误并提高检索准确性。此功能在知识库的**配置**页面,**Page rank** 下方以滑块形式实现。
取值范围:
- 0:(默认)禁用。
- 3 到 5 之间(含):如果您的 Chunk 大小约为 1000 个字符,建议使用此范围。
- 30(最大值)
注意
- 如果您的 Chunk 大小增加,可以相应地增加该值。请注意,随着值的增加,边际效益会递减。
- 自动关键词的值必须是整数。如果设置为非整数(例如 1.7),它将被向下取整,即为 1。
什么是自动问答?
自动问答是 RAGFlow 的一项功能,它使用聊天模型从数据 Chunk 中自动生成问题。这些问题(例如,关于人物、事件、原因等)也有助于纠正错误并改善用户查询的匹配度。该功能通常适用于涉及产品手册或政策文件的 FAQ 检索场景。您可以在知识库的**配置**页面,**Page rank** 下方找到此功能的滑块。
取值范围:
- 0:(默认)禁用。
- 1 或 2:如果您的 Chunk 大小约为 1000 个字符,建议使用此范围。
- 10(最大值)
注意
- 如果您的 Chunk 大小增加,可以相应地增加该值。请注意,随着值的增加,边际效益会递减。
- 自动问答的值必须是整数。如果设置为非整数(例如 1.7),它将被向下取整,即为 1。
社区技巧分享
自动关键词或自动问答的取值与知识库中的 Chunking 大小密切相关。但是,如果您是初次使用此功能,并且不确定从哪个值开始,以下是我们从社区收集的一些设置建议。虽然它们可能不完全精确,但至少提供了一个起点。
用例或典型场景 | 文档量/长度 | 自动关键词 (0–30) | 自动问答 (0–10) |
---|---|---|---|
员工手册的内部流程指南 | 小,少于 10 页 | 0 | 0 |
客户服务常见问题解答 | 中,10–100 页 | 3–7 | 1–3 |
技术白皮书:开发标准、协议细节 | 大,超过 100 页 | 2–4 | 1–2 |
合同 / 法规 / 法律条款检索 | 大,超过 50 页 | 2–5 | 0–1 |
多知识库分层的新文档 + 旧档案 | 多 | 酌情调整 | 酌情调整 |
社交媒体评论池:多语言和混合拼写 | 大量短文本 | 8–12 | 0 |
用于故障排查的操作日志 | 大量短文本 | 3–6 | 0 |
营销素材库:多语言产品描述 | 中 | 6–10 | 1–2 |
培训课程 / 电子书 | 大 | 2–5 | 1–2 |
维护手册:设备图纸 + 步骤 | 中 | 3–7 | 1–2 |