配置知识库
知识库、无幻觉聊天和文件管理是 RAGFlow 的三大支柱。RAGFlow 的 AI 聊天基于知识库。每个 RAGFlow 知识库都作为知识来源,将从本地机器上传的文件和在 文件管理 中生成的文件引用解析成未来 AI 聊天的真正“知识”。本指南演示了知识库的一些基本用法,涵盖以下主题:
- 创建知识库
- 配置知识库
- 搜索知识库
- 删除知识库
创建知识库
拥有多个知识库,可以构建更灵活、更多样化的问答系统。要创建您的第一个知识库
每次创建知识库时,都会在 root/.knowledgebase 目录下生成一个同名文件夹。
配置知识库
以下截图显示了知识库的配置页面。正确配置知识库对于未来的 AI 聊天至关重要。例如,选择错误的嵌入模型或分块方法可能会导致意外的语义丢失或聊天中出现不匹配的答案。
本节涵盖以下主题
- 选择分块方法
- 选择嵌入模型
- 上传文件
- 解析文件
- 干预文件解析结果
- 运行检索测试
选择分块方法
RAGFlow 提供多种分块模板,以方便对不同布局的文件进行分块并确保语义完整性。在 分块方法 中,您可以选择适合文件布局和格式的默认模板。下表显示了每种支持的分块模板的描述和兼容文件格式
模板 | 描述 | 文件格式 |
---|---|---|
通用 | 文件根据预设的分块 Token 数量连续分块。 | DOCX, XLSX, XLS (Excel 97-2003), PPT, PDF, TXT, JPEG, JPG, PNG, TIF, GIF, CSV, JSON, EML, HTML |
Q&A | XLSX, XLS (Excel 97-2003), CSV/TXT | |
简历 | 仅限企业版。您也可以在 demo.ragflow.io 上试用。 | DOCX, PDF, TXT |
手动 | ||
表格 | XLSX, XLS (Excel 97-2003), CSV/TXT | |
论文 | ||
书籍 | DOCX, PDF, TXT | |
法律 | DOCX, PDF, TXT | |
演示文稿 | PDF, PPTX | |
图片 | JPEG, JPG, PNG, TIF, GIF | |
整体 | 每个文档被整体分块 (作为一个)。 | DOCX, XLSX, XLS (Excel 97-2003), PDF, TXT |
标签 | 该知识库充当其他知识库的标签集。 | XLSX, CSV/TXT |
您还可以在 数据集 页面上更改文件的分块方法。
选择嵌入模型
嵌入模型将分块转换为嵌入。知识库一旦有分块,嵌入模型就不能更改。要切换到不同的嵌入模型,您必须删除知识库中所有现有的分块。明显的原因是我们必须确保特定知识库中的文件使用相同的嵌入模型转换为嵌入(确保它们在同一嵌入空间中进行比较)。
以下嵌入模型可以在本地部署
- BAAI/bge-large-zh-v1.5
- maidalun1020/bce-embedding-base_v1
上传文件
- RAGFlow 的 文件管理 允许您将一个文件链接到多个知识库,在这种情况下,每个目标知识库都持有该文件的引用。
- 在 知识库 中,您还可以选择将单个文件或文件文件夹(批量上传)从本地机器上传到知识库,在这种情况下,知识库将保存文件副本。
虽然直接将文件上传到知识库似乎更方便,但我们强烈建议将文件上传到 文件管理,然后将它们链接到目标知识库。这样,您可以避免永久删除上传到知识库的文件。
解析文件
文件解析是知识库配置中的一个关键主题。文件解析在 RAGFlow 中具有双重含义:基于文件布局对文件进行分块,以及在这些分块上构建嵌入索引和全文(关键词)索引。选择分块方法和嵌入模型后,您可以开始解析文件
- 点击 未开始 旁边的播放按钮开始文件解析。
- 如果文件解析长时间停滞,请点击红色叉号图标,然后刷新页面。
- 如上所示,RAGFlow 允许您对特定文件使用不同的分块方法,提供超出默认方法的灵活性。
- 如上所示,RAGFlow 允许您启用或禁用单个文件,从而对基于知识库的 AI 聊天提供更精细的控制。
干预文件解析结果
RAGFlow 具有可视化和可解释性,允许您查看分块结果并在必要时进行干预。操作步骤如下
-
点击完成文件解析的文件以查看分块结果
您将被带到 分块 页面
-
将鼠标悬停在每个快照上,可以快速查看每个分块。
-
双击分块文本以添加关键词或在必要时进行手动更改
您可以向文件分块添加关键词,以提高其在包含这些关键词的查询中的排名。此操作会增加其关键词权重,并可以提高其在搜索列表中的位置。
-
在检索测试中,在 测试文本 中快速提问,以仔细检查您的配置是否有效
从下图可以看出,RAGFlow 的回复带有真实的引用来源。
运行检索测试
RAGFlow 在聊天中同时使用全文搜索和向量搜索进行多路召回。在设置 AI 聊天之前,请考虑调整以下参数,以确保所需信息总能在答案中出现
- 相似度阈值:相似度低于此阈值的分块将被过滤。默认设置为 0.2。
- 向量相似度权重:向量相似度对总得分的贡献百分比。默认设置为 0.3。
详情请参见运行检索测试。
搜索知识库
截至 RAGFlow v0.18.0 版本,搜索功能仍处于初级阶段,仅支持按名称搜索知识库。
删除知识库
您可以删除知识库。将鼠标悬停在目标知识库卡片的三点上,就会出现 删除 选项。一旦删除知识库,root/.knowledge 目录下的关联文件夹将被自动删除。后果是
- 直接上传到知识库的文件会丢失;
- 您在 文件管理 中创建的文件引用会消失,但关联文件仍存在于 文件管理 中。