使用标签集
使用标签集为数据集中的分块打标签。
检索准确性是生产级 RAG 框架的试金石。除了自动关键词、自动问答和知识图谱等检索增强方法外,RAGFlow 还引入了自动标签功能来弥补语义差距。自动标签功能根据相似性自动将用户定义的标签集中的标签映射到知识库中相关的分块。这种自动化机制允许您在现有数据集上应用额外的领域特定知识“层”,这对于处理大量分块特别有用。
要使用此功能,请确保您至少配置了一个正确的标签集,在您的知识库(数据集)的配置页面指定标签集,然后重新解析您的文档以启动自动标签过程。在此过程中,您的数据集中的每个分块将与指定标签集中的每个条目进行比较,并根据相似性自动应用标签。
自动标签功能在 Infinity 文档引擎上不可用。
场景
自动标签适用于分块彼此非常相似,以至于无法区分所需分块与其他分块的情况。例如,当您有一些关于 iPhone 的分块,而大多数是关于 iPhone 保护壳或 iPhone 配件时,很难在没有额外信息的情况下检索那些关于 iPhone 的分块。
创建标签集
您可以将标签集视为一个封闭集,附加到数据集(知识库)中分块的标签仅来自指定的标签集。您使用标签集来“告知”RAGFlow 应该给哪些分块打标签以及应用哪些标签。
准备标签表格文件
一个标签集可以包含一个或多个 XLSX、CSV 或 TXT 格式的表格文件。标签集中的每个表格文件包含两列:描述和标签
- 第一列提供第二列中列出的标签的描述。这些描述可以是示例分块或示例查询。每个条目与您的数据集中的每个分块之间将计算相似性。
- 标签列包含与描述条目配对的标签。多个标签应使用逗号 (,) 分隔。
经验法则,考虑在您的标签表格中包含以下条目
- 所需分块的描述,以及它们对应的标签。
- 使用其他方法未能检索到正确答案的用户查询,确保其标签与数据集中的所需分块匹配。
创建一个标签集
- 点击+ 创建知识库来创建一个知识库。
- 导航到创建的知识库的配置页面,选择标签作为默认的分块方法。
- 导航到数据集页面,上传并解析您的 XLSX、CSV 或 TXT 格式的表格文件。
在标签视图部分下方出现一个标签云,表明标签集已创建
- 点击表格标签页以查看标签频率表格
标签集不参与文档索引或检索。在配置您的聊天助手或代理时,不要指定标签集。
标签分块
标签集创建后,您可以将其应用到您的数据集
- 导航到您的知识库(数据集)的配置页面。
- 从标签集下拉菜单中选择标签集,然后点击保存确认。
如果下拉菜单中没有标签集,请检查它是否已创建或配置正确。
- 重新解析您的文档以启动自动标签过程。
在使用自动标记数据集的 AI 聊天场景中,每个查询将使用相应的标签集进行标记,并且带有这些标签的分块将更有可能被检索到。
更新标签集
创建标签集并非一劳永逸。通常,您可能会发现有必要更新或删除现有标签,或者添加新条目。
- 您可以在标签频率表格中更新现有标签集。
- 要添加新条目,您可以添加并解析新的 XLSX、CSV 或 TXT 格式的表格文件。
在标签频率表格中更新标签集
- 导航到标签集的配置页面。
- 点击标签视图下的表格标签页,查看标签频率表格,您可以在此处更新标签名称或删除标签。
更新标签集后,您必须重新解析数据集中的文档,以便相应地更新它们的标签。
添加新的表格文件
- 导航到标签集的配置页面。
- 导航到数据集页面,上传并解析您的 XLSX、CSV 或 TXT 格式的表格文件。
如果您向标签集中添加新的表格文件,是否重新解析数据集中的文档由您自行决定。
常见问题
我可以引用多个标签集吗?
是的,可以。通常一个标签集就足够了。当使用多个标签集时,请确保它们彼此独立;否则,考虑合并您的标签集。
标签集和标准知识库有什么区别?
标准知识库是一个数据集。它将由 RAGFlow 的文档引擎搜索,检索到的分块将提供给 LLM。相比之下,标签集仅用于为数据集中的分块附加标签。它不直接参与检索过程,并且在为您的聊天助手或代理选择数据集时不应选择标签集。
自动标签和自动关键词有什么区别?
这两个功能都能增强 RAGFlow 的检索能力。自动关键词功能依赖于 LLM 并消耗大量 token,而自动标签功能基于向量相似性和预定义标签集。您可以将自动关键词功能应用的关键词视为开放集,因为它们由 LLM 生成。相比之下,标签集可以视为用户定义的封闭集,使用前需要上传指定格式的标签集。