与知识库对话 - 如何把飞书知识库转化为大模型本地知识库

回答

要将飞书知识库转化为大模型本地知识库，您可以参考以下步骤：

一、了解 RAG 技术

因为利用大模型的能力搭建知识库本身就是一个 RAG 技术的应用，所以在进行本地知识库的搭建实操之前，需要先对 RAG 有一个大概的了解。

大模型的训练数据是有截止日期的，当需要依靠不包含在大模型训练集中的数据时，实现这一点的主要方法就是通过检索增强生成 RAG（Retrieval Augmented Generation）。在这个过程中，首先检索外部数据，然后在生成步骤中将这些数据传递给 LLM。

一个 RAG 的应用可以抽象为以下 5 个过程：

文档加载：从多种不同来源加载文档。LangChain 提供了 100 多种不同的文档加载器，包括 PDF 在内的非结构化的数据、SQL 在内的结构化的数据，以及 Python、Java 之类的代码等。
文本分割：文本分割器把 Documents 切分为指定大小的块，称为“文档块”或者“文档片”。
存储：存储涉及到两个环节，分别是将切分好的文档块进行嵌入转换成向量的形式，将 Embedding 后的向量数据存储到向量数据库。
检索：一旦数据进入向量数据库，通过某种检索算法找到与输入问题相似的嵌入片。

二、本地知识库进阶

AnythingLLM 中有一个 Workspace 的概念，可以创建自己独有的 Workspace 跟其他的项目数据进行隔离。具体步骤如下：

首先创建一个工作空间。
上传文档并且在工作空间中进行文本嵌入。
选择对话模式。AnythingLLM 提供了两种对话模式：Chat 模式，大模型会根据自己的训练数据和上传的文档数据综合给出答案；Query 模式，大模型仅仅会依靠文档中的数据给出答案。
测试对话。当上述配置完成之后，就可以跟大模型进行对话了。

三、通过 Open WebUI 使用大模型

首先访问相应网址。打开页面时会要求登陆，随便使用一个邮箱注册一个账号即可。
登陆成功后，可以和本地大模型进行对话。Open WebUI 一般有两种使用方式：第一种是聊天对话；第二种是 RAG 能力，也就是可以让模型根据文档内容来回答问题，这种能力是构建知识库的基础之一。

如果您的要求不高，此时已经搭建了一个本地大模型，并且通过 Web UI 实现了和大模型进行对话的功能。ChatGPT 的访问速度比我们自己的要快，而且回答效果要好，原因有两个：快是因为 GPT 大模型部署的服务器配置高；好是因为 GPT 大模型的训练参数多，数据更优以及训练算法更好。如果您想要更加灵活的掌握您的知识库，请接着按照上述步骤操作。

内容由 AI 大模型生成，请仔细甄别（powered by aily）

参考资料

手把手教你本地部署大模型以及搭建个人知识库

因为利用大模型的能力搭建知识库本身就是一个RAG技术的应用。所以在进行本地知识库的搭建实操之前，我们需要先对RAG有一个大概的了解。以下内容会有些干，我会尽量用通俗易懂的描述进行讲解。我们都知道大模型的训练数据是有截止日期的，那当我们需要依靠不包含在大模型训练集中的数据时，我们该怎么做呢？实现这一点的主要方法就是通过检索增强生成RAG（Retrieval Augmented Generation）。在这个过程中，首先检索外部数据，然后在生成步骤中将这些数据传递给LLM。我们可以将一个RAG的应用抽象为下图的5个过程：文档加载（Document Loading）：从多种不同来源加载文档。LangChain提供了100多种不同的文档加载器，包括PDF在内的非结构化的数据、SQL在内的结构化的数据，以及Python、Java之类的代码等文本分割（Splitting）：文本分割器把Documents切分为指定大小的块，我把它们称为“文档块”或者“文档片”存储（Storage）：存储涉及到两个环节，分别是：将切分好的文档块进行嵌入（Embedding）转换成向量的形式将Embedding后的向量数据存储到向量数据库检索（Retrieval）：一旦数据进入向量数据库，我们仍然需要将数据检索出来，我们会通过某种检索算法找到与输入问题相似的嵌入片

手把手教你本地部署大模型以及搭建个人知识库

AnythingLLM中有一个Workspace的概念，我们可以创建自己独有的Workspace跟其他的项目数据进行隔离。1.首先创建一个工作空间1.上传文档并且在工作空间中进行文本嵌入1.选择对话模式AnythingLLM提供了两种对话模式：Chat模式：大模型会根据自己的训练数据和我们上传的文档数据综合给出答案Query模式：大模型仅仅会依靠文档中的数据给出答案1.测试对话当上述配置完成之后，我们就可以跟大模型进行对话了

手把手教你本地部署大模型以及搭建个人知识库

1.首先访问如下网址当你打开这个页面的时候，会让你登陆，这个时候我们随便使用一个邮箱注册一个账号即可1.和本地大模型进行对话登陆成功之后，如果你已经使用过ChatGPT等类似的大模型对话网站，我相信你对这个页面并不陌生。Open WebUI一般有两种使用方式第一种是聊天对话第二种是RAG能力，也就是可以让模型根据文档内容来回答问题。这种能力就是构建知识库的基础之一如果你的要求不高的话，我们已经搭建了一个本地大模型了，并且通过Web UI实现了和大模型进行对话的功能。相信通过这么一通折腾，你就理解了ChatGPT的信息流，至于为什么ChatGPT的访问速度比我们自己的要快，而且回答效果要好，有两个原因快：是因为GPT大模型部署的服务器配置高好：是因为GPT大模型的训练参数多，数据更优以及训练算法更好如果你想要更加灵活的掌握你的知识库，请接着往下看