Chat with Wiki - RAG与Agent如何结合应用

Answer

RAG 与 Agent 的结合应用主要通过以下步骤实现：

数据加载：根据数据源类型选择合适的数据加载器，如对于网页数据源可使用 WebBaseLoader 加载和解析网页，获取文档对象。
文本分割：依据文本特点选用合适的文本分割器，将文档对象分割成较小的文档对象。例如，对于博客文章可用 RecursiveCharacterTextSplitter 递归分割。
嵌入与存储：使用文本嵌入器将文档对象转换为嵌入，并存储到向量存储器中。可根据嵌入质量和速度选择，如 OpenAI 的嵌入模型和 Chroma 的向量存储器。
创建检索器：通过向量存储器检索器，传递向量存储器对象和文本嵌入器对象作为参数，创建用于根据用户输入检索相关文档对象的检索器。
创建聊天模型：根据模型性能和成本选择合适的聊天模型，如 OpenAI 的 GPT-3 模型，用于根据用户输入和检索到的文档对象生成输出消息。

以餐饮生活助手为例，展示基于结构化数据的 RAG 实战：

定义餐饮数据源：将餐饮数据集转化为 Langchain 可识别和操作的数据源，如数据库、文件、API 等，并注册到 Langchain 中，提供统一接口和方法供 LLM 代理访问和查询。
定义 LLM 的代理：通过 Langchain 的代理（Agent）实现，提取用户问题的核心信息和条件，形成标准查询语句，检索餐饮数据源并生成合适答案输出给用户。代理管理器可定义不同的 LLM 代理及其功能逻辑，提供统一接口和方法方便用户交互。

以下是使用 LangChain 构建 RAG 应用的示例代码。

Content generated by AI large model, please carefully verify (powered by aily)

References

开发：LangChain应用开发指南-大模型的知识外挂RAG

首先，我们需要加载我们的数据。我们可以使用数据加载器来实现这一步，根据数据源的类型选择合适的数据加载器。例如，如果我们的数据源是一个网页，我们可以使用WebBaseLoader，它可以使用urllib和BeautifulSoup()来加载和解析网页，返回一个文档对象。然后，我们需要将我们的文档对象分割成较小的文档对象。我们可以使用文本分割器来实现这一步，根据文本的特点选择合适的文本分割器。例如，如果我们的文本是一个博客文章，我们可以使用RecursiveCharacterTextSplitter，它可以递归地使用常见的分隔符（如换行符）来分割文本，直到每个文档对象的大小符合要求。接下来，我们需要将我们的文档对象转换为嵌入，并存储到向量存储器中。我们可以使用文本嵌入器和向量存储器来实现这一步，根据嵌入的质量和速度选择合适的文本嵌入器和向量存储器。例如，如果我们想要使用OpenAI的嵌入模型和Chroma的向量存储器，我们可以使用OpenAIEmbeddings()和ChromaVectorStore。然后，我们需要创建一个检索器，用于根据用户的输入检索相关的文档对象。我们可以使用向量存储器检索器来实现这一步，-传递一个向量存储器对象和一个文本嵌入器对象作为参数，创建一个向量存储器检索器对象。最后，我们需要创建一个聊天模型，用于根据用户的输入和检索到的文档对象生成一个输出消息。我们可以使用LangChain提供的聊天模型来实现这一步，根据模型的性能和成本选择合适的聊天模型。例如，如果我们想要使用OpenAI的GPT-3模型，我们可以使用OpenAIChatModel。下面是一个使用LangChain构建RAG应用的示例代码：

开发：LangChain应用开发指南-不用向量也可以RAG

为了更好地展示结构化数据来RAG的方法的实际效果，我们以餐饮生活助手为例，给出用户提问和回复的示例，以及餐饮生活助手RAG的代码实战。餐饮生活助手是一个基于结构化数据RAG的方法的应用，它的目的是根据用户的需求，从一个大规模的餐饮数据集中检索出最合适的餐厅，并提供相关的信息和服务。餐饮数据集是一个结构化的数据集，它包含了各种各样的餐厅的信息，例如名称、类型、地址、电话、价格、评分、评论等。餐饮生活助手的核心是一个LLM，它能够根据用户的问题，提取出核心的信息和条件，并形成标准的查询语句，然后用这个查询语句去检索餐饮数据集，得到相关的数据记录，再根据这些数据记录，生成最合适的答案，输出给用户。为了实现餐饮生活助手RAG的Langchain代码实战，我们需要完成以下几个步骤：定义餐饮数据源。我们需要将餐饮数据集转化为Langchain可以识别和操作的数据源，例如数据库、文件、API等，注册到Langchain中，并提供统一的接口和方法，让LLM的代理可以方便地访问和查询数据源。例如，我们可以将餐饮数据封装为一个API后，并结构化描述该接口的调用方式，并通过以下的代码，将其注册到Langchain中：定义LLM的代理。我们需要定义一个LLM的代理，它可以根据用户的问题，提取出核心的信息和条件，并形成标准的查询语句，然后用这个查询语句去检索餐饮数据源，得到相关的数据记录，再根据这些数据记录，生成最合适的答案，输出给用户。这可以通过Langchain的代理（Agent）来实现。代理管理器可以让开发者通过简单的编程，定义不同的LLM的代理，以及它们的功能和逻辑，并提供统一的接口和方法，让用户可以方便地与LLM的代理进行交互。

开发：LangChain应用开发指南-大模型的知识外挂RAG

首先，我们需要加载我们的数据。我们可以使用数据加载器来实现这一步，根据数据源的类型选择合适的数据加载器。例如，如果我们的数据源是一个网页，我们可以使用WebBaseLoader，它可以使用urllib和BeautifulSoup来加载和解析网页，返回一个文档对象。然后，我们需要将我们的文档对象分割成较小的文档对象。我们可以使用文本分割器来实现这一步，根据文本的特点选择合适的文本分割器。例如，如果我们的文本是一个博客文章，我们可以使用RecursiveCharacterTextSplitter，它可以递归地使用常见的分隔符（如换行符）来分割文本，直到每个文档对象的大小符合要求。接下来，我们需要将我们的文档对象转换为嵌入，并存储到向量存储器中。我们可以使用文本嵌入器和向量存储器来实现这一步，根据嵌入的质量和速度选择合适的文本嵌入器和向量存储器。例如，如果我们想要使用OpenAI的嵌入模型和Chroma的向量存储器，我们可以使用OpenAIEmbeddings和ChromaVectorStore。然后，我们需要创建一个检索器，用于根据用户的输入检索相关的文档对象。我们可以使用向量存储器检索器来实现这一步，-传递一个向量存储器对象和一个文本嵌入器对象作为参数，创建一个向量存储器检索器对象。最后，我们需要创建一个聊天模型，用于根据用户的输入和检索到的文档对象生成一个输出消息。我们可以使用LangChain提供的聊天模型来实现这一步，根据模型的性能和成本选择合适的聊天模型。例如，如果我们想要使用OpenAI的GPT-3模型，我们可以使用OpenAIChatModel。下面是一个使用LangChain构建RAG应用的示例代码：