以下是关于利用 deep seek 建立知识库应用的相关内容:
RAG 技术: 利用大模型的能力搭建知识库是 RAG 技术的应用。在需要依靠不包含在大模型训练集中的数据时,主要通过检索增强生成 RAG 实现。RAG 应用可抽象为 5 个过程:
创建知识库应用的具体步骤:
此外,在安装并接入 cow 方面:
因为利用大模型的能力搭建知识库本身就是一个RAG技术的应用。所以在进行本地知识库的搭建实操之前,我们需要先对RAG有一个大概的了解。以下内容会有些干,我会尽量用通俗易懂的描述进行讲解。我们都知道大模型的训练数据是有截止日期的,那当我们需要依靠不包含在大模型训练集中的数据时,我们该怎么做呢?实现这一点的主要方法就是通过检索增强生成RAG(Retrieval Augmented Generation)。在这个过程中,首先检索外部数据,然后在生成步骤中将这些数据传递给LLM。我们可以将一个RAG的应用抽象为下图的5个过程:文档加载(Document Loading):从多种不同来源加载文档。LangChain提供了100多种不同的文档加载器,包括PDF在内的非结构化的数据、SQL在内的结构化的数据,以及Python、Java之类的代码等文本分割(Splitting):文本分割器把Documents切分为指定大小的块,我把它们称为“文档块”或者“文档片”存储(Storage):存储涉及到两个环节,分别是:将切分好的文档块进行嵌入(Embedding)转换成向量的形式将Embedding后的向量数据存储到向量数据库检索(Retrieval):一旦数据进入向量数据库,我们仍然需要将数据检索出来,我们会通过某种检索算法找到与输入问题相似的嵌入片Output(输出):把问题以及检索出来的嵌入片一起提交给LLM,LLM会通过问题和检索出来的提示一起来生成更加合理的答案[heading2]文本加载器(Document Loaders)[content]文本加载器就是将用户提供的文本加载到内存中,便于进行后续的处理
1、地址输入浏览器:http://这里替换为你宝塔左上角的那一串:3000/2、进入后,点击应用并创建,选择qwen模型3、创建知识库。点击知识库-选择qwen-Embedding-1点击确认创建。4、上传文件,等待处理,最后文本状态是“已就绪”就是OK了。5、回到刚刚创建的应用,关联上创建的知识库。6、点击两个发布。之前第一个叫做保存7、点击新建,创建key。创建后保存同时将API根地址最后加上/v1也保存下来。[heading1]七、安装并接入cow[content]1、回到宝塔,打开【终端】继续,一行一行依次粘贴,依次回车:cd/root2、这个注意一定要粘贴完整,这里容易粘贴不全。git clone https://github.com/zhayujie/chatgpt-on-wechat3、出现下方的样子,就是成功了。如果失败,或者没反应,刷新一下,重新再试一次4、继续一行一行,依次输入:cd chatgpt-on-wechat/pip install-r requirements.txt5、等待执行完成,如上图后,继续粘贴:pip install-r requirements-optional.txt6、上边的都执行完成后。现在我们到“文件”菜单中去执行,点击文件-找到root,进入root文件夹,找到chatgpt-on-wechat文件夹,并进入。
1、地址输入浏览器:http://这里替换为你宝塔左上角的那一串:3000/账号root密码12342、进入后,点击应用并创建,选择qwen模型3、创建知识库。点击知识库-选择qwen-Embedding-1点击确认创建。4、上传文件,等待处理,最后文本状态是“已就绪”就是OK了。5、回到刚刚创建的应用,关联上创建的知识库。6、点击两个发布。之前第一个叫做保存7、点击新建,创建key。创建后保存同时将API根地址最后加上/v1也保存下来。10、双击这个文件,我画红框的地方是需要修改的地方。*因为这个地方对格式和符合要求比较严格,如果是小白,建议你直接复制我下方的配置。[heading2]六、接入cow[content]11、删除上图文件里的所有代码。复制下边的代码,粘贴到文件里。粘贴后,找到第4、5行,把刚才FastGPT里拿到API和key,根据要求粘贴到双引号里。这也是你唯一需要修改的地方。修改完之后,点击保存,关闭文件。[heading1]第五天教程:HOOK机制的机器人教学