Chat with Wiki - 搭建知识库支语言好

Answer

搭建知识库可以采用以下几种方式和涉及的相关语言：

基于 GPT API 搭建定制化知识库：
- 需给 GPT 输入（投喂）定制化知识，但 GPT-3.5（当前免费版的 ChatGPT）一次交互（输入和输出）只支持最高 4096 个 Token，约等于 3000 个单词或 2300 个汉字，容量对于多数领域知识不够。
- 为处理大量领域知识，OpenAI 提供了 embedding API 解决方案，embeddings 是浮点数字的向量（列表），两个向量之间的距离衡量关联性，小距离表示高关联度，大距离表示低关联度。
本地部署大模型搭建个人知识库：
- 利用大模型的能力搭建知识库是 RAG 技术的应用，在实操前需了解 RAG。
- RAG 应用包括文档加载（从多种来源加载文档，LangChain 提供 100 多种文档加载器）、文本分割（把 Documents 切分为指定大小的块）、存储（将切分好的文档块嵌入转换成向量形式并存储到向量数据库）、检索（通过检索算法找到与输入问题相似的嵌入片）、Output（把问题及检索出的嵌入片提交给 LLM 生成答案）。
用 Coze 免费打造微信 AI 机器人：
- 设计 AI 机器人时创建知识库，整理“关键字”与“AI 相关资料链接”的对应关系并存储。
- 知识库文档类型支持本地文档、在线数据、飞书文档、Notion 等，可使用本地文档，按照操作指引上传文档、分段设置、确认数据处理。
- 知识库好不好用与内容切分粒度有关，可在内容中加特殊分割符如“###”，分段标识符号选择“自定义”并填入“###”。

Content generated by AI large model, please carefully verify (powered by aily)

References

要搭建基于GPT API的定制化知识库，涉及到给GPT输入（投喂）定制化的知识。但GPT-3.5,也就是当前免费版的ChatGPT一次交互（输入和输出）只支持最高4096个Token，约等于3000个单词或2300个汉字。这点容量对于绝大多数领域知识根本不够。为了使用GPT的语言能力来处理大量的领域知识，OpenAI提供了embedding API解决方案。参考OpenAI embedding documents。[heading2]理解embeddings[content]embeddings(直译为嵌入）是一个浮点数字的向量（列表）。两个向量之间的距离衡量它们的关联性。小距离表示高关联度，大距离表示低关联度。进一步解释：向量（列表）：向量是数学中表示大小和方向的一个量，通常用一串数字表示。在计算机科学和数据科学中，向量通常用列表（list）来表示。列表是一种数据结构，它包含一组有序的元素。例如，一个二维向量可以表示为[2,3]，这意味着沿着两个轴的分量分别为2和3。在这里，"list"是一种编程术语，意味着一系列有序的数据。向量之间的距离：向量之间的距离是一种度量两个向量相似性的方法。有多种方式可以计算两个向量之间的距离，最常见的是欧几里得距离。欧几里得距离计算方法是将两个向量的对应元素相减，然后取平方和，再开平方。例如，向量A=[1,2]和向量B=[4,6]之间的欧几里得距离为sqrt((4-1)^2+(6-2)^2)=5。较小距离意味着高相关性，因为向量间相似度高。在OpenAI词嵌入中，靠近向量的词语在语义上相似。例如，“猫”和“狗”距离近，它们都是宠物，与“汽车”距离远，相关性低。文档上给了创建embeddings的示例上面的命令访问embeddings API接口，将input语句，转化成下面这一串浮点数字。

手把手教你本地部署大模型以及搭建个人知识库

因为利用大模型的能力搭建知识库本身就是一个RAG技术的应用。所以在进行本地知识库的搭建实操之前，我们需要先对RAG有一个大概的了解。以下内容会有些干，我会尽量用通俗易懂的描述进行讲解。我们都知道大模型的训练数据是有截止日期的，那当我们需要依靠不包含在大模型训练集中的数据时，我们该怎么做呢？实现这一点的主要方法就是通过检索增强生成RAG（Retrieval Augmented Generation）。在这个过程中，首先检索外部数据，然后在生成步骤中将这些数据传递给LLM。我们可以将一个RAG的应用抽象为下图的5个过程：文档加载（Document Loading）：从多种不同来源加载文档。LangChain提供了100多种不同的文档加载器，包括PDF在内的非结构化的数据、SQL在内的结构化的数据，以及Python、Java之类的代码等文本分割（Splitting）：文本分割器把Documents切分为指定大小的块，我把它们称为“文档块”或者“文档片”存储（Storage）：存储涉及到两个环节，分别是：将切分好的文档块进行嵌入（Embedding）转换成向量的形式将Embedding后的向量数据存储到向量数据库检索（Retrieval）：一旦数据进入向量数据库，我们仍然需要将数据检索出来，我们会通过某种检索算法找到与输入问题相似的嵌入片Output（输出）：把问题以及检索出来的嵌入片一起提交给LLM，LLM会通过问题和检索出来的提示一起来生成更加合理的答案[heading2]文本加载器（Document Loaders）[content]文本加载器就是将用户提供的文本加载到内存中，便于进行后续的处理

「AI 学习三步法：实践」用 Coze 免费打造自己的微信 AI 机器人

[heading5]3）创建【知识库】，整理“关键字”与“AI相关资料链接”的对应关系，并将信息存储起来。创建知识库路径：个人空间-知识库-创建知识库知识库文档类型支持：本地文档、在线数据、飞书文档、Notion等，本次使用【本地文档】按照操作指引上传文档、分段设置、确认数据处理。?小技巧：知识库好不好用，跟内容切分粒度有很大关系，我们可以在内容中加上一些特殊分割符，比如“###”，以便于自动切分数据。分段标识符号要选择“自定义”，内容填“###”。最终的知识库结果如下，同一颜色代表同一个数据段，如果内容有误需要编辑，可以点击具体内容，鼠标右键会看到“编辑”和“删除”按钮，可以编辑或删除。