Chat with Wiki - 从0到1搭建知识库

Answer

从 0 到 1 搭建知识库的方法如下：

【智能体】让 Coze 智能体机器人连上微信和微信群：
- 创建智能体：
  - 知识库：本次创建知识库使用手动清洗数据，上节课程是自动清洗数据。自动清洗数据会出现目前数据不准的情况，本节视频就尝试使用手动清洗数据，提高数据的准确性。
  - 在线知识库：点击创建知识库，创建一个画小二课程的 FAQ 知识库。知识库的飞书在线文档，其中每个问题和答案以###分割，暂时不要问为什么。选择飞书文档、自定义的自定义，输入###，然后就将飞书的文档内容以###区分开来，这里可以点击编辑修改和删除。点击添加 Bot，添加好可以在调试区测试效果。
  - 本地文档：本地 word 文件，注意如何拆分内容，提高训练数据准确度，将海报的内容训练的知识库里面。画小二这个课程 80 节课程，分为了 11 个章节，不能一股脑全部放进去训练。正确的方法是首先将 11 章的大的章节名称内容放进来，章节内详细内容格式依次类推细化下去。每个章节都按照这种固定的方式进行人工标注和处理，然后选择创建知识库自定义清洗数据。
  - 发布应用：点击发布，确保在 Bot 商店中能够搜到。
使用 Dify 构建知识库：
- 准备数据：收集需要纳入知识库的文本数据，包括文档、表格等格式。对数据进行清洗、分段等预处理，确保数据质量。
- 创建数据集：在 Dify 中创建一个新的数据集，并将准备好的文档上传至该数据集。为数据集编写良好的描述，描述清楚数据集包含的内容和特点。
- 配置索引方式：Dify 提供了三种索引方式供选择：高质量模式、经济模式和 Q&A 分段模式。根据实际需求选择合适的索引方式，如需要更高准确度可选高质量模式。
- 集成至应用：将创建好的数据集集成到 Dify 的对话型应用中，作为应用的上下文知识库使用。在应用设置中，可以配置数据集的使用方式，如是否允许跨数据集搜索等。
- 持续优化：收集用户反馈，对知识库内容和索引方式进行持续优化和迭代。定期更新知识库，增加新的内容以保持知识库的时效性。
【知识库】FastGPT + OneAPI + COW 带有知识库的机器人：
- 创建知识库应用：
  - 地址输入浏览器：http://这里替换为你宝塔左上角的那一串:3000/
  - 进入后，点击应用并创建，选择 qwen 模型。
  - 创建知识库。点击知识库 - 选择 qwen - Embedding - 1 点击确认创建。
  - 上传文件，等待处理，最后文本状态是“已就绪”。
  - 回到刚刚创建的应用，关联上创建的知识库。
  - 点击两个发布。之前第一个叫做保存。
  - 点击新建，创建 key。创建后保存同时将 API 根地址最后加上/v1 并保存下来。
- 安装并接入 cow：
  - 回到宝塔，打开【终端】。
  - 依次粘贴并回车：cd/root 。
  - git clone https://github.com/zhayujie/chatgpt-on-wechat ，注意一定要粘贴完整。
  - 出现下方的样子，就是成功了。如果失败，或者没反应，刷新一下，重新再试一次。
  - 继续一行一行，依次输入：cd chatgpt-on-wechat/ ，pip install -r requirements.txt 。
  - 等待执行完成，继续粘贴：pip install -r requirements - optional.txt 。
  - 上边的都执行完成后，到“文件”菜单中去执行，点击文件 - 找到 root，进入 root 文件夹，找到 chatgpt - on - wechat 文件夹，并进入。

Content generated by AI large model, please carefully verify (powered by aily)

References

本次创建知识库使用手动清洗数据，上节课程是自动清洗数据：[【智能体】用Coze在微信里搭建一个机器人，还能挖掘销售线索](https://a1i1hjmvcf0.feishu.cn/docx/JSdDd8ybLo7OHqxmePwcHlbLn3b?from=from_copylink),自动清洗数据会出现目前数据不准的情况，本节视频就尝试使用手动清洗数据，提高数据的准确性。[heading3]3.1在线知识库[content]点击创建知识库，创建一个画小二课程的FAQ知识库知识库的飞书在线文档，其中每个问题和答案以###分割，暂时不要问为什么。选择飞书文档选择自定义的自定义输入###然后他就将飞书的文档内容以###区分开来，这里可以点击编辑修改和删除。点击添加Bot添加好可以在调试区测试效果[heading3]3.2本地文档[content]本地word文件，这里要注意了~~~如何拆分内容，提高训练数据准确度，将海报的内容训练的知识库里面画小二这个课程80节课程，分为了11个章节，那训练数据能不能一股脑全部放进去训练呢。答案是~~不能滴~~~正确的方法，首先将11章的大的章节名称内容放进来，如下图所示。章节内详细内容格式如下如所示，如果你再分节的内容，依次类推细化下去。每个章节都按照这种固定的方式进行人工标注和处理然后选择创建知识库自定义清洗数据，这里不再赘述。[heading3]3.3发布应用[content]点击发布确保在Bot商店中能够搜到，如图所示可以搜索到画小二智能小助手，这个很重要，没有通过发布的获取不到API的。

问：Dify 构建知识库的具体步骤

使用Dify构建知识库的具体步骤如下：1.准备数据：收集需要纳入知识库的文本数据，包括文档、表格等格式。对数据进行清洗、分段等预处理，确保数据质量。2.创建数据集：在Dify中创建一个新的数据集，并将准备好的文档上传至该数据集。为数据集编写良好的描述，描述清楚数据集包含的内容和特点。3.配置索引方式：Dify提供了三种索引方式供选择：高质量模式、经济模式和Q&A分段模式。根据实际需求选择合适的索引方式，如需要更高准确度可选高质量模式。4.集成至应用：将创建好的数据集集成到Dify的对话型应用中，作为应用的上下文知识库使用。在应用设置中，可以配置数据集的使用方式，如是否允许跨数据集搜索等。5.持续优化：收集用户反馈，对知识库内容和索引方式进行持续优化和迭代。定期更新知识库，增加新的内容以保持知识库的时效性。总的来说，Dify提供了一个可视化的知识库管理工具，使得构建和维护知识库变得相对简单。关键步骤包括数据准备、数据集创建、索引配置，以及将知识库集成到应用中并持续优化。内容由AI大模型生成，请仔细甄别

张梦飞：【知识库】FastGPT+OneAPI+COW带有知识库的机器人完整教程

1、地址输入浏览器：http://这里替换为你宝塔左上角的那一串:3000/2、进入后，点击应用并创建，选择qwen模型3、创建知识库。点击知识库-选择qwen-Embedding-1点击确认创建。4、上传文件，等待处理，最后文本状态是“已就绪”就是OK了。5、回到刚刚创建的应用，关联上创建的知识库。6、点击两个发布。之前第一个叫做保存7、点击新建，创建key。创建后保存同时将API根地址最后加上/v1也保存下来。[heading1]七、安装并接入cow[content]1、回到宝塔，打开【终端】继续，一行一行依次粘贴，依次回车：cd/root2、这个注意一定要粘贴完整，这里容易粘贴不全。git clone https://github.com/zhayujie/chatgpt-on-wechat3、出现下方的样子，就是成功了。如果失败，或者没反应，刷新一下，重新再试一次4、继续一行一行，依次输入：cd chatgpt-on-wechat/pip install-r requirements.txt5、等待执行完成，如上图后，继续粘贴：pip install-r requirements-optional.txt6、上边的都执行完成后。现在我们到“文件”菜单中去执行，点击文件-找到root，进入root文件夹,找到chatgpt-on-wechat文件夹，并进入。