Chat with Wiki - 有什么方法可以更好与coze的知识库提取正确的内容

Answer

以下是一些更好地从 Coze 的知识库提取正确内容的方法：

对于创建智能体的知识库：
- 注意本地 word 文件的处理，要合理拆分内容以提高训练数据准确度，比如将海报内容训练进知识库时，不能一股脑全部放入，应先放入 11 章的大章节名称内容，章节内详细内容要按固定方式进行人工标注和处理，然后选择创建知识库自定义清洗数据。
安装 Coze Scraper 用于采集数据：
- 扩展程序成功安装至浏览器后，登录扣子，在左侧菜单栏选择一个工作区，在工作区内单击知识库页签，创建或点击已存在的知识库，在知识库页面单击新增单元，在文本格式页签下选择在线数据，然后单击下一步。接着单击手动采集，完成权限授予，输入要采集内容的网址，标注要提取的内容，查看数据确认无误后完成并采集。
关于深入理解 RAG 中的文档切割：
- 包括定义和背景、算法种类、应用场景、发展趋势等方面。通过将长文档切割成小块，检索系统能更高效地找到用户查询所需的信息。

Content generated by AI large model, please carefully verify (powered by aily)

References

本地word文件，这里要注意了~~~如何拆分内容，提高训练数据准确度，将海报的内容训练的知识库里面画小二这个课程80节课程，分为了11个章节，那训练数据能不能一股脑全部放进去训练呢。答案是~~不能滴~~~正确的方法，首先将11章的大的章节名称内容放进来，如下图所示。章节内详细内容格式如下如所示，如果你再分节的内容，依次类推细化下去。每个章节都按照这种固定的方式进行人工标注和处理然后选择创建知识库自定义清洗数据，这里不再赘述。

安装 Coze Scraper

至此扩展程序已成功安装至浏览器。完成安装后，你就可以使用该工具手动采集要上传到扣子知识库的内容了。以下操作展示如何使用该工具手动采集数据上传到知识库，更多关于知识库的内容，详情请参考[创建并使用知识库](https://www.coze.cn/docs/guides/use_knowledge)。1.登录[扣子](https://www.coze.cn/home)。2.在左侧菜单栏，选择一个工作区。3.在工作区内，单击知识库页签。4.创建一个知识库或点击一个已存在的知识库。5.在知识库页面，单击新增单元。6.在文本格式页签下，选择在线数据，然后单击下一步。1.单击手动采集，然后在弹出的页面点击权限授予完成授权。1.在弹出的页面输入要采集内容的网址，然后单击确认。2.在弹出的页面上，点击页面下方文本标注按钮，开始标注要提取的内容，然后单击文本框上方的文本或链接按钮。3.单击查看数据查看已采集的内容，确认无误后再点击完成并采集。

这可能是讲 Coze 的知识库最通俗易懂的文章了

1.定义和背景：介绍机器学习的基本定义和背景知识。2.算法种类：描述不同类型的机器学习算法，如监督学习、无监督学习和强化学习。3.应用场景：列举机器学习在不同领域的应用，如图像识别、自然语言处理等。4.发展趋势：讨论机器学习的发展趋势和未来方向。通过将长文档切割成这些小块，检索系统可以更高效地找到用户查询所需的信息。例如，如果用户询问“机器学习有哪些主要算法？”，系统可以直接检索并返回“算法种类”这个文档块，快速且准确地回答问题。