以下是关于创建和使用数据知识库的相关信息:
智能体:
安装 Coze Scraper: 安装扩展程序至浏览器后,可按以下步骤采集数据上传到知识库:
Obsidian 加 Cursor:
本次创建知识库使用手动清洗数据,上节课程是自动清洗数据:[【智能体】用Coze在微信里搭建一个机器人,还能挖掘销售线索](https://a1i1hjmvcf0.feishu.cn/docx/JSdDd8ybLo7OHqxmePwcHlbLn3b?from=from_copylink),自动清洗数据会出现目前数据不准的情况,本节视频就尝试使用手动清洗数据,提高数据的准确性。[heading3]3.1在线知识库[content]点击创建知识库,创建一个画小二课程的FAQ知识库知识库的飞书在线文档,其中每个问题和答案以###分割,暂时不要问为什么。选择飞书文档选择自定义的自定义输入###然后他就将飞书的文档内容以###区分开来,这里可以点击编辑修改和删除。点击添加Bot添加好可以在调试区测试效果[heading3]3.2本地文档[content]本地word文件,这里要注意了~~~如何拆分内容,提高训练数据准确度,将海报的内容训练的知识库里面画小二这个课程80节课程,分为了11个章节,那训练数据能不能一股脑全部放进去训练呢。答案是~~不能滴~~~正确的方法,首先将11章的大的章节名称内容放进来,如下图所示。章节内详细内容格式如下如所示,如果你再分节的内容,依次类推细化下去。每个章节都按照这种固定的方式进行人工标注和处理然后选择创建知识库自定义清洗数据,这里不再赘述。[heading3]3.3发布应用[content]点击发布确保在Bot商店中能够搜到,如图所示可以搜索到画小二智能小助手,这个很重要,没有通过发布的获取不到API的。
至此扩展程序已成功安装至浏览器。完成安装后,你就可以使用该工具手动采集要上传到扣子知识库的内容了。以下操作展示如何使用该工具手动采集数据上传到知识库,更多关于知识库的内容,详情请参考[创建并使用知识库](https://www.coze.cn/docs/guides/use_knowledge)。1.登录[扣子](https://www.coze.cn/home)。2.在左侧菜单栏,选择一个工作区。3.在工作区内,单击知识库页签。4.创建一个知识库或点击一个已存在的知识库。5.在知识库页面,单击新增单元。6.在文本格式页签下,选择在线数据,然后单击下一步。1.单击手动采集,然后在弹出的页面点击权限授予完成授权。1.在弹出的页面输入要采集内容的网址,然后单击确认。2.在弹出的页面上,点击页面下方文本标注按钮,开始标注要提取的内容,然后单击文本框上方的文本或链接按钮。3.单击查看数据查看已采集的内容,确认无误后再点击完成并采集。
Obsidian虽然支持各种方式(标签、反向链接)组织和搜索你的笔记,但是大部分还是基于关键字的搜索,但在一个很大的笔记系统上记住检索用的各种关键词基本上是不可能的任务,我们下意识总是想到问题,而不是相关关键词。所以很多人笔记库大了以后也是因为这个原因放弃了Obsidian,如果要组织调理实在太耗时间,但是不组织又找不到自己的笔记。AI最擅长的就是寻找模糊的内容和问题,比如我需要找到笔记库剪藏文件夹里面保存的一个关于苹果的蒸馏研究,只需要在Trae右侧的Chat输入框输入「#」然后选择剪藏文件夹,提问苹果关于模型蒸馏的内容就行。可以看到结果里面Trae不止给了我们这个文章的介绍,而且给了原始的笔记文件链接可以直接打开,甚至还从文章提取了论文的网址。[heading2]用Trae和Obsidian辅助研究[content]我们经常需要对多个不同的笔记文件进行比较或者综合整理进行研究,这个时候也可以用刚才类似的方法引用我们指定的笔记文件或者文件夹进行多轮的问答。比如我想要知道两个关于Deepseek的文档都提到的概念和信息有哪些,就可以在Chat输入框提问的时候用「#」分别引用这两个文档。可以看到结果的对比是非常详细的。如果你对总结的内容有新的想法或者疑问也可以直接与AI进行新的讨论,比如我这里就询问了Trae关于Deepseek R1 600万美元的训练成本问题,他也从网上找了一些信息进行参考。你们也可以根据自己的需求和内容发散更多类似的用法,比如:用来学习和复习,可以根据你的笔记生成测验、抽认卡或复习总结,帮助你巩固知识。如果你的笔记包含结构化数据(比如表格或日志),AI可以帮你分析这些数据。