Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

怎么搭建AI Agent

Answer

搭建 AI Agent 主要包括以下几个方面:

  1. AI Agent 的概念:AI Agent 简单来说就是拥有各项能力的“打工人”来帮我们做特定的事情。它包含了自己的知识库、工作流、还可以调用外部工具,再结合大模型的自然语言理解能力,就可以完成比较复杂的工作。
  2. 构建数字人灵魂中的 AI Agent 工程实现:所需的记忆模块,工作流模块、各种工具调用模块的构建都是挑战。
  3. 驱动躯壳的实现:灵魂部分怎样去驱动躯壳部分,我们可以将灵魂部分的所有接口定义出来,然后躯壳部分通过 API 调用,调用方式可以是 HTTP、webSocket 等等,视躯壳部分的实现而定。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做一些逻辑判断来播放预设,语音驱动口型相对来说成熟一些,但都是闭源的。
  4. 实时性:由于整个数字人的算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,所以算法一般会部署到额外的集群或者调用提供出来的 API,这里面就会涉及到网络耗时和模型推理耗时,如果响应太慢就会体验很差,所以低延时也是亟需解决的一个问题。
  5. 多元跨模态:仅仅是语音交互的数字人是远远不够的,人有五感(听觉、视觉、嗅觉、触觉、味觉),听觉只是其中一种,其他的感官可以根据实际需求来做。
  6. 拟人化场景:正常和人交流的时候不是线性对话,会有插话、转移话题等情况,这些情景如何通过工程丝滑处理。
  7. 制作 AI Agent 的方式:一般创建方式是 Prompt-tuning + Fine-tuning 相结合。单纯通过 Prompt 来构建大脑模块(Prompt-tuning),一般适合“无趣的灵魂”,即拟人化不是那么重的情况。针对“有趣的灵魂”,最直接的解决方式就是通过微调一个定向模型来达到上述效果。微调过程本质上是一个信息压缩和整合的过程,它能将例如三万条推特中的零散信息有效地整理并嵌入到大型模型的权重中,且权重占比不到 1%。这种方法不仅提高了信息提取的效率,还减少了每次查询或应用时所需处理的数据量,从而优化了性能和成本。

此外,像字节的扣子就是一个 AI Bot 开发平台,用户无论是否具备编程基础,都能在该平台上迅速构建基于 AI 模型的各类问答 Bot。创建智能体可以通过简单 3 步,首先起一个智能体的名称,然后写一段智能体的简单介绍,最后使用 AI 创建一个头像即可。

Content generated by AI large model, please carefully verify (powered by aily)

References

AI 数字人-定义数字世界中的你

[title]AI数字人-定义数字世界中的你[heading2]二、如何构建高质量的AI数字人[heading4]2.2构建数字人灵魂有了数字人躯壳,我们就需要构建数字人的灵魂,让数字人具备各种智能,比如记得你的个人信息,充当你的个人助手;在某个领域具备更专业的知识;能处理复杂的任务等等。这些能力实现有以下几个需要注意的工程关键点:1.AI Agent:我们要想数字人像人一样思考就需要写一个像人一样的Agent,工程实现所需的记忆模块,工作流模块、各种工具调用模块的构建都是挑战;2.驱动躯壳的实现:灵魂部分怎样去驱动躯壳部分,我们可以将灵魂部分的所有接口定义出来,然后躯壳部分通过API调用,调用方式可以是HTTP、webSocket等等,视躯壳部分的实现而定。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做一些逻辑判断来播放预设,语音驱动口型相对来说成熟一些,但都是闭源的,效果可以参考Nvidia的Audio2Face(https://www.nvidia.cn/omniverse/apps/audio2face/)或则Live Link Face(Iphone APP)+ Face AR Sample(UE);3.实时性:由于整个数字人的算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,所以算法一般会部署到额外的集群或者调用提供出来的API,这里面就会涉及到网络耗时和模型推理耗时,如果响应太慢就会体验很差,所以低延时也是亟需解决的一个问题。4.多元跨模态:仅仅是语音交互的数字人是远远不够的,人有五感(听觉、视觉、嗅觉、触觉、味觉),听觉只是其中一种,其他的感官可以根据实际需求来做,比如视觉我们可以通过添加摄像头数据来获取数据,再通过系列CV算法做图像解析等;5.拟人化场景:我们正常和人交流的时候不是线性对话,会有插话、转移话题等情况,这些情景如何通过工程丝滑处理。

我用扣子做一个简单的智能体——竖起耳朵听

AI Agent也就是我们所说的AI智能体,那什么是AI智能体呢?简单来说就是拥有各项能力的打工人来帮我们做特定的事情。目前有不少大厂推出自己的AI智能体平台,像字节的扣子,阿里的魔搭社区等等,体验过GPT或者文心一言大模型的小伙伴应该都知道,现在基本可以用自然语言来编程了,相当于降低了编程的门槛,另外之前在使用GPT或者文心一言大模型的时候会出现胡编乱造的情况以及时效性、无法满足个性化需求等问题,如果这些不解决的话,AI很难被真正广泛应用,而AI智能体的出现正是解决这些问题的绝佳方式,AI智能体包含了自己的知识库、工作流、还可以调用外部工具,再结合大模型的自然语言理解能力,就可以完成比较复杂的工作。所以AI智能体的出现就是结合自己的业务场景,针对自己的需求,捏出自己的AI智能体来解决自己的事情。[heading2]扣子Coze[content]?扣子官网:[https://www.coze.cn/](https://www.coze.cn/)扣子(Coze),作为字节跳动旗下的新一代一站式AI Bot开发平台,无论用户是否具备编程基础,都能在该平台上迅速构建基于AI模型的各类问答Bot。这些Bot的功能涵盖了从解决简单问答到处理复杂逻辑对话的广泛范围。当我们开发完成后,还可以将自己构建的Bot发布到各种社交平台和通讯软件上,让更广泛的用户群体能够与这些Bot进行交互聊天。[heading2]竖起耳朵听的创建[content]我们可以通过简单3步创建智能体,首先我们要起一个智能体的名称,然后写一段智能体的简单介绍,最后使用AI创建一个头像即可。

AI-Agent系列(一):智能体起源探究

图10.1.1创建AI Agent的两种手段(来自李博杰的个人博客)不过,虽然Prompt在激活和运用AI Agent的“大脑模块”中扮演着关键角色,但它并非没有缺点。一个很直观的问题是:使用的Prompt越长,消耗的Token也就越多。一个公众人物公开披露的个人信息(身份、言行等),转换成Token数可能高达数百万。这还不考虑模型是否能够处理这么多Token的问题,仅仅是每次推理所需支付的成本——无论是金钱还是时间——都可能非常高昂。所以,单纯通过Prompt来构建大脑模块(Prompt-tuning),一般适合“无趣的灵魂”,即拟人化不是那么重的情况。紧接上面的总结,那”有趣的灵魂"咋办呢?目前,针对"有趣的灵魂"最直接的解决方式就是通过微调一个定向模型来达到上述效果。与Prompt相比,基于微调的方法可以视为将信息直接“记忆”在AI的“大脑模块”中。微调过程本质上是一个信息压缩和整合的过程,它能将例如三万条推特中的零散信息有效地整理并嵌入到大型模型的权重中,且权重占比不到1%。这种方法不仅提高了信息提取的效率,还减少了每次查询或应用时所需处理的数据量,从而优化了性能和成本。"面对有趣的灵魂",一般创建方式是两种结合,即Prompt-tuning +Fine-tuning。

Others are asking
如何让企业微信可以接上 AI?让我的企业微信号变成一个 AI 客服
要让企业微信接上 AI 并变成一个 AI 客服,可以参考以下内容: 1. 基于 COW 框架的 ChatBot 实现方案:这是一个基于大模型搭建的 Chat 机器人框架,可以将多模型塞进微信(包括企业微信)里。张梦飞同学写了更适合小白的使用教程,链接为: 。 可以实现打造属于自己的 ChatBot,包括文本对话、文件总结、链接访问、联网搜索、图片识别、AI 画图等功能,以及常用开源插件的安装应用。 正式开始前需要知道:本实现思路需要接入大模型 API 的方式实现(API 单独付费)。 风险与注意事项:微信端因为是非常规使用,会有封号危险,不建议主力微信号接入;只探讨操作步骤,请依法合规使用,大模型生成的内容注意甄别,确保所有操作均符合相关法律法规的要求,禁止将此操作用于任何非法目的,处理敏感或个人隐私数据时注意脱敏,以防任何可能的滥用或泄露。 支持多平台接入,如微信、企业微信、公众号、飞书、钉钉等;多模型选择,如 GPT3.5/GPT4.0/Claude/文心一言/讯飞星火/通义千问/Gemini/GLM4/LinkAI 等等;多消息类型支持,能处理文本、语音和图片,以及基于自有知识库进行定制的企业智能客服功能;多部署方法,如本地运行、服务器运行、Docker 的方式。 2. DIN 配置:先配置 FastGpt、OneAPI,装上 AI 的大脑后,可体验知识库功能并与 AI 对话。新建应用,在知识库菜单新建知识库,上传文件或写入信息,最后将拥有知识库能力的 AI 助手接入微信。
2025-05-09
围棋AI
围棋 AI 领域具有重要的研究价值和突破。在古老的围棋游戏中,AI 面临着巨大挑战,如搜索空间大、棋面评估难等。DeepMind 团队通过提出全新方法,利用价值网络评估棋面优劣,策略网络选择最佳落子,且两个网络以人类高手对弈和 AI 自我博弈数据为基础训练,达到蒙特卡洛树搜索水平,并将其与蒙特卡洛树搜索有机结合,取得了前所未有的突破。在复杂领域 AI 第一次战胜人类的神来之笔 37 步,也预示着在其他复杂领域 AI 与人类智能对比的进一步突破可能。此外,神经网络在处理未知规则方面具有优势,虽然传统方法在处理象棋问题上可行,但对于围棋则困难重重,而神经网络专门应对此类未知规则情况。关于这部分内容,推荐阅读《这就是 ChatGPT》一书,其作者备受推崇,美团技术学院院长刘江老师的导读序也有助于了解 AI 和大语言模型计算路线的发展。
2025-05-08
什么AI工具可以实现提取多个指定网页的更新内容
以下 AI 工具可以实现提取多个指定网页的更新内容: 1. Coze:支持自动采集和手动采集两种方式。自动采集包括从单个页面或批量从指定网站中导入内容,可选择是否自动更新指定页面的内容及更新频率。批量添加网页内容时,输入要批量添加的网页内容的根地址或 sitemap 地址然后单击导入。手动采集需要先安装浏览器扩展程序,标注要采集的内容,内容上传成功率高。 2. AI Share Card:能够一键解析各类网页内容,生成推荐文案,把分享链接转换为精美的二维码分享卡。通过用户浏览器,以浏览器插件形式本地提取网页内容。
2025-05-01
AI文生视频
以下是关于文字生成视频(文生视频)的相关信息: 一些提供文生视频功能的产品: Pika:擅长动画制作,支持视频编辑。 SVD:Stable Diffusion 的插件,可在图片基础上生成视频。 Runway:老牌工具,提供实时涂抹修改视频功能,但收费。 Kaiber:视频转视频 AI,能将原视频转换成各种风格。 Sora:由 OpenAI 开发,可生成长达 1 分钟以上的视频。 更多相关网站可查看:https://www.waytoagi.com/category/38 。 制作 5 秒单镜头文生视频的实操步骤(以梦 AI 为例): 进入平台:打开梦 AI 网站并登录,新用户有积分可免费体验。 输入提示词:涵盖景别、主体、环境、光线、动作、运镜等描述。 选择参数并点击生成:确认提示词无误后,选择模型、画面比例,点击「生成」按钮。 预览与下载:生成完毕后预览视频,满意则下载保存,不理想可调整提示词再试。 视频模型 Sora:OpenAI 发布的首款文生视频模型,能根据文字指令创造逼真且充满想象力的场景,可生成长达 1 分钟的一镜到底超长视频,视频中的人物和镜头具有惊人的一致性和稳定性。
2025-04-20
学AI上钉钉
以下是在钉钉上学 AI 的相关内容: 从 AI 助教到智慧学伴的应用探索: 登录钉钉客户端,在右上角依次选择钉钉魔法棒、AI 助理、创建 AI 助理。进入创建 AI 助理页面后,填写 AI 助理信息,设置完成即可创建成功。 AI 领导力向阳乔木:未提及具体的在钉钉上学 AI 的操作方法。 基于 COW 框架的 ChatBot 实现步骤: 创建应用: 进入,登录后点击创建应用,填写应用相关信息。 点击添加应用能力,选择“机器人”能力并添加。 配置机器人信息后点击发布,发布后点击“点击调试”,会自动创建测试群聊,可在客户端查看。点击版本管理与发布,创建新版本发布。 项目配置: 点击凭证与基础信息,获取 Client ID 和 Client Secret 两个参数。 参考项目,将相关配置加入项目根目录的 config.json 文件,并设置 channel_type:"dingtalk",注意运行前需安装依赖。 点击事件订阅,点击已完成接入,验证连接通道,会显示连接接入成功。 使用:与机器人私聊或将机器人拉入企业群中均可开启对话。
2025-04-19
AI术语解释
以下是一些常见的 AI 术语解释: Agents(智能体):一个设置了一些目标或任务,可以迭代运行的大型语言模型。与大型语言模型在像 ChatGPT 这样的工具中的通常使用方式不同,Agent 拥有复杂的工作流程,模型本质上可以自我对话,无需人类驱动每一部分的交互。属于技术范畴。 ASI(人工超级智能):尽管存在争议,但通常被定义为超越人类思维能力的人工智能。属于通识范畴。 Attention(注意力):在神经网络的上下文中,有助于模型在生成输出时专注于输入的相关部分。属于技术范畴。 Bias(偏差):AI 模型对数据所做的假设。“偏差方差权衡”是模型对数据的假设与给定不同训练数据的模型预测变化量之间必须实现的平衡。归纳偏差是机器学习算法对数据的基础分布所做的一组假设。属于技术范畴。 Chatbot(聊天机器人):一种计算机程序,旨在通过文本或语音交互模拟人类对话。通常利用自然语言处理技术来理解用户输入并提供相关响应。属于通识范畴。 CLIP(对比语言图像预训练):由 OpenAI 开发的 AI 模型,用于连接图像和文本,使其能够理解和生成图像的描述。属于技术范畴。 TPU(张量处理单元):谷歌开发的一种微处理器,专门用于加速机器学习工作负载。属于技术范畴。 Training Data(训练数据):用于训练机器学习模型的数据集。属于技术范畴。 Transfer Learning(迁移学习):机器学习中的一种方法,其中对新问题使用预先训练的模型。属于技术范畴。 Validation Data(验证集):机器学习中使用的数据集的子集,独立于训练数据集和测试数据集。用于调整模型的超参数(即架构,而不是权重)。属于技术范畴。 Knowledge Distillation(数据蒸馏):数据蒸馏旨在将给定的一个原始的大数据集浓缩并生成一个小型数据集,使得在这一小数据集上训练出的模型,和在原数据集上训练得到的模型表现相似。在深度学习领域中被广泛应用,特别是在模型压缩和模型部署方面。可以帮助将复杂的模型转化为更轻量级的模型,并能够促进模型的迁移学习和模型集成,提高模型的鲁棒性和泛化能力。属于技术范畴。 RAG(检索增强生成):检索增强生成。属于技术范畴。 Forward Propagation(前向传播):在神经网络中,输入数据被馈送到网络并通过每一层(从输入层到隐藏层,最后到输出层)以产生输出的过程。网络对输入应用权重和偏差,并使用激活函数生成最终输出。属于技术范畴。 Foundation Model(基础模型):在广泛数据上训练的大型 AI 模型,旨在适应特定任务。属于技术范畴。 GAN(通用对抗网络):一种机器学习模型,用于生成类似于某些现有数据的新数据。使两个神经网络相互对抗:一个“生成器”,创建新数据,另一个“鉴别器”试图将数据与真实数据区分开来。属于技术范畴。 Generative AI/Gen AI(生成式 AI):AI 的一个分支,专注于创建模型,这些模型可以根据现有数据的模式和示例生成新的原创内容,例如图像、音乐或文本。属于通识范畴。 GPU(图形处理单元):一种特殊类型的微处理器,主要用于快速渲染图像以输出到显示器。在执行训练和运行神经网络所需的计算方面也非常高效。属于产品范畴。
2025-04-18
AI Agents(智能体)
AI 智能体(Agents)是人工智能领域中一个重要的概念: 1. 从 AGI 的发展等级来看,智能体不仅具备推理能力,还能执行全自动化业务,但目前许多 AI Agent 产品在执行任务后仍需人类参与,尚未达到完全智能体的水平。 2. 作为大模型的主要发展方向之一,智能体中间的“智能体”其实就是大模型(LLM)。通过为 LLM 增加工具、记忆、行动、规划这四个能力来实现。目前行业里主要用到的是 langchain 框架,它把 LLM 与 LLM 之间以及 LLM 与工具之间通过代码或 prompt 的形式进行串接。 3. 从智能体的起源探究来看,心灵社会理论认为智能是由许多简单的 Agent(分等级、分功能的计算单元)共同工作和相互作用的结果。这些 Agent 在不同层次上执行不同的功能,通过协作实现复杂的智能行为。心灵社会将智能划分为多个层次,每个层次由多个 Agent 负责,每个 Agent 类似于功能模块,专门处理特定类型的信息或执行特定任务。同时存在专家 Agent、管理 Agent、学习 Agent 等不同类型的 Agent 及其相应功能。从达特茅斯会议开始讨论人工智能,到马文·明斯基引入“Agent”概念,“AI”和“Agent”就彻底聚齐,往后被称之为 AI Agent。
2025-04-15
B端AI Agent
以下是关于 B 端 AI Agent 的相关知识: 一、概念定义 1. 智能体(Agent)简单理解就是 AI 机器人小助手,参照移动互联网,类似 APP 应用的概念。随着 ChatGPT 与 AI 概念的爆火,出现了很多相关新名词,如 bot 和 GPTs 等。AI 大模型是技术,面向用户提供服务的是产品,因此很多公司关注 AI 应用层的产品机会。 C 端案例:如社交方向,用户注册后先捏一个自己的 Agent,然后让其与他人的 Agent 聊天,两个 Agent 聊到一起后真人再介入;还有借 Onlyfans 入局打造个性化聊天的创业公司。 B 端案例:字节扣子和腾讯元器若为面向普通人的低代码平台,类似 APP 时代的个人开发者,那么帮助 B 端商家搭建 Agent 就类似 APP 时代专业做 APP 的。 2. 智能体开发平台:最早接触到的扣子 Coze 是通过一篇科技报道,如 2 月 1 日,字节正式推出 AI 聊天机器人构建平台 Coze 的国内版“扣子”,主要用于开发下一代 AI 聊天机器人。国内还有很多智能体开发平台,如 Dify.AI,但个人较常用的是扣子,所以常对比字节扣子和腾讯元器。 3. 关注智能体的原因:目前 AI Agent 的概念在市场上未达成共识,存在被滥用现象。AI Agent 指的是一种智能代理系统,接近人类大脑,可形成记忆、达成行动规划、自动交互、主动预测。其应用具有个性化、自主完成任务、多 Agent 协作等特点。目前 AI Agent 应用大多集中在 2B 场景,面向个人消费者的产品少,一方面是高度智能化的 Agent 能力需打磨,概念落地有距离;另一方面是 AI 和娱乐消费诉求结合少,主要带来生产方式和效率变革,个人消费者方向目前只看到“私人助理”场景。
2025-04-15
AI workflow在企业中是否比Agent应用价值和场景更多
AI workflow 和 Agent 在企业中的应用价值和场景各有特点。 Agentic Workflows 具有以下优势: 1. 灵活性、适应性和可定制性:能够根据任务难度进行调整和演变,通过组合不同模式实现定制,在需求和复杂性增长时进行迭代升级。 2. 在复杂任务上的性能提升:将复杂任务分解为更小、可管理的步骤,显著优于确定性的零样本方法。 3. 自我纠正和持续学习:能够评估自身行为,完善策略,从过去经验中学习,在每次迭代中变得更有效和个性化。 4. 操作效率和可扩展性:可以高精度自动化重复任务,减少人工操作和运营成本,还能轻松扩展。 Agentic Workflow 的应用场景包括原子设计模式的组合、与人类反馈循环集成等。例如,Agentic RAG 在检索增强生成流程中引入了一个或多个 AI Agents,在规划阶段可进行查询分解等操作,还能评估数据和响应的相关性和准确性。 一般来说,Workflow 是一系列旨在完成特定任务或目标的相互连接的步骤。最简单的工作流是确定性的,遵循预定义步骤序列。有些工作流利用大模型或其他 AI 技术,分为 Agentic 和非 Agentic 两类。非 Agentic 工作流中,大模型根据指令生成输出。Agentic Workflow 是由单个或几个 AI Agents 动态执行的一系列连接步骤,被授予权限收集数据、执行任务并做出决策,利用 Agents 的核心组件将传统工作流转变为响应式、自适应和自我进化的过程。 综上所述,不能简单地说 AI workflow 在企业中比 Agent 应用价值和场景更多,这取决于企业的具体需求和任务特点。
2025-04-09
常见的工作流与 Agent 开发平台
常见的工作流与 Agent 开发平台如下: AI Workflow 开发平台: Coze:新一代 AI Bot 开发平台,集成了丰富的插件工具,有国际版和国内版。 Dify:开源平台,支持自定义和插件。 腾讯元器。 FastGPT:国内知名,支持自定义流程。 影刀&zapier。 Leap。 Betteryeah:立足 RPA 场景,用 AI 将用户需求生成工作流,并通过 RPA 自动化,产品形态与 Coze 相似,是企业级的 AI 应用开发平台。 Flowise:快速实现智能体搭建。 BISHENG:主攻 tob 场景的开源 LLM 搭建平台,与 fastgpt 功能类似,但面向的客户不同,整体功能和部署成本更重。 Agent 构建平台: Coze:具有拓展强、好上手、不用出国等优点。 Mircosoft 的 Copilot Studio:主要功能包括外挂数据、定义流程、调用 API 和操作,以及将 Copilot 部署到各种渠道。 文心智能体:百度推出的基于文心大模型的智能体平台。 MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识,以及访问第三方数据和服务或执行设计良好的工作流。 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于客服、营销、销售等多种场景。 钉钉 AI 超级助理:依托于钉钉强大的场景和数据优势,提供更深入的环境感知和记忆功能,在处理高频工作场景如销售、客服、行程安排等方面表现出色。 此外,Inhai 的 Agentic Workflow 将一整套工作流组合起来,每个工具在每一个节点执行一个任务。LangGPT 提示词框架应用了 CoT 完成从输入到思维链再到输出的映射。
2025-04-09
多模态Agent最新动态
以下是关于多模态 Agent 的最新动态: 《质朴发言:视觉语言理解模型的当前技术边界与未来应用想象|Z 研究第 2 期》 近期,生成式 AI 领域的浪潮催化了多模态模型的探索,研究人员不断尝试使用更多模态数据的编码,以训练出能够理解和处理多种类型数据的模型。本份研究报告集中讨论了基于 Transformer 架构的视觉语言模型,报告范围专注于视觉和语言之间的交互,不考虑单纯的视觉到视觉的计算机视觉任务。 从 2022 年 11 月 18 日到 2023 年 7 月 26 日,多模态 Agents 迅速增长。 LLM 多模态 agent 是将现有技术融合的新尝试,是一种集成了多种模态数据处理能力的 AI 技术。 优点:高度的灵活性和扩展性,可根据不同任务需求调用最合适的模型处理任务,适应多样化任务和数据类型,优化资源使用,提升效率;无需训练,系统开发周期快,成本低。 局限性:调试和工程化难度较高,维护和升级成本高;多个组件紧密耦合,单点故障可能导致整个系统风险增加;没有涌现出新的能力。 适用场景:需要综合处理视频、语音和文本等多种信息的复杂环境,如自动驾驶汽车;高度交互和灵活的用户界面,如客户服务机器人或交互式娱乐应用。 《2024 年度 AI 十大趋势报告》 随着大模型对图像和视频信息的处理能力快速提升,预计 2025 年将开始出现更为综合性的多模态交互,AI 能够通过物联网、特定信息等多种感知通道进行协同。 多模态输入和输出使 AI 交互性更强、交互频次更高,适用场景也更加丰富,AI 产品整体水平显著提升。 Agent 作为融合感知、分析、决策和执行能力的智能体,能够根据用户历史行为和偏好,主动提供建议、提醒并个性化执行能力,为用户提供高度个性化的任务。从 2025 年开始,AI Agent 即将广泛投入使用。 从个性化推荐到直接生成个性化内容,AIGC 能够使用户体验的个性化程度有明显提升,这将帮助产品进一步完善用户体验,并通过提高用户忠诚度和迁移成本,实现差异化定价和进一步的服务增值,对产品的差异化竞争有重大意义。目前,基于 AIGC 的高度个性化已经在 AI 教育、AI 陪伴、AI 营销领域有明显进展。在硬件端搭载的多款 AI 智能助手也已开始以高度个性的个人助理作为宣传重点。
2025-03-31
目前最好的AI Agent是哪一款
目前,在 AI Agent 领域,没有绝对意义上的“最好”的一款。以下为您介绍一些受到关注的 AI Agent: 1. AutoGPT 和 BabyAGI 是最早实现让 LLM 自己做自动化多步骤推理的开源智能代理,在去年 GPT4 刚发布时风靡全球科技圈。 2. Devin 是来自纽约华人创业团队 Cognition AI 的一款可以像人类程序员一样自动写代码的 Agent,但因演示视频过于科幻而被揭露造假。 3. Google 在今年的 Next 与 I/O 大会上发布了自己的 Agent 战略,如 Google Plan Search 能自动化多步骤执行搜索任务。 4. Cursor 中的 Agent 功能,只要给它一个模糊指令,它会自动规划和解决问题。Cline 作为一个 AI 助手,也有一定的能力,其新版本还推出了检查点功能。 需要注意的是,AI Agent 领域在不断发展,不同的 Agent 在不同的应用场景和任务中可能表现出不同的优势。
2025-03-30
coze搭建智能体,用上传的文件和知识库的文件做对比,分析差异点。
以下是关于在 Coze 中搭建智能体的相关信息: 1. 证件照相关操作: 展示原图上传结果,基本脸型已换,生成效果与上传照片特征有关。 改背景可利用改图功能,一键改图效果更好,输出数据类型为图片。 豆包节点生成的是 URL 地址,与前者不同,在工作流使用有差异,可参考简单提示词。 介绍证件照工作流相关操作,包括通过提示词改背景颜色,设置输出方式为返回变量;讲解消耗 token 及保存结果相关问题;对按钮、表单添加事件并设置参数,限制上传文件数量;还涉及给表单和图片绑定数据,以及每次操作后刷新界面确保设置生效。 围绕操作讲解与优化展开,介绍 for meet 的设置,如表单事件操作、图片上传数量修改等,提及编程基础知识。还讲述成果图连接、绑定数据方法及注意事项。展示基本功能实现情况,分析换性别等问题成因,指出需在工作流优化提示词,也可尝试用视频模型解决,最后进入问答环节。 2. 多维表格的高速数据分析: 创建智能体,使用单 Agent 对话流模式。 编排对话流,创建新的对话流并关联智能体。 使用代码节点对两个插件获取的结果进行数据处理,注意代码节点输出的配置格式。 测试,找到一篇小红书笔记,试运行对话流,在对话窗口输入地址查看数据。 发布,选择多维表格,配置输出类型为文本,输入类型选择字段选择器,完善上架信息,可选择仅自己可用以加快审核。 3. 智能体与微信和微信群的连接: 创建知识库,可选择手动清洗数据提高准确性,包括在线知识库和本地文档。 在线知识库创建时,飞书在线文档中每个问题和答案以分割,可编辑修改和删除。 本地文档中注意拆分内容提高训练数据准确度,如将课程章节按固定方式人工标注和处理。 发布应用,确保在 Bot 商店中能够搜到。
2025-04-18
coze搭建知识库和上传文件做对比分析
以下是关于 Coze 搭建知识库和上传文件的对比分析: 创建文本型知识库: 自动分段与清洗:扣子可对上传的内容进行自动解析,支持复杂布局的文件处理,如识别段落、页眉/页脚/脚注等非重点内容,支持跨页跨栏的段落合并,支持解析表格中的图片和文档中的表格内容(目前仅支持带线框的表格)。操作步骤为在分段设置页面选择自动分段与清洗,然后依次单击下一步、确认,可查看分段效果,不满意可重新分段并使用自定义分段。 自定义:支持自定义分段规则、分段长度及预处理规则。操作时在分段设置页面选择自定义,然后依次设置分段规则和预处理规则,包括选择分段标识符、设置分段最大长度和文本预处理规则,最后单击下一步完成内容分段。 创建表格型知识库: 目前支持 4 种导入类型:本地文档、API、飞书、自定义。 本地文档:选择本地文档从本地文件中导入表格数据,目前支持上传 Excel 和 CSV 格式的文件,文件不得大于 20M,一次最多可上传 10 个文件,且表格内需要有列名和对应的数据。 API:参考特定操作从 API 返回数据中上传表格内容,包括选择 API、单击新增 API、输入 API URL 并选择数据更新频率,然后单击下一步。 飞书:参考特定操作从飞书表格中导入内容,包括选择飞书、在新增知识库页面单击授权并选择要导入数据的飞书账号、单击安装扣子应用(仅首次导入需授权和安装),然后选择要导入的表格并单击下一步。目前仅支持导入“我的空间”下的飞书文档,云文档的创建者必须是自己,暂不支持导入知识库和共享空间下的云文档。 上传文本内容: 在线数据:扣子支持自动抓取指定 URL 的内容,也支持手动采集指定页面上的内容,上传到数据库。 自动采集方式:适用于内容量大、需批量快速导入的场景。操作步骤为在文本格式页签下选择在线数据,然后依次单击下一步、自动采集、新增 URL,输入网站地址、选择是否定期同步及周期,最后单击确认,上传完成后单击下一步,系统会自动分片。 手动采集:适用于精准采集网页指定内容的场景。操作步骤为安装扩展程序,在文本格式页签下选择在线数据,然后依次单击下一步、手动采集、授予权限,输入采集内容的网址,标注提取内容,查看数据确认无误后完成并采集。
2025-04-18
如何搭建知识库
搭建知识库的方法如下: 使用 flowith 搭建: 选择“Manage Your Knowledge Base”,进入知识库管理页面。 点击左上角的加号添加新的知识库,给知识库起一个便于分辨的名字。 点击添加文件,建议使用 Markdown 格式的文件。 Flowith 会对文件进行抽取等处理,处理完毕后可在知识库管理页面测试检索。 使用 Dify 搭建: 准备数据:收集文本数据,进行清洗、分段等预处理。 创建数据集:在 Dify 中创建新数据集,上传准备好的文档并编写描述。 配置索引方式:提供三种索引方式,根据需求选择,如高质量模式、经济模式和 Q&A 分段模式。 集成至应用:将数据集集成到对话型应用中,配置数据集的使用方式。 持续优化:收集用户反馈,更新知识库内容和优化索引方式。 使用 Coze 智能体搭建: 手动清洗数据: 在线知识库:点击创建知识库,创建 FAQ 知识库,选择飞书文档,输入区分问题和答案,可编辑修改和删除,添加 Bot 并在调试区测试效果。 本地文档:注意拆分内容,提高训练数据准确度,按章节进行人工标注和处理,然后创建自定义清洗数据。 发布应用:点击发布,确保在 Bot 商店中能搜到。
2025-04-14
coze搭建工作流调用deepseek如何把模型的输出存入到多维表中
以下是将模型的输出存入到多维表中的步骤: 1. 逐步搭建 AI 智能体: 搭建整理入库工作流。 设置大模型节点提取稍后读元数据,使用 MiniMax 6.5s 245k,设置最大回复长度至 50000,以确保能完整解析长内容网页。 进行日期转时间戳,后续的飞书多维表格插件节点在入库日期字段时只支持 13 位时间戳,需要使用「日期转时间戳time_stamp_13」插件进行格式转化。 把稍后读元数据转换为飞书多维表格插件可用的格式,飞书多维表格插件目前(2024 年 08 月)只支持带有转义符的 string,以 Array<Object>格式输入,所以必须将之前得到的元数据数组进行格式转换。 添加「飞书多维表格add_records」插件,只需要设置{{app_token}}与{{records}}参数,将元数据写入飞书表格。 2. 搭建 Coze 工作流: 打开 Coze 的主页,登录后,在【工作空间】创建一个智能体。 在编排页面,给智能体编辑好人设,可先写一个简单的,然后点右上角自动优化,系统会自动补全更精细的描述。点击工作流的+,创建一个工作流。 大模型节点把 input 给到 DeepSeek,让 DeepSeek 按照提前规定的输出框架生成对应文案。 生图节点将输出给到图像生成组件画图。 结束输出时,两个输出给到最终的 end 作为最终的输出。注意在编写系统提示词时,如果需要 input 可被 DeepSeek 调用,需要用{{input}}作为参数引入,不然大模型不知道自己需要生成和这个 input 相关的结果。编排完,点击【试运行】,调试至满意后点击发布。
2025-04-14
如何搭建自己的知识库
以下是搭建自己知识库的方法: 1. 选择“Manage Your Knowledge Base”,进入知识库管理页面。 2. 在页面左上角点击加号,添加新的知识库,并为其起一个易于分辨的名字。 3. 点击添加文件,建议使用 Markdown 格式的文件。 4. 等待 Flowith 对文件进行抽取等处理。 5. 处理完毕后,可在知识库管理页面测试检索,输入关键词过滤相关内容。 此外,搭建本地知识库还需了解 RAG 技术: 1. RAG 是一种当需要依靠不包含在大模型训练集中的数据时所采用的主要方法,即先检索外部数据,然后在生成步骤中将这些数据传递给 LLM。 2. 一个 RAG 的应用包括文档加载、文本分割、存储、检索和输出 5 个过程。 文档加载:从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器。 文本分割:把 Documents 切分为指定大小的块。 存储:将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库。 检索:通过某种检索算法找到与输入问题相似的嵌入片。 输出:把问题以及检索出来的嵌入片一起提交给 LLM,生成更合理的答案。 对于基于 GPT API 搭建定制化知识库,涉及给 GPT 输入定制化的知识。由于 GPT3.5 一次交互支持的 Token 有限,OpenAI 提供了 embedding API 解决方案。Embeddings 是一个浮点数字的向量,两个向量之间的距离衡量它们的关联性,小距离表示高关联度。在 OpenAI 词嵌入中,靠近向量的词语在语义上相似。文档上有创建 embeddings 的示例。
2025-04-14
搭建在线知识库,在线客服
以下是关于搭建在线知识库和在线客服的相关内容: RAG 流程: 自顶向下,RAG 的流程分为离线数据处理和在线检索两个过程。 离线数据处理的目的是构建知识库,知识会按照某种格式及排列方式存储在其中等待使用。 在线检索是利用知识库和大模型进行查询的过程。 以构建智能问答客服为例,了解 RAG 流程中的“是什么”与“为什么”同等重要。 创建智能体: 手动清洗数据创建知识库: 点击创建知识库,创建画小二课程的 FAQ 知识库。 知识库的飞书在线文档中,每个问题和答案以“”分割。 选择飞书文档、自定义,输入“”,可编辑修改和删除。 点击添加 Bot,可在调试区测试效果。 本地文档: 注意拆分内容以提高训练数据准确度。 以画小二课程为例,先放入大章节名称内容,再按固定方式细化处理每个章节。 发布应用:点击发布,确保在 Bot 商店中能搜到。 开发:GLM 等大模型外接数据库: 项目启动:包括 web 启动(运行 web.py,显存不足调整模型参数,修改连接)、API 模式启动、命令行模式启动。 上传知识库:在左侧知识库问答中选择新建知识库,可传输 txt、pdf 等。可以调整 prompt,匹配不同的知识库,让 LLM 扮演不同的角色,如上传公司财报充当财务分析师、上传客服聊天记录充当智能客服等。MOSS 同理。
2025-04-13