Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

多模态是什么?如何使用多模态模型构建 AI 智能体

Answer

多模态是指对同一概念的多维度理解,例如人类可以边看、边交谈,还能同时听着背景音乐和察觉危险,而仅靠语言来描述和理解世界是远远不够的。拥有多模态能力的模型可以更全面地学习世界,理解人类的行为和需求,提高任务解决能力,并克服单一模态的局限性,是让 AI 能在现实世界中运行极为重要的一环。

2023 年 9 月 GPT-4v 的发布把大语言模型的竞赛带入了多模态模型(LMM - Large Multimodal Models)的时代,如 ChatGPT 可以看图说话,还能通过内置的 Dall-E 3 直接画图;几个月后 Google 的 Gemini 正式推出,直接支持了文本、视频和声音多种模态。今年 5 月,OpenAI 完成了 GPT-4 的实时听说和视频模态输入,发布了 GPT-4o,向智能体方向迈进了一大步。

多模态大模型由解码器、backbone、Generator 等部件组成,左侧多模态理解,右侧生成输出。其架构基于大圆模型,能识别页面组件结构和位置绝对值信息,并与组件、文本映射。

在应用方面,多模态模型有着广泛的用途。例如 Stable Diffusion 模型可用于带货商品图生成、模特服装展示、海报生成、装修设计等。吉梦 AI 提供 AI 视频生成等能力,吐司是类似的在线生成平台,具备多种 AI 能力。

关于模型训练,需要大量图像数据和标签化处理。AI 视频生成原理主要基于特定架构,如基于 Sara 的整体架构,采用 diffusion Transformer 架构,以扩散模型通过随机造点、加噪和去噪得到连续图像帧,输入视频可看成若干帧图片,经处理后生成视频。Meta 的视频生成模型能生成视频和声音,可替换视频中的物体和人脸,其把 diffusion 架构换成纯 transformer 架构,基于 LLAMA3 训练,与 diffusion 在 CLIP 等方面有区别。

要使用多模态模型构建 AI 智能体,需要考虑实时性,保持模型能力不变的情况下缩小参数规模,升级架构来提升性能,最好让终端也参与进来分担一部分模型的计算量。同时,让科技变简单,设计出从未有过的硬件产品或重新设计现有的产品,以适应这种毫无机械感、完全类人化的交互方式。

Content generated by AI large model, please carefully verify (powered by aily)

References

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

人类可以边看、边交谈,还能同时听着背景音乐和察觉危险。虽然大语言模型仅靠语言就能理解世界,但大千世界的多样性,只靠语言来描述和理解是远远不够的,因此智能不仅限于单一模态。根据伊利亚之前的观点,多模态理解虽然不是绝对必要,但确实非常有用。比如,你能亲眼看到什么是“红色”,比你用语言去描述什么是“红色”要直观的多,这就是对同一概念的多维度理解。拥有这种能力的模型可以更全面地学习世界,理解人类的行为和需求,提高任务解决能力,并克服单一模态的局限性,是让AI能在现实世界中运行极为重要一环。配图1.07:多模态解释2023年九月GPT-4v的发布把大语言模型的竞赛带入了多模态模型(LMM-Large Multimodal Models)的时代,ChatGPT可以看图说话,还能通过内置的Dall-E 3直接画图;几个月后Google的Gemini正式推出,直接就支持了文本、视频和声音多种模态。虽然Gemini模型一开始就是按照LMM方式设计训练的,但每次都能被OpenAI的产品发布捷足先登。。今年年五月,OpenAI完成了GPT-4的实时听说和视频模态输入的拼图,再一次抢在Google之前的发布了GPT-4o,一款全能模态模型OmniModel。这次OpenAI向智能体方向的研发迈进了一大步,让GPT模型有能力进入现实世界了。这种随着模型规模以及模态类型的提升,衍生出新的能力的特性,就是大家常说的泛化,也是Sam Altman提到的广泛的通用性增强。OpenAI每一次升级模型,就会让很多专用的AI模型和一批小的创业公司所做的事情毫无意义,从最早的翻译和写作工具的替代,到最新GPT-4o多模态实现的语音智能助理。

智变时代 / 全面理解机器智能与生成式 AI 加速的新工业革命

很明显OpenAI是有计划的抢先发布,因为Google在第二天的I/O 2024大会上准备宣布他们最新的研究项目Project Astra,一个类似GPT-4o全模态模型,结果研究团队拿手机精心录制的与环境实时交互的视频,让OpenAI给提前一天全部展示了,而且功能更强大,完成度更高。OpenAI会在几个月内陆续更新ChatGPT应用,通过GPT-4o让其具备Assistant Agent能力,一个能够像人类一样互动的“数字形态”全能助理;Google也计划在今年内推出Gemini Live支持类似功能,我们可以把这种能沟通还能感知环境的AI称之为智能体(Intelligent Agent)。除了端到端的多模态之外,另一个重要的特点就是实时性,之前所有的交互都是回合对话式,包括API的调用;现在我们要从文字语音聊天升级到视频直播了,智能体保持一直在线。可以想像,用流媒体的形式来消耗Token,这对算力的开销得有多大,所以大家必须保持模型能力不变的情况下缩小参数规模,升级架构来提升性能;最好让终端也参与进来分担一部分模型的计算量。让科技变简单,是技术民主化最重要的一个趋势,没有人能抵挡住这种毫无机械感、完全类人化的交互方式。用这样的思路,可以设计从未有过的硬件产品,也能重新设计现有的产品,例如多年以前的Google Glass就可以因此而复活了;因为语音交互的流畅,智能体还能用手机之外的设备来实现视觉感知,那么手机的设计也会因此而进化,触摸交互更简单,在很多情况下,都只需要放在口袋里,给你的智能体提供本地算力。

02-基础通识课

[heading2]总结多模态大模型及相关应用多模态大模型的架构和原理:基于大圆模型,能识别页面组件结构和位置绝对值信息,并与组件、文本映射。由解码器、backbone、Generator等部件组成,左侧多模态理解,右侧生成输出。stable diffusion模型原理:是生成模型,通过加噪和去噪实现图像的正向扩散和反向还原,解决潜在空间模型中的速度问题。stable diffusion的应用场景:包括带货商品图生成、模特服装展示、海报生成、装修设计等。吉梦AI和吐司平台的使用体验:吉梦AI提供AI视频生成等能力,通过简单提示词生成图像,对数字体有专项场景训练;吐司是类似的在线生成平台。模型训练:训练模型需要大量图像数据和标签化处理,后续课程有老师专门分享。AI图像与视频生成技术介绍李不李波还原stable diffusion Web UI界面并提供人性化交互:李不李波基本还原了stable diffusion的Web UI界面,提供更人性化交互,后续有老师分享从选择固定模型到快速生成图片的内容,还介绍了正向和反向提示词等模型参数。吐司具备多种AI能力:吐司和李不李波类似,有模型、在线训练、上传模型工作流等功能,可通过输入提示词生成图片,如生成了青花瓷工艺相关的图片。AI视频生成原理基于特定架构:AI视频主要基于Sara的整体架构,采用diffusion Transformer架构,以扩散模型通过随机造点、加噪和去噪得到连续图像帧,输入视频可看成若干帧图片,经处理后生成视频。Meta视频生成模型的特点:Meta的视频生成模型能生成视频和声音,可替换视频中的物体和人脸,其把diffusion架构换成纯transformer架构,基于LLAMA3训练,与diffusion在CLIP等方面有区别。

Others are asking
【深度拆解】ChatGPT-4o背后的技术革新:从语言模型到多模态跨越
ChatGPT4o 背后的技术革新具有重要意义。人类的感知多样,仅靠语言描述世界远远不够,多模态理解非常有用,能更全面学习世界、理解人类需求等。2023 年 9 月 GPT4v 发布,将大语言模型竞赛带入多模态模型时代,如 ChatGPT 能看图说话、画图,Google 的 Gemini 支持多种模态,但 OpenAI 常抢先发布。今年 5 月 OpenAI 发布 GPT4o,向智能体方向迈进,其是之前技术的集大成者,通过端到端神经网络混合训练视觉、语音和文本数据,平均音频输入反应时间为 300 毫秒,能感悟人类表达的情绪等。OpenAI 未公开 GPT4o 技术细节,唯一线索来自内部炼丹师的博客 AudioLM。此外,GPT4 是 OpenAI 的多模态工具,在编程任务中表现出色,ChatGPT 是用户友好界面,可与高级语言模型交互。2024 年 5 月 14 日 OpenAI 发布 GPT4o,效率高、价格降低、延迟缩短。9 月 16 日 OpenAI 推出 o1 系列模型,在复杂任务中表现优异,o1mini 适合编码任务,两个模型已在 ChatGPT 中提供,有免费或收费版本。
2025-03-09
多模态是什么
多模态是指多数据类型交互,能够提供更接近人类感知的场景。大模型对应的模态包括文本、图像、音频、视频等。 随着生成式 AI 和大模型的发展,我们逐渐进入多模态灵活转换的新时代,即利用 AI 实现文本、图像、音频、视频及其他更多模态之间的互相理解和相互转换,这一变革依靠一系列革新性的算法。 在感知不同模态数据时,AI 不再局限于传统的单一模态处理方式,而是借助高维向量空间来理解数据,将图像或文字“压缩”成能够捕捉深层关系的抽象向量。 Gemini 模型本身就是多模态的,展示了无缝结合跨模态的能力,在识别输入细节、聚合上下文以及在不同模态上应用等方面表现出强大性能。
2025-03-02
多模态大模型 原理是什么?
多模态大模型的原理如下: 基于大圆模型,能够识别页面组件结构和位置绝对值信息,并与组件、文本映射。由解码器、backbone、Generator 等部件组成,左侧进行多模态理解,右侧生成输出。 典型的多模态大模型架构包括一个编码器、一个连接器和一个 LLM,还可选择性地在 LLM 上附加一个生成器以生成除文本之外的更多模态。编码器接收图像、音频或视频并输出特征,这些特征经由连接器处理,使 LLM 能更好地理解。连接器大致可分为基于投影的、基于查询的和基于融合的三类,前两种类型采用词元级融合,将特征处理成词元,与文本词元一起发送,最后一种类型则在 LLM 内部实现特征级融合。
2025-02-27
多模态搜索
以下是关于多模态搜索的相关信息: ThinkAny 搜索引擎: 产品特性: 支持多模态检索(MultiModeSearch),可检索链接、图片、视频等模态内容。 支持多维度输出(MultiFormOutput),能以对话、大纲、思维导图、时间线等形式输出搜索问答内容。 支持多信源检索(MultiRetrieveSource),可检索 Google、Wikipedia、Github 等信息源的内容。 开源了 API 项目 ragsearch,实现联网检索功能,并对检索结果进行重排和获取详情内容。 长期发展方向是走 AI Search+Anything 的平台化路线,允许用户挂载自定义信息源、创建自定义智能体、实现自定义的流程编排。 其他推荐的 AI 搜索引擎: 秘塔 AI 搜索:提供多模式搜索、无广告干扰、结构化展示和信息聚合等功能。 Perplexity:聊天机器人式搜索引擎,用自然语言提问,从各种来源收集信息并给出答案。 360AI 搜索:通过 AI 分析问题,生成清晰、有理的答案,并支持增强模式和智能排序。 天工 AI 搜索:采用生成式搜索技术,支持自然语言交互和深度追问,未来将支持图像、语音等多模态搜索。 Flowith:创新的 AI 交互式搜索和对话工具,基于节点式交互方式,支持多种 AI 模型和图像生成技术,有插件系统和社区功能。 Devv:面向程序员的 AI 搜索引擎,提供编程、软件开发和人工智能等领域的专业建议和指导。 Phind:专为开发者设计的 AI 搜索引擎,利用大型语言模型提供相关搜索结果和动态答案,擅长处理编程和技术问题。 提升 AI 搜索准确度: 在提示词的设计和调试方面需要下功夫,很多环节都需用到提示词,如请求大模型判断是否需要联网、改写问题、提取关键词、回答问题、标注引用来源、以思维导图形式输出答案、做 Function Calling 判断使用的 Agents 等。 多模态检索是提升信息密度的重要措施,随着 5G 发展,互联网信息多元化,图片、视频、音频比重增大,多模态检索为获取不同形式信息再聚合起来作为引用参考。但多模态检索实现困难,现阶段可在谷歌搜索基础上,先使用其图片/视频检索 API 拿到匹配内容,再通过 OCR 图片识别、音视频转录等方法拿到多模态信息的文本内容。
2025-02-25
有什么支持多模态输入和输出的C端产品
以下是一些支持多模态输入和输出的 C 端产品: 1. 宝玉日报:支持文本或音频输入,输出可为文本、音频或混合数据。价格方面,1 小时音频输入成本为$12.8,输出为$25.6。相关链接: 2. Imagic 发布的 AI 驱动的无代码应用构建工具:支持多模态输入输出,包括文本、图片、3D 和视频。创建出来的应用立刻就能使用和发布。相关链接:https://get.imagica.ai/s 3. 面壁智能推出的 MiniCPMo 2.6:具有多模态能力,如 OCR、视频理解、连续视频与音频流处理,实时直播与多模态上下文理解,支持 30 多种语言的文本和语音输入输出。资源链接: 4. 世界首个支持手持产品展示的 AI 数字人 Product Avatar:上传产品图片,数字人即可手持产品进行口播展示,支持多语言,覆盖 28 种语言,可快速生成产品宣传视频。相关链接:
2025-02-21
多模态的AI工具有哪些
以下是一些多模态的 AI 工具: GPT4VAct:这是一个多模态 AI 助手,能够模拟人类通过鼠标和键盘进行网页浏览。它可以识别网页上的元素并理解其功能,目的是自动完成一些人工操作任务以提高效率。主要特点包括有限的视觉处理能力、自动标记、鼠标和键盘操作等,但目前存在一些功能暂不支持。 Sora:是第一个能够根据人类指令生成长达一分钟视频的模型,标志着在生成式 AI 研究和开发中的重大突破。 DiT:能将视频分解为一帧帧图像并逐帧去噪生成流畅连贯的视频,不仅能生成高质量逐帧图像,还能在时间维度上保持一致性。 Topview.ai:是一款面向海外市场的多模态转换工具,作为 AI 驱动的营销视频生成工具,可自动实现模态转换,帮助社交媒体达人将素材一键转换为爆款商业短视频。
2025-02-18
ai文本配音
以下是关于 AI 文本配音的详细内容: 使用剪映进行 AI 短片配音: 1. 打开剪映,点击左上角菜单——文本,从默认文本开始,点击默认文本。文本框会添加到轨道上、主编辑屏幕上和右边的属性栏。 2. 在右边文本框输入文字,可以是人物对话或短片旁白介绍。剪映提供了文案推荐和 AI 写旁白功能,目前限免。输入文字后,暂时不用管字体、字号、样式、颜色等设置,因为我们需要的是配音,不是字幕。 3. 点击上面菜单栏——朗读,会跳转到新界面,出现克隆音色和文本朗读两个按钮。 克隆音色步骤:点击克隆音色——点击克隆。如果使用电脑版演示,可能会提示未检测到麦克风,手机版可直接点击开始录制。 文本朗读:直接把输入的文本转换成剪映系统自带的各种成品音色,选择合适的音色,点击开始朗读即可生成。 4. 最后,删除输入的文本。如果想让文本成为字幕,可以用剪映里的字幕识别功能。 另外,还有 DubbingX 这个配音工具也不错。 如果想用 AI 把小说做成视频,大致制作流程如下: 1. 小说内容分析:使用 AI 工具(如 ChatGPT)分析小说内容,提取关键场景、角色和情节。 2. 生成角色与场景描述:根据小说内容,使用工具(如 Stable Diffusion 或 Midjourney)生成角色和场景的视觉描述。 3. 图像生成:使用 AI 图像生成工具根据描述创建角色和场景的图像。 4. 视频脚本制作:将提取的关键点和生成的图像组合成视频脚本。 5. 音频制作:利用 AI 配音工具(如 Adobe Firefly)将小说文本转换为语音,添加背景音乐和音效。 6. 视频编辑与合成:使用视频编辑软件(如 Clipfly 或 VEED.IO)将图像、音频和文字合成为视频。 7. 后期处理:对生成的视频进行剪辑、添加特效和转场,以提高视频质量。 8. 审阅与调整:观看生成的视频,根据需要进行调整,比如重新编辑某些场景或调整音频。 9. 输出与分享:完成所有编辑后,输出最终视频,并在所需平台上分享。 请注意,具体的操作步骤和所需工具可能会根据项目的具体需求和个人偏好有所不同。此外,AI 工具的可用性和功能也可能会随时间而变化,建议直接访问上述提供的工具网址获取最新信息和使用指南。
2025-03-16
AI怎么赚钱
以下是关于 AI 赚钱的一些信息: 首先,对于 GPTs/GLMs 能否赚钱的问题,答案是能,但大多数人不能。从一个 AI 产品经理的角色复盘 2023 年的所见所闻所感来聊,虽然目前最大的第三方 GPTs 商店 BeBeGPTs 收录了大量数据,但结果显示赚钱并非易事。 其次,关于如何靠 GPTs/GLMs 赚钱,OpenAI 刚推出 GPTs 时,有人将其比作苹果时代的 AppStore。产品的核心竞争力和护城河不在于 Prompt,而在于数据和服务(定制化 Tools)。例如,WebPilot 的作者通过自己开发的搜索接口提供搜索服务接入 GPTs,小红书写作专家的作者通过收集大量小红书数据和规则包装成 GPTs。也许能赚到红利的钱,但这不是长久赚钱的方法。 另外,AI 收费按 Token 计费,Token 相关问题包括:Token 是双向收费的,汉字、阿拉伯语等不同语言的计费方式,Token 在企业信息化过程中的意义等。在企业环境中,了解 Token 有助于更好理解 AI 在企业中的落地,它类似于积木,通过搭建来完成应用从而提高效率。
2025-03-16
AI助手App需要运营吗
AI 助手 App 需要运营。为了更好地还原国内 AI 产品的现状,量子位智库从用户规模、新增速度、用户活跃和用户粘性四大角度进行了数据统计。 在 APP 端,目前尚未出现比肩互联网时代现象级破圈之作的产品,且整体和海外同类型产品相差 5 倍以上。截至 2024 年 10 月,共 56 款产品的历史下载量超百万,8 款产品历史下载量超千万,夸克和豆包的历史总下载量已过亿。从单月新增来看,夸克、豆包和 Kimi 智能助手月增长可达到千万级,10 款产品可达百万级;DAU 方面,夸克 DAU 超过 2600 万,豆包、Kimi、天天跳绳和文小言 DAU 超百万;用户粘性方面,夸克和叨叨三日留存率超过 30%。 在 Web 端,AI 智能助手赛道外的所有赛道基本处于停滞状态,AI 搜索、AI 写作、AI 生图等赛道甚至出现头部产品数据下滑或下滑后回升乏力的情况。用户规模方面,月总访问量超千万的共 7 款产品,包括夸克、腾讯文档、百度文库、Kimi 智能助手、文心一言、豆包和通义。在用户活跃度上,共 3 款产品——夸克、Notion 和百度文库的 MAU 超过千万,19 款产品 MAU 超过百万。仅有 14 款产品人均每月访问超过 5 次,13 款产品平均访问时长超过 10 分钟。 此外,如果想在 10 分钟内在网站上增加一个 AI 助手,可以按照以下步骤操作: 1. 创建大模型问答应用: 进入百炼控制台的,在页面右侧点击新增应用,选择智能体应用并创建。 在应用设置页面,模型选择通义千问Plus,其他参数保持默认。也可以输入一些 Prompt 来设置人设引导大模型应对客户咨询。 在页面右侧提问验证模型效果,点击右上角的发布。 在我的应用>应用列表中查看所有百炼应用 ID 并保存,在顶部导航栏右侧点击人型图标,点击 APIKEY 进入我的 APIKEY 页面,创建新 APIKEY 并保存。 2. 搭建示例网站: 点击打开提供的函数计算应用模板,参考下图选择直接部署、并填写前面获取到的百炼应用 ID 以及 APIKEY,其他表单项保持默认,点击页面左下角的创建并部署默认环境,等待项目部署完成。 应用部署完成后,在应用详情的环境信息中找到示例网站的访问域名,点击即可查看。 3. 为网站增加 AI 助手: 回到应用详情页,在环境详情的最底部找到函数资源,点击函数名称,进入函数详情页。 在代码视图中找到 public/index.html 文件,取消相关位置的代码注释。 点击部署代码,等待部署完成。重新访问示例网站页面即可查看最新效果,网站右下角会出现 AI 助手图标,点击即可唤起 AI 助手。
2025-03-16
PPT智能生成AI
以下是关于 PPT 智能生成 AI 的相关内容: AI 生成 PPT 带来了课件制作与微课生成的颠覆性变革,几分钟就能搞定 60 分初稿。其原理和作用包括减轻排版工作压力、生成打底内容以减轻人工撰写的工作量。例如文章生成 PPT 时,让 AI 帮忙摘要内容并生成大纲列表;主题生成 PPT 时,让 AI 根据主题扩充成大纲列表乃至具体内容。在特定场景下可直接使用,如学生快速为小组展示配 PPT。 AI 辅助 PPT 的流程通常为:用户输入→AI 输出→通过排版网站选择适合的组件。有的网站配图也由 GenAI 根据页面内容生成。用户对生成的 PPT 结果不满意可自行选择模板。 以下为几款 PPT 生成工具(网站): https://zhiwen.xfyun.cn/ 讯飞智文 http://Mindshow.fun 支持 Markdown 导入 http://kimi.ai 选 PPT 助手暂时免费效果好 http://Tome.app AI 配图效果好 http://Chatppt.com 自动化程度高 https://wenku.baidu.com 付费效果好 此外,制作 PPT 的流程还可以是先让 GPT4 生成 PPT 大纲,然后把大纲导入到 WPS 当中,启用 WPS AI 一键生成 PPT,再让 chatPPT 添加动画,最后手动修改细节。 目前市面上大多数 AI 生成 PPT 按照如下思路完成设计和制作: 1. AI 生成 PPT 大纲 2. 手动优化大纲 3. 导入工具生成 PPT 4. 优化整体结构 推荐 2 篇市场分析的文章供参考: 《》 《》 相似问题包括:有没有生成 PPT 的应用推荐,不用翻墙的;免费生成 PPT 的网站有哪些;推荐一款文字生成 ppt 的工具;免费 ai 制作 ppt 软件;推荐 3 款好用的 AI 制作 ppt 工具。请注意内容由 AI 大模型生成,请仔细甄别。
2025-03-16
AI电影推荐一下
以下为您推荐几部与 AI 相关的电影: 1. 《模仿游戏》:讲述了计算机科学和人工智能之父图灵的故事,他在二战期间构建的机器破译了德军密码,并提出了“图灵测试”的方法来判断机器是否具有智能。 如果您想获取更多关于 AI 的内容,比如 AI 的技术原理、工具案例、未来发展及影响等,还可以参考以下资料: 1. 一个希望有点意思的 AI 分享(一):通过具体例子让大家对 AI 是什么有印象,介绍 AI 技术原理,解释如何理解“AI 能做什么”,介绍具体工具案例和资料,以及简单聊 AI 的未来发展和影响。 2. 爱奇艺智能推荐:利用 AI 算法分析用户的观看历史、评分等数据,为用户推荐符合其口味的电影。
2025-03-16
google最新的图文ai
Google 最新推出的图文 AI 为 Gemini 文生图 AI,它正在重塑设计行业,展现出强大的创作能力。以下是关于 Gemini 的一些特点和相关评测: 总体评价: 是当下最值得全设计行业甚至全碳基社会使用的文生图 AI。 在自然语言的修改指令理解、材质质感复现、局部细节微调方面,达到部分生产创作环节完全可用的水准。 几乎可算 AI 许愿机、超级嘴炮魔法。 能力表现: 在自然语言理解与材质质感复现方面表现出色。 在设计细节调整和多样化风格生成上表现出色。 语意遵循和画面控制力足够听话,风格化足够灵活,质感足够有 B 格。 应用潜力: 具有广泛的应用潜力,特别适合设计与内容创作领域的专业人士探索。 文中提到的 4 项能力测试和 5 个应用案例揭示了其能力边界。 如果您想了解更多关于 Gemini 的详细内容,可参考相关文章。
2025-03-16
如何构建一个优秀的ai的知识库
构建一个优秀的 AI 知识库可以参考以下步骤和要点: 1. 明确概念和原理:了解 AI 时代知识库的概念、实现原理以及能力边界。 2. 掌握获取资料的原理:比如在通往 AGI 之路大群中通过对话获取知识库中资料的原理。 3. 利用相关平台组件:更好地使用 Coze 等 AI Agent 平台中的知识库组件,打造更强大的智能体。 4. 规划内容: 数据库:让 Coze 拥有记忆的组件 1。 知识库:让 Coze 拥有记忆的组件 2。 变量:让 Coze 拥有记忆的组件 3。 JSON:让您更好地使用 Coze 插件。 API:外部应用程序接入 Coze 的方式。 操作系统与服务器:那些接入了 Coze 的微机器人的运行位置。 Docker:以最简单的方式部署微信机器人。 5. 确定功能范围:编写 prompt 提示词,设定 Bot 的身份和目标。 6. 整理对应关系:创建知识库,整理“关键字”与“AI 相关资料链接”的对应关系,并将信息存储起来。 支持的文档类型:本地文档、在线数据、飞书文档、Notion 等,可使用本地文档。 按照操作指引上传文档、分段设置、确认数据处理。 小技巧:知识库的好用程度与内容切分粒度有关,可以在内容中加上特殊分割符,如“”,分段标识符号选择“自定义”,内容填“”。如果内容有误需要编辑,可以点击具体内容,鼠标右键会看到“编辑”和“删除”按钮进行操作。 同时,“通往 AGI 之路”是一个由开发者、学者和有志人士等参与的学习社区和开源的 AI 知识库,在这里,您既是知识的消费者,也是知识的创作者。它不仅是一个知识库,还是连接学习者、实践者和创新者的社区,让大家在这里碰撞思想,相互鼓舞,一同成长。
2025-03-12
如何构建一个ai的知识库
构建一个 AI 知识库可以参考以下步骤: 1. 了解基础知识:一系列的信息和知识聚集在一起就可以构成知识库。例如“通往 AGI 之路”就是一个使用飞书软件搭建的 AI 知识库。 2. 参考相关文章:如“大圣:胎教级教程:万字长文带你使用 Coze 打造企业级知识库”,读完可收获 AI 时代的知识库的概念、实现原理以及能力边界,了解通往 AGI 之路大群中通过对话获取知识库中资料的原理,以及更好地使用 Coze 等 AI Agent 平台中的知识库组件,打造更强大的智能体。 3. 搭建步骤: 确定功能范围,编写 prompt 提示词,设定 Bot 的身份和目标。 创建知识库,整理“关键字”与“AI 相关资料链接”的对应关系,并将信息存储起来。创建知识库路径为个人空间知识库创建知识库。知识库文档类型支持本地文档、在线数据、飞书文档、Notion 等,可使用本地文档,并按照操作指引上传文档、分段设置、确认数据处理。注意知识库好不好用,跟内容切分粒度有很大关系,可以在内容中加上一些特殊分割符,比如“”,分段标识符号选择“自定义”,内容填“”。 4. 在网站上增加 AI 助手的私有知识: 上传文件:在百炼控制台的中的非结构化数据页签中点击导入数据,根据引导上传相关文档。 建立索引:进入,根据引导创建一个新的知识库,并选择刚才上传的文件,其他参数保持默认即可。选择向量存储类型时,如果希望集中存储、灵活管理多个应用的向量数据,可选择 ADBPG。 引用知识:完成知识库的创建后,返回进入到刚才创建的应用设置界面,打开知识检索增强开关、选择目标知识库,测试验证符合预期后点击发布。 希望以上内容对您构建 AI 知识库有所帮助。
2025-03-12
构建企业智能客服的方案有哪些
构建企业智能客服的方案主要包括以下几种: 1. 帮助企业快速建立产品智能客服体系,通过用户意图识别、知识库检索答案、AI 大模型总结输出答案、多轮对话沟通、对话分析打标、自动更新知识库 FAQ 以及客服效果分析,提供全面的 AI 客服解决方案,提高 AI 客服回答的准确率,降低企业商用 AI 客服的门槛。 2. 采用开源或者国内智谱、文心、百川等企业提供的 13B 级模型,本地部署在自己的内部系统中,并结合大模型企业提供的技术服务,基于大模型搭建 LangChain、RAG 框架,在智能客服上实现 RPA 自动流程。 3. 可以转化为 LLM 技术支持方,专注发力 LLM 的工程化应用方向,为企业提供更好的 LLM 本地部署和工程化,走 IBM 的企业服务道路。 4. 转变赛道,例如像智齿客服一样,借助国内出海的兴起以及中东、东南亚需求的旺盛,提供在这个方向的智能客服国内服务。 5. 转向 LMops 方向,虽然当前挺有用,比如做复杂 prompt 的多模型效果测试,做 langchain 的可视化设计,但也存在一些隐患点需要思考。 以下是一些具体的应用案例: 1. 如 Grammarly、秘塔写作猫等 AI 智能写作助手,利用自然语言处理技术辅助用户进行高质量写作。 2. 淘宝拍照搜商品,通过图像识别为用户推荐相似商品。 3. 小爱同学、Siri 等 AI 语音助手定制开发,采用语音识别、自然语言理解技术,为不同需求定制专属语音助手。 4. Keep 智能训练计划,利用数据分析、机器学习技术,根据用户数据制定个性化健身方案。 5. 大众点评智能推荐,基于数据挖掘、自然语言处理技术,基于用户口味偏好推荐美食。 6. 阿里小蜜等电商客服,通过自然语言处理、机器学习技术,为企业提供智能客服解决方案。
2025-03-11
RAG构建本地知识库
RAG(Retrieval Augmented Generation,检索增强生成)是一种利用大模型能力搭建知识库的技术。其主要应用场景是当需要依靠不包含在大模型训练集中的数据时。 一个RAG的应用可以抽象为以下5个过程: 1. 文档加载:从多种不同来源加载文档,如PDF、SQL、代码等,LangChain提供了100多种不同的文档加载器。 2. 文本分割:文本分割器把Documents切分为指定大小的块,称为“文档块”或者“文档片”。 3. 存储:包括将切分好的文档块进行嵌入转换成向量的形式,以及将Embedding后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给LLM,LLM会通过问题和检索出来的提示一起来生成更加合理的答案。 简单来说,RAG就是大模型+知识库,从广泛的知识库数据中检索相关片段,然后由大模型根据这些内容生成答案。这种方式一方面可以减大模型的幻觉,提高其在特定任务上的表现,更加贴合实际应用的需求,另一方面可以明显提高搜索文档信息和生成回答的效率和体验。 LangChain是一个可以实现RAG的开源框架,它提供一些基础的组件和工具,如知识库管理、文本处理、模型加载等,允许开发人员将大语言模型(LLM)与外部数据源相结合,快速搭建自己的应用。 在实际项目中,比如此次的政府政策问答实践,由于政策的复杂性和传统智能问答产品的局限性,选择LangChainChatchat框架构建政策文档的本地知识库,实现大模型基于本地知识库内容生成回答,为用户提供政策问答和解读服务,节省查找和理解政策的时间。
2025-03-11
我是IVD企业的技术中心主任,我想构建我们技术中心的知识库,有什么AI工具可以帮我实现
以下是一些可以帮助您构建技术中心知识库的 AI 工具及相关步骤: Dify 1. 准备数据:收集需要纳入知识库的文本数据,包括文档、表格等格式,并对数据进行清洗、分段等预处理,确保数据质量。 2. 创建数据集:在 Dify 中创建新的数据集,上传准备好的文档,并为数据集编写清晰的描述,说明其包含的内容和特点。 3. 配置索引方式:Dify 提供了高质量模式、经济模式和 Q&A 分段模式三种索引方式,您可根据实际需求选择,如追求更高准确度可选高质量模式。 4. 集成至应用:将创建好的数据集集成到 Dify 的对话型应用中,作为应用的上下文知识库使用。在应用设置中,配置数据集的使用方式,如是否允许跨数据集搜索等。 5. 持续优化:收集用户反馈,对知识库内容和索引方式进行持续优化和迭代,定期更新知识库,增加新内容以保持时效性。 其他相关场景和应用 1. 提示词帮您规划 PARA 分类模式:PARA 代表项目(Projects)、领域(Areas)、资源(Resources)和档案(Archives)。AI 可通过分析您的工作模式和内容类型,自动生成提示词,帮助您将信息和知识分类到 PARA 的相应部分,简化分类过程,更快组织和检索信息。 2. 提示词帮您设计笔记标签系统:AI 能通过分析您的笔记内容和使用习惯,推荐合适的标签和标签结构,提高笔记管理和检索效率。 3. 知识助手 Bot 帮您渐进式积累领域知识:例如基于 dify.ai 将数百个思维模型整合成一个知识库,根据不同的对话和条件判断为用户选择适用的思维模型分析工具,封装成一个智能分析的 Bot,能根据您的学习进度和兴趣点,定期推送相关文章、论文和资源,持续扩展知识边界并确保知识及时更新。
2025-03-09
有什么构建类似键鼠精灵 AI工作流的方法
以下是构建类似键鼠精灵 AI 工作流的一些方法: 1. 利用 Comfyui 界面: 打开 Comfyui 界面后,右键点击界面,找到 Comfyui LLM party 的目录。您可以手动连接节点来实现工作流,例如实现一个最简单的 AI 女友工作流;也可以直接将相关工作流文件(如)拖拽到 Comfyui 界面中一键复刻。 2. 启动 ollama: 从 ollama 的 github 仓库找到对应版本并下载。 启动 ollama 后,在 cmd 中输入 ollama run gemma2 将自动下载 gemma2 模型到本地并启动。将 ollama 的默认 base URL=http://127.0.0.1:11434/v1/以及 api_key=ollama 填入 LLM 加载器节点即可调用 ollama 中的模型进行实验。 如果 ollama 连接不上,很可能是代理服务器的问题,请将 127.0.0.1:11434 添加到不使用代理服务器的列表中。 3. 低代码+UI 版本: 方法一:直接使用 Coze 的 API 对接前端 UI 框架,将工作流逻辑集中在工程模板端,实现前后端分离的处理方式。 方法二:直接调用大模型 API,并通过前端代码实现提示词处理和逻辑控制,将交互流程完全放入前端代码中。 实现文件上传:通过 Coze 的,用户可将本地文件上传至 Coze 的云存储。在消息或对话中,文件上传成功后可通过指定 file_id 来直接引用该文件。 关于 API 的使用及工作流执行流程可以参考。 4. 飞书机器人创建: 飞书应用建立: 在中创建自建应用。 进入应用获取 app_id 与 app_secret。 添加应用能力>开启机器人应用能力。 权限管理>消息与群组>选择需要的权限打开。 安全设置>将 comfyUI 运行的电脑 IP 加入白名单。 发布机器人以应用生效。 获取群组或用户 id: 要先把创建的机器人拉到群组中或者拉进私聊。 飞书开发平台找到发送消息的开发文档。 右侧点击获取 token。 选择 receive id type,chat_id 对应群组,open_id 与 user_id 对应个人,点击选择成员,复制对应的 id 即可。 如果需要让机器人发送语音,需要自行在电脑上安装 ffmpeg 。
2025-03-08
如何搭建智能体
搭建智能体的步骤如下: 1. 创建智能体,输入人设等信息,并放上相关工作流。配置完成后进行测试。但需注意,工作流中如涉及插件 api_token,不能直接发布,可将其作为工作流的输入,让用户购买后自行输入再发布。 2. 确定智能体的结构: 按照市场营销逻辑组织,如在品牌卖点提炼中,以品牌卖点提炼六步法为核心流程,加入其他分析助手,包括品牌卖点定义与分类助手、STP 市场分析助手、用户画像分析助手、触点收集助手等,同时还可包括用户需求分析的 KANO 助手、营销六层转化漏斗分析、超级转化率六要素等工具。 明确 AI 的能力边界,如 AI 不了解公司的主要产品、独特之处、获得的认可、核心渠道、核心购买人群、营销手段、期望的新渠道结果等。 确定智能体为引导型助手,如在寻找卖点时作为灵感提问助手,提供更多思考维度。
2025-03-15
作为一个法学本科生,人工智能小白,我可以从那些角度去深入学习人工智能,以达到可以参加人工智能开发的地步
对于法学本科生且人工智能小白的您,想要达到可以参加人工智能开发的地步,可以从以下角度深入学习人工智能: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括人工智能的主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,比如图像、音乐、视频等,您可以根据自己的兴趣选择特定的模块进行深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习之后,实践是巩固知识的关键,尝试使用各种产品做出您的作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎您实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解它们的工作原理和交互方式,获得对 AI 在实际应用中表现的第一手体验,并激发对 AI 潜力的认识。 如果希望继续精进,对于 AI,可以尝试了解以下作为基础的内容: 1. AI 背景知识: 基础理论:了解人工智能、机器学习、深度学习的定义及其之间的关系。 历史发展:简要回顾 AI 的发展历程和重要里程碑。 2. 数学基础: 统计学基础:熟悉均值、中位数、方差等统计概念。 线性代数:了解向量、矩阵等线性代数基本概念。 概率论:基础的概率论知识,如条件概率、贝叶斯定理。 3. 算法和模型: 监督学习:了解常用算法,如线性回归、决策树、支持向量机(SVM)。 无监督学习:熟悉聚类、降维等算法。 强化学习:简介强化学习的基本概念。 4. 评估和调优: 性能评估:了解如何评估模型性能,包括交叉验证、精确度、召回率等。 模型调优:学习如何使用网格搜索等技术优化模型参数。 5. 神经网络基础: 网络结构:理解神经网络的基本结构,包括前馈网络、卷积神经网络(CNN)、循环神经网络(RNN)。 激活函数:了解常用的激活函数,如 ReLU、Sigmoid、Tanh。 此外,由于库和框架的支持不断增加,机器学习开始变得越来越流行。但要实现落地 AI 行业,我们必须了解这些代码背后的逻辑。一旦取消了现有框架的支持,了解这些框架背后的数学细节,编写这些算法中包含的复杂模式就会显得非常重要。至少需要了解概率、统计、线性代数、微积分和图论方面的知识。有了具体的数学知识,我们就可以充分利用机器学习的潜力,比如: 1. 凭借算法背后的内联数学知识,为数据集选择最佳算法。 2. 利用正则化器背后的数学知识帮助解决模型过拟合或高方差问题。 3. 利用图论的知识来分析数据特征之间更复杂的关系。 4. 利用优化器背后的数学知识来设计适当的成本函数。 机器学习需要的数学知识水平相对比较主观,取决于每个人的具体需求。比如正在进行机器学习的底层研究,可能需要具有深厚的数学知识,因为研究要求彻底深入。但对单纯的应用者来说,可能不需要任何高等数学的相关知识,掌握 prompt 的基础框架就可以很好的应用。
2025-03-15
小红书爬虫智能体
以下是关于小红书爬虫智能体的相关内容: 创建智能体: 1. 输入人设等信息,放上创建的工作流。 2. 配置完成后进行测试。 工作流配置及注意事项: 1. 工作流 2 中【所有视频片段拼接】节点使用的插件 api_token 填的是您的 token,为避免他人调用消耗您的费用,可将 api_token 作为工作流 2 最开始的输入,用户购买后输入 token 再发布。 2. 对于 Coze 智能体,使用单 Agent 对话流模式,编排对话流时注意配置 cookie 等,使用代码节点进行数据处理,注意代码节点输出的配置格式。测试时找到一篇小红书笔记,试运行对话流,确保成功。发布时选择多维表格,注意输出和输入类型等配置。 智能体示例: 小众打卡地智能体,输入旅游目的地城市可推荐 3 个小众打卡地的小红书类文案及精美配图。其核心价值包括发掘特色景点、提供个性化建议、帮助获取高质量旅行参考信息及提供小红书文案。搭建思路重点包括录入小红书相关文案参考知识库、通过文本模型组成搜索词搜索并提取相关 url、滤除需安全认证网站等、提取小众地点输出及进行图片搜索等。
2025-03-15
如何搭建一个你这样的知识库智能问答机器人,有相关的流程教程吗?
搭建一个知识库智能问答机器人通常包括以下流程: 1. 基于 RAG 机制: RAG 机制全称为“检索增强生成”,是一种结合检索和生成的自然语言处理技术。它先从大型数据集中检索与问题相关的信息,再利用这些信息生成回答。 要实现知识库问答功能,需创建包含大量文章和资料的知识库,例如有关 AI 启蒙和信息来源的知识库,并通过手工录入方式上传文章内容。 2. 利用 Coze 搭建: 收集知识:确认知识库支持的数据类型,通过企业或个人沉淀的 Word、PDF 等文档、云文档(通过链接访问)、互联网公开内容(可安装 Coze 提供的插件采集)等方式收集。 创建知识库。 创建数据库用以存储每次的问答。 创建工作流: 思考整个流程,包括用户输入问题、大模型通过知识库搜索答案、大模型根据知识库内容生成答案、数据库存储用户问题和答案、将答案展示给用户。 Start 节点:每个工作流默认都有的节点,是工作流的开始,可定义输入变量,如 question,由 Bot 从外部获取信息传递过来。 知识库节点:输入为用户的查询 Query,输出为从知识库中查询出来的匹配片段。注意查询策略,如混合查询、语义查询、全文索引等概念。 变量节点:具有设置变量给 Bot 和从 Bot 中获取变量的能力。 编写 Bot 的提示词。 预览调试与发布。 海外官方文档:https://www.coze.com/docs/zh_cn/knowledge.html 国内官方文档:https://www.coze.cn/docs/guides/use_knowledge
2025-03-14
智能座舱
以下是关于智能座舱的相关信息: 火山引擎 AI 创造者大赛设置了“AI 座舱”赛道。该大赛由火山引擎携手领克汽车与英特尔联合主办,鼓励开发者及技术爱好者利用豆包大模型和扣子专业版,针对领克汽车的真实业务场景开发具有实际应用价值的智能体解决方案。 在“AI 座舱”赛道中,赛题说明为利用豆包大模型、扣子专业版以及吉利原子化能力,探索 AI 在智能座舱中的多样化应用,通过智能座舱内的智能体开发,满足车主定制化的需求。核心目标是通过扣子专业版的插件调用吉利座舱原子化能力自建车载智能体,利用豆包大模型提升智能体的交互能力和智能水平,开发的解决方案应具备实际应用价值,并能够显著提升用户体验。 2023 年度中文大模型基准测评报告显示,在智能座舱与交互这一维度上,仅有一个中文模型达到了良好表现,说明中文大模型在智能座舱与交互还有不少的进步空间。在汽车场景中,部分中小模型在满足用户需求方面具备良好能力,端侧模型有非常大的潜力。
2025-03-14