Chat with Wiki - WayToAGI

Navigate to WaytoAGI Wiki →

Home/All Questions

ai智能体是什么

AI 智能体是指类似于 AI 机器人小助手的存在。参照移动互联网，它类似 APP 应用的概念。简单来说，就是拥有各项能力来帮助人们做特定事情的“打工人”。随着 ChatGPT 与 AI 概念的爆火，出现了很多相关新名词，如“智能体 Agent”“bot”和“GPTs”等。AI 大模型是一种技术，而面向用户提供服务的是产品，因此很多公司开始关注 AI 应用层的产品机会，出现了不少智能体开发平台，如字节的扣子、阿里的魔搭社区等。在 C 端，比如社交方向，用户注册后先捏一个自己的智能体，然后让其与他人的智能体聊天，两个智能体聊到一起后再真人介入，这是一种有趣的场景；还有借 Onlyfans 入局打造个性化聊天的创业公司。在 B 端，如果字节扣子和腾讯元器是面向普通人的低代码平台，类似 APP 时代的个人开发者，那还有帮助 B 端商家搭建智能体的机会。 AI 智能体包含了自己的知识库、工作流，还可以调用外部工具，再结合大模型的自然语言理解能力，能够完成比较复杂的工作。其出现是为了解决如 GPT 或文心一言大模型存在的胡编乱造、时效性、无法满足个性化需求等问题，用户可以结合自己的业务场景和需求，创建自己的智能体来解决问题。

如何把视频的内容，包括对话的文字提取并总结成文字？

要把视频的内容包括对话文字提取并总结成文字，可以按照以下步骤进行： 1. 对于有字幕的 B 站视频，如果视频栏下面有字幕按钮，说明视频作者已上传字幕或后台适配了 AI 字幕。 2. 安装油猴脚本：。 3. 安装之后刷新浏览器，点击字幕会出现“下载”按钮。 4. 点击下载按钮，选择多种字幕格式，如带时间或不带时间的。 5. 将下载的字幕文字内容全选复制发送给 GPTs 进行总结。此外，还有一个集成的视频理解系统 MMVid，它由 Microsoft Azure AI 开发，结合了 GPT4V 的能力和其他视觉、音频和语音处理工具，能处理和理解长视频和复杂任务，能够自动识别和解释视频中的元素，如人物行为、情感表达、场景变化和对话内容，从而实现对视频故事线的理解，其核心功能是将视频中的多模态信息转录成详细的文本脚本，方便大语言模型理解视频内容。

视频内容提取

视频内容提取的方法主要有以下几种： 1. 使用 OpenCV 从视频中提取帧，例如从包含野牛和狼的自然视频中提取帧，显示帧以确保正确读取。 2. 对于谷歌 Gemini 多模态提示词培训课中的示例，在数字营销中从视频提取关键元素，如标题、描述和元数据。首先加载数据，包括视频的 URI、URL 和 Path，然后导入视频，写好提示，为模型指定角色和明确任务，如提取标题、撰写摘要、提供以 JSON 格式的元数据。 3. 如果想用 AI 把小说做成视频，流程如下：小说内容分析：使用如 ChatGPT 等 AI 工具分析小说，提取关键场景、角色和情节。生成角色与场景描述：用如 Stable Diffusion 或 Midjourney 等工具生成视觉描述。图像生成：使用 AI 图像生成工具创建图像。视频脚本制作：将关键点和生成的图像组合成脚本。音频制作：利用如 Adobe Firefly 等工具将文本转换为语音，添加背景和音效。视频编辑与合成：使用如 Clipfly 或 VEED.IO 等软件合成视频。后期处理：进行剪辑、添加特效和转场以提高质量。审阅与调整：观看视频并根据需要调整。输出与分享：完成编辑后输出并分享。请注意，具体操作步骤和所需工具可能因项目需求和个人偏好不同而有所差异，且 AI 工具的可用性和功能可能会变化，建议获取最新信息和使用指南。

RAG最新进展

RAG（检索增强生成）是由 Lewis 等人于 2020 年中期提出的一种大语言模型领域的范式。其发展经历了以下阶段： 1. 2017 年创始阶段，重点是通过预训练模型吸收额外知识以增强语言模型，主要集中在优化预训练方法。 2. 大型语言模型如 GPT 系列在自然语言处理方面取得显著成功，但在处理特定领域或高度专业化查询时存在局限性，易产生错误信息或“幻觉”，特别是在查询超出训练数据或需要最新信息时。 3. RAG 包括初始的检索步骤，查询外部数据源获取相关信息后再回答问题或生成文本，此过程为后续生成提供信息，确保回答基于检索证据，提高输出准确性和相关性。 4. 在推断阶段动态检索知识库信息能解决生成事实错误内容的问题，被迅速采用，成为完善聊天机器人能力和使大语言模型更适用于实际应用的关键技术。 RAG 在多个基准测试中表现出色，如在 Natural Questions、WebQuestions 和 CuratedTrec 等中表现抢眼。用 MSMARCO 和 Jeopardy 问题进行测试时，生成的答案更符合事实、具体和多样，FEVER 事实验证使用后也有更好结果。基于检索器的方法越来越流行，常与 ChatGPT 等流行大语言模型结合使用提高能力和事实一致性，在 LangChain 文档中有相关使用例子。同时，对增强生成检索的兴趣增长促使了嵌入模型质量的提高，传统 RAG 解决方案中的问题也得到解决。

有哪些AI网站是支持视频文字提取的？

以下是一些支持视频文字提取的 AI 网站及相关操作方法：对于 B 站视频，如果视频有字幕，您可以安装油猴脚本“Bilibili CC 字幕工具”（https://greasyfork.org/zhCN/scripts/378513bilibilicc%E5%AD%97%E5%B9%95%E5%B7%A5%E5%85%B7 ）。安装后刷新浏览器，点击字幕会多出一个“下载”按钮，可选择多种字幕格式，如带时间或不带时间的。然后将下载的字幕文字内容全选复制发送给 GPTs 进行总结。需要注意的是，目前大部分用 AI 总结视频的工具、插件或应用都是通过提取视频字幕来实现的。

快速学习AI的话最推荐哪个视频教程

以下是为您推荐的两个有助于快速学习 AI 的视频教程： 1. 【包教包会】一条视频速通 AI 大模型原理_哔哩哔哩_bilibili （https://www.bilibili.com/video/BV17t4218761/?vd_source=3cc4af77a2ef185635e8097d3326c893）。此视频由（https://space.bilibili.com/523995133）（女神）主讲，和某知识 up 主 Genji 一起制作的免费公益课，干货满满，对新手友好，能带你 50 分钟速通 AI 大模型原理。 2. 用大模型保存你的全部人生，你会接受吗：专访安克创新 CEO 阳萌|大咖谈芯第 11 期_哔哩哔哩_bilibili （https://www.bilibili.com/video/BV1iT421Q7M1）。这是某知识 up 主老石谈芯专访安克创新 CEO 阳萌的视频，一共两期，推荐的链接是第二期。两期内容都值得观看，访谈非常硬核。

多智能体应用搭建

多智能体是由多个自主、独立的智能体组成的系统，每个智能体都能感知环境、决策并执行任务，且相互间能信息共享、任务协调与协同行动以实现整体目标。随着大型语言模型的出现，以其为核心构建的 Agent 系统受广泛关注。单 Agent 核心在于语言模型与工具的协同配合，可能需与用户多轮交互。而多 Agent 为不同 Agent 分配角色并通过协作完成复杂任务，与用户交互可能减少。构建多 Agent 框架的主要组成部分包括： 1. 环境：所有 Agent 处于同一环境，包含全局状态信息，且 Agent 与环境有信息交互与更新。 2. 阶段：通常采用 SOP 思想将复杂任务分解为多个子任务。 3. 控制器：可以是语言模型或预先定义好的规则，负责环境在不同 Agent 和阶段间切换。 4. 记忆：因 Agent 数量增多，消息数量及相关字段记录更复杂。创建智能体时，输入人设等信息并配置工作流，配置完成后可测试，但注意工作流中某些插件的 api_token 不能直接发布，可作为输入让用户购买后输入使用再发布。 OpenAI 官方开源的多智能体框架「Swarm」受欢迎，其在多智能体通信方面表现出色，解决了不同智能体之间传递信息及传递哪些信息等核心难题。例如构建客服多智能体，只需准备普通接线客服和宽带客服两个 Agent，「Swarm」的「Handoffs」处理了交接逻辑。

如何让agent协作起来

要让 Agent 协作起来，可以参考以下方法： 1. 了解不同的产品设计模式：生成式 AI 的人机协同分为 Embedding（嵌入式）、Copilot（副驾驶）、Agent（智能代理）这 3 种模式，每种模式下人与 AI 的协作流程有所差异。其中 Embedding 模式人类完成大多数工作，Copilot 模式人类和 AI 协同工作，Agents 模式 AI 完成大多数工作。 2. 采用 Multiagent Collaboration 的方法：让不同角色的 Agent 按照任务要求自主规划选择工具、流程进行协作完成任务。例如作为产品经理，可将产品功能设计需求通过 Agents 拆解成多个独立任务，遵循不同工作流，生成初步结果后再修改完善。 3. 从原子能力层思考：抽象化拆解大模型的底层能力，如翻译、识别、提取、格式化等，围绕“输入”“处理”“输出”“反馈”构建最底层的信息处理逻辑。 4. 重塑获取信息的方式：搜索引擎和基于大模型的聊天机器人的目标从根本上一致，可根据需求选择。 5. 注意多 Agent 模式中的设置：分为全局设置和节点设置。全局设置中更应注意角色定义和人物刻画，节点设置更关注单个智能体中要详细执行的逻辑。 6. 合理编排智能体：将智能体编排首尾相连，避免成为线性工作流。 7. 明确跳转模式和适用场景：单个 Agent 中两种跳转模式分别适用于通用和复杂的意图识别和跳转，一般场景下前者效果更好，后者适用更复杂的意图识别情景。同时，编排时应明确单个 Agent 的名称和适用场景，以便节点跳转模型更好地识别触发条件。

kimi、豆包、deepseek的区别和优劣

以下是 kimi、豆包、deepseek 的区别和优劣：从月活榜来看： deepseek：在月活用户方面表现出色，排名第一，月活用户达 7068 万人，环比变化为 24.3616%。豆包：月活用户为 779 万人，环比变化为 0.1911%。 kimi：月活用户为 591 万人，环比变化为 0.1135%。从流量榜来看： deepseek：访问量排名第一，达 22541 万。豆包：访问量为 3457 万。 kimi：访问量为 3282 万。在输出效果方面，DeepSeek 的思考与表达被认为碾压了包括豆包和 kimi 在内的其他模型，其思考过程细腻、自洽、深刻、全面，输出结果在语气、结构、逻辑上表现出色。需要注意的是，这些数据仅反映了一定时期内的情况，且不同模型在不同的应用场景和用户需求下可能具有不同的优势。

模型微调是怎么实现的

模型微调是一种迁移学习技术，常用于深度学习中。其基本思路是先有一个在大量数据上预训练的模型，已学会一些基本模式和结构，然后在特定任务数据上继续训练以适应新任务。以下是关于模型微调的具体实现步骤： 1. 准备和上传训练数据。 2. 训练新的微调模型： LoRA 微调：脚本见：。具体实现代码见。单机多卡的微调可通过修改脚本中的include localhost:0 来实现。全量参数微调：脚本见：。具体实现代码见。 3. 加载微调模型： LoRA 微调：基于 LoRA 微调的模型参数见基于 Llama2 的中文微调模型，LoRA 参数需和基础模型参数结合使用。通过加载预训练模型参数和微调模型参数。全量参数微调：调用方式同模型调用代码示例，只需修改其中的模型名称或保存路径。微调的优点包括： 1. 比即时设计更高质量的结果。 2. 能够训练比提示中更多的例子。 3. 由于更短的提示而节省了 Token。 4. 更低的延迟请求。微调目前仅适用于以下基础模型：davinci、curie、babbage 和 ada。以下是两个帮助理解微调概念的例子： 1. 情感分类：先使用大量语料库预训练模型，使其学会基本语法和单词语义，再收集标注过的电影评论（积极或消极）继续训练模型，使其学会判断评论情感。 2. 图像分类：先使用大量图片（如 ImageNet 数据集）预训练模型，使其学会识别图片中的基本形状和纹理，再收集标注过的猫和狗的图片继续训练模型，使其学会区分猫和狗。