「AGIへの道」飛書ナレッジベースへ直行 →
ホーム/すべての質問
什么是AI AGENT
AI Agent 是基于大型语言模型(LLM)和其他技术实现的智能实体,其核心功能在于自主理解、规划决策、执行复杂任务。 AI Agent 包括以下几个概念: 1. Chain:通常一个 AI Agent 可能由多个 Chain 组成。一个 Chain 视作是一个步骤,可以接受一些输入变量,产生一些输出变量。大部分的 Chain 是大语言模型完成的 LLM Chain。 2. Router:我们可以使用一些判定(甚至可以用 LLM 来判定),然后让 Agent 走向不同的 Chain。例如:如果这是一个图片,则 a;否则 b。 3. Tool:Agent 上可以进行的一次工具调用。例如,对互联网的一次搜索,对数据库的一次检索。 总结下来我们需要三个 Agent: 1. Responser Agent:主 agent,用于回复用户(伪多模态)。 2. Background Agent:背景 agent,用于推进角色当前状态(例如进入下一个剧本,抽检生成增长的记忆体)。 3. Daily Agent:每日 agent,用于生成剧本,配套的图片,以及每日朋友圈。 这三个 Agent 每隔一段时间运行一次(默认 3 分钟),运行时会分析期间的历史对话,变更人物关系(亲密度,了解度等),变更反感度,如果超标则拉黑用户,抽简对话内容,提取人物和用户的信息成为“增长的记忆体”,按照时间推进人物剧本,有概率主动聊天(与亲密度正相关,跳过夜间时间)。 此外,agent 算是从年前到现在比较火的一个概念,也被很多人认为是大模型的未来的一个主要发展方向。首先中间的“智能体”,其实就是 llm 或者说大模型。四个箭头,分别是为 llm 增加的四个能力:工具、记忆、行动、规划。目前行业里主要用到的是一个叫 langchain 的框架,这个框架可以简单理解为,它把 llm 和 llm 之间,以及 llm 和工具之间,通过代码或 prompt 的形式,进行了串接。这个其实也像是在 rag 的基础上再进了一步。因为 rag 是给了大模型一个浏览器工具来使用,而 agent 其实就是给了大模型更多的工具。比如像是长期记忆,其实就是给了大模型一个数据库工具让其往里记录重要信息。规划和行动,其实就是在大模型的 prompt 层做的一些逻辑,比如让其将目标进行每一步的拆解,拆解完成后,每一步去输出不同的固定格式 action 指令,给到工具作为输入。当然 langchain 或者说 agent 还不止这些,也会有很多其他的代码逻辑体现在其中,不过其主要的主干逻辑,其实还是在 prompt 层和工具层,完成的设计。
2024-11-30
comfyui无法连接服务器
ComfyUI 无法连接服务器可能有以下原因和解决办法: 1. 网络问题导致无法从 GitHub 下载资源: 可以使用国内镜像,参考文档中的说明。 直接从 GitHub 网页下载资源,然后放到对应的文件路径。 2. 终端连接不上 GitHub 可能是因为网络未做到终端 FanQiang,需要配置好代理。具体端口要根据自己的 FanQiang 服务来看,最好把这个配置到默认的终端启动项里边:export https_proxy=http://127.0.0.1:7890 http_proxy=http://127.0.0.1:7890 all_proxy=socks5://127.0.0.1:7890 。或者考虑使用第三方镜像站下载,如 TUNA()。 此外,安装 ComfyUI 还有以下电脑硬件要求: 1. 系统:Windows7 以上(不建议使用 XP 系统)。 2. 显卡要求:NVDIA 独立显卡且显存至少 4G 起步。 3. 硬盘留有足够的空间,最低 100G 起步(包括模型)。 注:mac 系统、AMD 显卡、低显卡的情况也可以安装使用,但功能不全,出错率偏高,严重影响使用体验,个人建议升级设备或者采用云服务器玩耍。
2024-11-30
NVIDIA Graphics Device with CUDA capability sm_120 is not compatible with the current PyTorch installation. The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_61 sm_70 sm_75 sm_80 sm_86 sm_90 compute_37. If you want to use th
您好,出现“NVIDIA Graphics Device with CUDA capability sm_120 is not compatible with the current PyTorch installation. The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_61 sm_70 sm_75 sm_80 sm_86 sm_90 compute_37.”这种情况,意味着您所使用的 NVIDIA 显卡的 CUDA 计算能力(sm_120)与当前安装的 PyTorch 版本不兼容。当前安装的 PyTorch 支持的 CUDA 计算能力为 sm_37 至 sm_90 以及 compute_37 。您可能需要重新安装与您显卡 CUDA 计算能力相匹配的 PyTorch 版本,或者升级您的显卡驱动程序来解决此兼容性问题。
2024-11-30
Kimi功能有什么,如果入门Kimi
Kimi 的功能包括以下方面: 1. 拥有 15 款官方提示词,例如: 【?会议精要】整理生成高质量会议纪要,保证内容完整、准确且精炼。 【? PPT 精炼】整理各种课程 PPT,输出结构明晰、易于理解内容文档。 【?爆款文案】生成高质量的爆款网络文案。 【?影剧推荐】根据喜好推荐影视,提供保姆级资源渠道。 【?影评达人】专业生成引人入胜、富有创意的电影评论。 【?职业导航】私人职业路径规划顾问,综合考虑个人特质、就业市场和发展前景。 【?营销策划】为产品或服务提供定制化营销活动策划。 【?面试模拟】私人面试 mock 伙伴,根据简历信息和求职岗位进行模拟面试。 【?宣传 slogan】快速生成抓人眼球的专业宣传口号。 【✍️期刊审稿】提前预知审稿人对文章的吐槽。 【?诗意创作】现代诗、五言/七言诗词信手拈来的诗歌创作助手。 【?推闻快写】专业微信公众号新闻小编,兼顾视觉排版和内容质量,生成吸睛内容。 【?要点凝练】长文本总结助手,能够总结用户给出的文本、生成摘要和大纲。 【?短剧脚本】创作定制化短视频脚本,包含拍摄要求和分镜细节。 【?美文排版】使用 Unicode 符号和 Emoji 表情符号优化文字排版,提供良好阅读体验。 2. 浏览器插件功能: 安装后,在浏览网络文章时点击插件图标,或使用快捷键 Ctrl/Cmd+Shift+K,即可一键召唤 Kimi 总结网页内容。 特点包括极简,点击一键总结,无其他花里胡哨的功能;Kimi 无法访问的网页也可以进行总结,如推特等;英文文章直接用中文总结要点;支持 Dark Mode。 注意事项:本插件为第三方爱好者开发,不是 Kimi 或月之暗面官方产品;由于 Arc 等浏览器没有所需的 API,所以本插件在 Arc 等浏览器无法使用。 Kimi 阅读助手插件可以快捷调用 Kimi,并将当前页面打包成一个.md 文件喂给 Kimi,总结模型可自己选择。 插件使用注意:需要 Chrome 114 及以上版本才能正常使用扩展;暂不支持 Arc 游览器(Arc 缺少相关 API)。 0.6.1 版本的更新包括:fix:预设提示词无法滚动;fix:超长提示词无法完整引用;feat:新会话默认选中总结提示词;feat:增加 Kimi 读书模式(切换章节后可以继续追加新的页面内容)。 如果您想入门 Kimi,可以先了解这些功能,并根据自己的需求选择相应的提示词和插件进行尝试和练习。
2024-11-30
图像流相关文章
以下是一些与图像流相关的文章: :包含用图像流给老板制作表情包的教程。 :介绍了 Glif 图像流,对比了其与 Coze 图像流的定位差异。 :会议讨论了图像流和 AI 绘画的相关内容,包括图像流入门基础和商业案例、AI 绘画的功能等,同时列出了待办事项。
2024-11-30
国内如何登录chatgpt
以下是国内登录 ChatGPT 的详细步骤: 1. 注册谷歌账号: 电脑打开谷歌网站:https://accounts.google.com/,点击创建账号。 选择个人用途。 填写姓名(避免中文、拼音,尽量用英文名字,姓可以不填)。 填写年龄性别(最好大于 18 岁)。 填写账号名称。 设置密码(大小写字母+数字)。 手机短信验证,有一定概率跳到接收短信验证,这里填国内的号码就可以,填写验证码。 填写辅助邮箱(可用国内邮箱)。 确认账户信息,点击下一步。 拉到最底部,点我同意。 点击确认开启个性化设置后即可完成注册。 2. 注册 ChatGPT 账号: 打开 ChatGPT 的官网:https://chat.openai.com/,点击注册按钮。 点击用 Google 账号登录。 输入刚注册的谷歌邮箱,点击下一步。 输入密码,点击下一步。 确认用谷歌账号作为 ChatGPT 账号登录。 然后会跳转到 OpenAI 的网页,填写名字跟出生日期(也要确保年龄在 18 岁以上),点击 Agr。 然后就完成注册。 3. 订阅 ChatGPT Plus: 目前订阅 PLUS 版本有好几种方法,但最简单方便的个人还是觉得用手机端订阅,安卓手机可以使用谷歌支付,苹果手机可以在支付宝购买礼品卡充值到苹果 ID 里面进行订阅。 首先,在谷歌账号里绑定谷歌支付,目前只支持国内的双币信用卡或者全币信用卡。打开谷歌商店,点击“付款和订阅”,点击“付款方式”,点击“添加信用卡或借记卡”,填写信用卡信息,填写后点击保存卡,付款方式就会出现绑定的信用卡。 打开 ChatGPT 手机应用,选择谷歌账号登录,选择相应账号后,点击打开外部应用,成功登录 ChatGPT,点 Continue 继续,点击顶部 get plus 按钮,点击订阅按钮,此时会跳出谷歌支付的界面,确定订阅即可。如日后想要取消订阅,可到谷歌商店的账号管理,付款和订阅里面取消即可。 注:使用以上软件需要会科学上网。
2024-11-30
深度学习
深度学习是一个源于新方法和策略的领域,旨在克服梯度消失问题以生成深层非线性特征层次,从而能够训练具有数十层非线性层次特征的体系结构。2010 年早期的研究表明,结合 GPUs 和激活函数能提供更好的梯度流以训练深层结构,此后人们对深度学习的兴趣日益增长。 深度学习不仅与学习深度非线性层次特征有关,还与学习检测序列数据中非常长的非线性时间依赖性有关。长短时记忆循环神经网络允许网络收集过去几百个时间步的活动以做出准确预测,自 2013 年以来其使用量迅速增长,与卷积网络一起构成了深度学习的两大成功案例之一。 在分层特征学习中,提取多层非线性特征并传递给分类器进行预测。由于无法从几层中学习复杂特性,所以叠加深层次非线性特征。研究表明,人脑在视觉皮层接收信息的过程与分层特征学习类似。虽然分层特征学习在深度学习之前就已存在,但面临梯度消失问题,导致性能较差。 Geoffrey Hinton 是将深度学习从边缘课题变成 Google 等网络巨头仰赖的核心技术的关键人物。早在高中时期,他就对大脑工作原理像全息图一样的观点着迷,并在后续求学和研究中不断探索神经网络,经过三十多年努力,深度学习成为热门课题。如今,Hinton 及其团队在互联网上大有名气,他为 Google 工作,使用深度学习技术改进语音识别、图像标记等在线工具,其他团队成员也在相关领域发挥重要作用。在剑桥大学学习期间,Hinton 关注科学家尚未真正理解的大脑神经细胞间复杂的相互联系以及学习计算方式。
2024-11-30
深度强化学习
深度强化学习是强化学习与深度学习技术相结合的领域。 其起源于 20 世纪 90 年代,特点是通过试错学习最优行为策略,以最大化累积奖励。 技术方面,起初基于策略搜索和价值函数优化等算法,如 Qlearning 和 SARSA 是典型代表。随着深度学习兴起,深度神经网络与强化学习融合,产生了深度强化学习,如 AlphaGo 和 DQN 等就是显著成果。 深度强化学习的优势在于允许 Agent 在未知环境中自主探索和学习,无需人工明确指导,能够处理高维状态空间和连续动作空间,在游戏、机器人控制等领域有广泛应用潜力。 然而,深度强化学习也面临诸多挑战,包括漫长的训练周期、低下的采样效率以及稳定性问题,尤其在应用于复杂多变的真实世界环境时。 在实现上,如 DQN 是通过将神经网络和 Qlearning 结合,用函数而不是 Q 表来表示动作价值,利用均方误差设计 Loss Function,像 Qlearning 一样利用四元组进行训练。
2024-11-30
我是图像开发工程师,我需要研发图像处理有关的程序,可以找哪个ai 工具
如果您是图像开发工程师,需要研发图像处理有关的程序,以下是一些可供选择的 AI 工具: 1. 图片处理方面:DallE、Leonardo、BlueWillow、Midjourney。 2. 去水印工具:AVAide Watermark Remover、Vmake、AI 改图神器。 3. 画质增强工具:Magnific(https://magnific.ai/)、ClipDrop(https://clipdrop.co/imageupscaler)、Image Upscaler(https://imageupscaler.com/)、Krea(https://www.krea.ai/)。更多工具可以查看网站的图像放大工具库:https://www.waytoagi.com/category/17
2024-11-30
影视解说ai工具
以下为您介绍一些影视解说相关的 AI 工具: Wavel Studio:支持 30 多种语言的配音,音质自然流畅,能自动去除背景噪音和杂音,提供添加字幕和文本叠加层的工具,界面友好且有多种自定义选项。 Elai.io:支持 65 多种语言的配音,音色和语调真实,能自动将唇形与语音同步,生成字幕以提高视频的可访问性,支持多位配音者,适合复杂对话场景。 Rask AI:支持 130 多种语言的配音,包括稀有和濒危语言,采用先进语音合成技术,音质高保真,提供语音参数自定义和音效添加工具,与多种视频编辑平台和工作流程整合。 Notta:提供快速实惠的多语言配音解决方案,保留原声说话风格和细微差别,提供调整语音速度和音调的工具,支持批量处理,高效完成多视频配音。 Dubverse:支持 60 多种语言的配音,音质接近真人,提供文本转语音和语音克隆功能,提供语音参数自定义和情感添加工具,与多种视频平台和社交媒体渠道整合。 此外,还有一些 AI 视频工具如 Pika、Pixverse、Runway、SVD 可用于生成不同类型的视频画面,包括剧情片、科幻片、战争片、奇幻片、纪录片、风光片、美食片等。例如: 科幻片:远景中太空舰队在星系间交战,特写里宇航员头盔上的反射显示着控制台的紧急指示等。 战争片:全景中士兵们在战壕中准备迎击,中景里一名士兵在战壕中查看地图与战友策划行动等。 奇幻片:中景里一群奇幻生物在森林中追逐,特写中一只小精灵的翅膀闪耀光芒等。 纪录片:远景中壮丽的山脉在晨曦中苏醒,特写里一朵野花在微风中摇曳等。 美食片:中景里厨师熟练切割食材,特写里刚出炉蛋糕表面的细腻纹理等。
2024-11-30