直达「 通往AGI之路 」飞书知识库 →
首页/全部问答
智能体
智能体(Agent)在人工智能和计算机科学领域是一个重要概念,指能够感知环境并采取行动以实现特定目标的实体,可以是软件程序或硬件设备。 智能体的定义: 智能体是自主系统,通过感知环境(通常借助传感器)并采取行动(通常通过执行器)来达成目标。在 LLM 支持的自主 Agent 系统中,LLM 充当 Agents 的大脑,并包含以下关键组成部分: 规划 子目标和分解:将大型任务分解为更小、可管理的子目标,以有效处理复杂任务。 反思和完善:对过去行为进行自我批评和反思,从错误中吸取教训,完善未来步骤,提高最终结果质量。 记忆 短期记忆:利用模型的短期记忆进行上下文学习。 长期记忆:通过外部向量存储和快速检索实现长时间保留和回忆(无限)信息。 工具使用:学习调用外部 API 获取模型权重中缺失的额外信息,包括当前信息、代码执行能力、对专有信息源的访问等。 智能体的类型: 智能体可根据复杂性和功能分为以下几种类型: 简单反应型智能体(Reactive Agents):根据当前感知输入直接行动,不维护内部状态,不考虑历史信息。例如温控器,根据温度传感器输入直接控制加热器。 基于模型的智能体(Modelbased Agents):维护内部状态,对当前和历史感知输入建模,能推理未来状态变化并据此行动。例如自动驾驶汽车,不仅感知当前环境,还维护和更新周围环境模型。 目标导向型智能体(Goalbased Agents):具有明确目标,能根据目标评估不同行动方案并选择最优行动。例如机器人导航系统,有明确目的地并规划路线以避障。 效用型智能体(Utilitybased Agents):不仅有目标,还能量化不同状态的效用值,选择效用最大化的行动,评估行动优劣并权衡利弊。例如金融交易智能体,根据市场条件选择最优交易策略。 学习型智能体(Learning Agents):能通过与环境交互不断改进性能,学习模型、行为策略以及目标函数。例如强化学习智能体,通过与环境互动不断学习最优策略。 此外,智能体还应用于情绪主题角色扮演小游戏,来源于 Cathy 教练和 Leah 老师的情绪力手册,帮助家长和孩子从源头了解、分辨、分析、处理和控制情绪,包含需求分析、分步实现需求、提示词编写测试、GPTs 使用链接和总结等内容。
2024-11-12
AI画卡通画,有什么平台
以下是一些可以用于 AI 画卡通画的平台: MewXAI:这是一款强大专业且新手友好、操作简单的 AI 绘画创作平台。其功能包括 MX 绘画、MX Cute、MJ 绘画、边缘检测、室内设计、姿态检测、AI 艺术二维码、AI 艺术字等。访问地址:https://www.mewxai.cn/ Lucidchart:强大的在线图表制作工具,集成了 AI 功能,可自动化绘制多种示意图,如流程图、思维导图、网络拓扑图等。拖放界面易于使用,支持团队协作和实时编辑,有丰富的模板库和自动布局功能。官网:https://www.lucidchart.com/ Microsoft Visio:专业的图表绘制工具,适用于复杂的流程图、组织结构图和网络图。其 AI 功能可帮助自动化布局和优化图表设计,集成 Office 365,方便与其他 Office 应用程序协同工作,有丰富的图表类型和模板,支持自动化和数据驱动的图表更新。官网:https://www.microsoft.com/enus/microsoft365/visio/flowchartsoftware Diagrams.net:免费且开源的在线图表绘制工具,适用于各种类型的示意图绘制。支持本地和云存储(如 Google Drive、Dropbox),有多种图形和模板,易于创建和分享图表,可与多种第三方工具集成。官网:https://www.diagrams.net/
2024-11-12
音频克隆
以下是关于音频克隆的相关信息: GPTSoVITS 是一个声音克隆和文本到语音转换的开源 Python RAG 框架。其主要特点包括: 1. 零样本 TTS:输入 5 秒的声音样本即可体验即时的文本到语音转换。 2. 少量样本训练:只需 1 分钟的训练数据即可微调模型,提高声音相似度和真实感,模仿出来的声音更接近原声,更自然。 3. 跨语言支持:支持与训练数据集不同语言的推理,目前支持英语、日语和中文。 4. 易于使用的界面:集成了声音伴奏分离、自动训练集分割、中文语音识别和文本标签等工具,帮助初学者更容易地创建训练数据集和 GPT/SoVITS 模型。 5. 适用于不同操作系统:项目可以在不同的操作系统上安装和运行,包括 Windows。 6. 预训练模型:项目提供了一些已经训练好的模型,可直接下载使用。 GitHub 地址: 视频教程: 使用方法: 1. 注册 colab,启动准备:点击进入按照步骤注册,新建笔记本,运行脚本启动 GPTSo VITS。整个过程比较漫长,需要耐心等待,可以整个脚本一起运行,也可以一段一段运行。运行过程包括克隆项目代码库、进入项目目录、安装 Python 依赖包、安装系统依赖、下载 NLTK 资源、启动 Web UI。运行成功后会出现 public URL。 2. 训练音频准备与上传。 此外,还有 XiaoHu.AI 日报中提到的声音克隆相关内容,它由主要模型 SenseVoice 和 CosyVoice 构成,声音克隆仅需几秒音频样本,无需额外训练数据,还能控制情绪情感、语速、音高。详细内容:https://xiaohu.ai/p/10954 项目地址:https://funaudiollm.github.io 在线演示:https://modelscope.cn/studios/iic/CosyVoice300M
2024-11-12
智能体如何拥有唱歌功能
要让智能体拥有唱歌功能,需要从多个方面进行设计和构建: 1. 基础信息设定:包括智能体的姓名、性别、年龄和职业等,为后续功能设计提供基础。 2. 背景和经历考量:这些因素与基础信息相互影响,决定了智能体的基本特征,例如一个有特定背景和经历的智能体可能对唱歌有独特的喜好和追求。 3. 兴趣爱好规划:如果设定智能体特别喜欢唱歌,这可能会影响其长期规划,比如梦想成为专业歌手。 4. 性格和价值观塑造:这两者会影响智能体在唱歌方面的表现和追求,以及与唱歌相关的人际关系和社交行为。 此外,在技术实现上,需要强大的语音合成和音乐生成技术支持,以模拟真实的唱歌效果。同时,还需要不断优化和训练,以提高唱歌功能的质量和表现力。
2024-11-12
ollama嵌入向量在模型后有什么用
嵌入向量在模型后的作用主要体现在以下方面: 1. 用于文档内容的表示和检索:将文档分成块,计算嵌入向量并存储在向量存储中,在测试时通过查询向量存储获取可能与任务相关的块,填充到提示中进行生成。 2. 提升模型的检索能力:在大语言模型应用程序中,向量存储成为检索相关上下文的主要方式,嵌入向量有助于更高效地获取相关信息。 3. 支持多语言和不同粒度的检索任务:例如像 bgem3 这样的向量模型,支持超过 100 种语言的语义表示及检索任务,能实现句子、段落、篇章、文档等不同粒度的检索。 在实际应用中,如在 LangChain 中,本地向量存储使用量较大,而在计算文本片段的嵌入时,OpenAI 占据主导地位,开源提供商如 Hugging Face 等也被较多使用。
2024-11-12
文生图?
以下是关于文生图的详细介绍: 定主题:明确您想要生成的图片的主题、风格和表达的信息。 选择基础模型 Checkpoint:根据主题选择贴近的模型,如麦橘、墨幽的系列模型,如麦橘写实、麦橘男团、墨幽人造人等。 选择 lora:寻找与生成内容重叠的 lora,以控制图片效果和质量,可参考广场上优秀帖子中使用的 lora。 ControlNet:用于控制图片中的特定图像,如人物姿态、生成特定文字或艺术化二维码等,属于高阶技能。 设置 VAE:一般选择 840000 即可。 Prompt 提示词:用英文书写想要 AI 生成的内容,使用单词和短语组合,无需考虑语法,用英文半角逗号隔开。 负向提示词 Negative Prompt:同样用英文书写想要 AI 避免产生的内容,单词和短语组合,用英文半角逗号隔开。 采样算法:常用 DPM++ 2M Karras,也可参考 checkpoint 详情页上模型作者推荐的采样器。 采样次数:使用 DPM++ 2M Karras 时,采样次数一般在 30 40 之间。 尺寸:根据个人喜好和需求选择。 对于提示词,分为内容型提示词和标准化提示词,用于描述想要的画面。采样迭代步数通常控制在 20 40 之间,步数越高绘画越清晰但速度越慢。采样方法常用的有 Euler a、DPM++2S a Karras、DPM++2M Karras、DPM++ SDE Karras、DDIM,部分模型有指定算法,搭配效果更佳。比例设置为 800:400,尺寸并非越大越好,模型练图多基于 512x512 框架,过大尺寸可能导致奇怪构图,若想要高清图,可使用高清修复功能放大图像倍率,同时注意控制画面比例。
2024-11-12
国内文生图大模型,有哪些?
以下是一些国内的文生图大模型: 百度的文心一言:https://wenxin.baidu.com 抖音的云雀大模型:https://www.doubao.com 智谱 AI 的 GLM 大模型:https://chatglm.cn 中科院的紫东太初大模型:https://xihe.mindspore.cn 百川智能的百川大模型:https://www.baichuanai.com/ 商汤的日日新大模型:https://www.sensetime.com/ MiniMax 的 ABAB 大模型:https://api.minimax.chat 上海人工智能实验室的书生通用大模型:https://internai.org.cn 此外,真人效果卓绝的大模型 lofi.v2 也可用于生成真实场景下的字体。在使用 SDXL 大模型时,其分为 base+refiner 以及配套的 VAE 模型,base 用于文生图操作,refiner 用于细化生成的模型,VAE 用于调节图片效果和色彩。要在 webUI 中使用,需将秋叶启动器中 webUI 的版本升级到 1.5 以上,并将模型放入对应文件夹。
2024-11-12
RAG加速有什么好办法吗
以下是一些加速 RAG 的好办法: 1. 确保 LLM 以正确的格式回应:函数调用已成为确保 LLM 严格输出特定格式的相对靠谱的新方法,推荐使用此方法提升性能。可参考结构化输出文档,其中高层次的 LangChain API 展示了不同 LLM 如何调用工具和函数。 2. 使用参考样例:在实际操作中,将输入和对应输出的样例纳入其中通常大有裨益,这些样例有时比指示本身更能有效指导 LLM 处理特定情况。在提取用例文档中可找到更多细节,助您从 LLMs 中提取更好的性能。 此外,LangChain 携手 NVIDIA 为 RAG 加速带来了新的篇章: 1. 将 NVIDIA NIM 与 LangChain 结合使用:新增了支持 NIM 的集成包,安装专门的集成包后可导入所需模型,并通过示例展示如何构建应用程序,包括安装额外的包、加载数据源、初始化嵌入模型等一系列操作。 2. NVIDIA NIM 介绍:NVIDIA NIM 是一系列用户友好的微服务,旨在加速企业内部生成式 AI 的部署进程,支持广泛的 AI 模型,基于强大的推理引擎和技术构建,提供无缝的 AI 推理体验,是实现大规模、高性能生成式 AI 推理的最佳选择。其具有自托管特性,能保证数据安全;提供预构建的容器,方便选择和使用最新模型;具有可扩展性。开始使用 NIM 非常简单,在 NVIDIA API 目录中可轻松访问多种 AI 模型,NIM 是 NVIDIA AI Enterprise 的一部分,可通过相关博客获取详细指南。
2024-11-12
现在有哪些AI陪伴类型的产品?
以下是一些 AI 陪伴类型的产品: 1. Character.ai:用户可以与数百个 AI 驱动的角色进行交流,还能创建自己的角色并赋予其各种特性。 2. Replika:用户可以设计理想的伴侣,其会存储记忆并在未来对话中参考,甚至能发送照片。 3. Talkie:主打情感路线,有大量 NPC 和丰富的剧情体系,游戏和休闲娱乐体验感强。 4. 星野、BubblePal:在长短记忆上做处理,突出陪伴意义,陪伴时间越久,知识库沉淀的个性化记录越丰富,越懂用户。 但每个产品都有其特定的应用场景和功能,建议您根据自己的具体需求来选择合适的产品。
2024-11-12
AI 在教育行业的落地场景有哪些?
AI 在教育行业的落地场景主要包括以下方面: 1. 个性化学习:通过集成算法和大数据分析,如 Knewton 平台,实时跟踪学生学习进度,诊断学习难点,提供个性化学习建议和资源。 2. 自动评估:利用自然语言处理技术(NLP)自动批改学生的作文和开放性答案题,如 Pearson 的 Intelligent Essay Assessor,减轻教师批改负担,提高评估效率和一致性。 3. 智能辅助教学:例如 Google 的 AI 教育工具 AutoML 用于创建定制学习内容,通过有趣方式加深学生对学科概念的理解。 4. 虚拟现实(VR)和增强现实(AR):学生可通过 VR 头盔进入虚拟实验室进行实验操作并获得 AI 系统反馈,如 Labster 的虚拟实验室平台。 5. 协助评估学生学习情况,为职业规划提供建议。 6. 针对学生情况和兴趣定制学习内容。 7. 论文初稿搭建及论文审核。 8. 帮助低收入国家/家庭获得平等教育资源。
2024-11-12