「AGIへの道」飛書ナレッジベースへ直行 →
ホーム/すべての質問
介绍一下flowith
Flowith 是一款创新的 AI 交互式搜索和对话工具: 基于节点式交互方式,支持多种 AI 模型和图像生成技术,提供插件系统和社区功能。 作为一款出海应用,上周发布了 2.0 版本,展现出成为订阅制 AI 知识社区的野心。 具备 Refly 几乎所有功能,并有独特设计,如允许自行上传制作并发布知识库,还能自由添加或购买他人的知识库,这是 AI 付费订阅知识社区的雏形。 内容编辑器有多种模式,包括 Markdown、图片编辑器、代码编辑器、实时语音聊天等。 继承并优化了 1.0 版本的交互设计,强化了 Agent 功能,包括 Project 功能、Oracle 模式、Agent Community 等,对话模式也依旧流畅酷炫,包括插件模式、比较模式、图片/视频生成模式等。 支持团队协作,可邀请外部协作者评论、共同编辑当前 Flow。
2025-01-21
RAG是什么
RAG(RetrievalAugmented Generation)即检索增强生成,是一种结合检索和生成能力的自然语言处理架构。 其旨在为大语言模型(LLM)提供额外的、来自外部知识源的信息。通过检索的模式,为大语言模型的生成提供帮助,使大模型生成的答案更符合要求。 大模型需要 RAG 进行检索优化的原因在于其存在一些缺点: 1. 无法记住所有知识,尤其是长尾知识,受限于训练数据和学习方式,对长尾知识的接受能力不高。 2. 知识容易过时且不好更新,微调效果不佳且有丢失原有知识的风险。 3. 输出难以解释和验证,存在内容黑盒、不可控及受幻觉干扰等问题。 4. 容易泄露隐私训练数据。 5. 规模大,训练和运行成本高。 而 RAG 具有以下优点: 1. 数据库对数据的存储和更新稳定,不存在模型学不会的风险。 2. 数据库的数据更新敏捷,可解释且对原有知识无影响。 3. 数据库内容明确、结构化,加上模型的理解能力,可降低大模型输出出错的可能。 4. 便于管控用户隐私数据,且可控、稳定、准确。 5. 可降低大模型的训练成本,新知识存储在数据库即可,无需频繁更新模型。 RAG 的核心流程是根据用户提问,从私有知识中检索到“包含答案的内容”,然后把“包含答案的内容”和用户提问一起放到 prompt(提示词)中,提交给大模型,此时大模型的回答就会充分考虑到“包含答案的内容”。其最常见应用场景是知识问答系统。 在一个 RAG 的应用中,可以抽象为以下 5 个过程: 1. 文档加载:从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器,包括 PDF 在内的非结构化数据、SQL 在内的结构化数据,以及 Python、Java 之类的代码等。 2. 文本分割:文本分割器把 Documents 切分为指定大小的块,称为“文档块”或者“文档片”。 3. 存储:涉及将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。
2025-01-21
RAG是什么
RAG(RetrievalAugmented Generation)即检索增强生成,是一种结合检索和生成能力的自然语言处理架构。 它旨在为大语言模型(LLM)提供额外的、来自外部知识源的信息。通过检索的模式,为大语言模型的生成提供帮助,使大模型生成的答案更符合要求。 大模型需要 RAG 进行检索优化的原因在于其存在一些缺点: 1. LLM 无法记住所有知识,尤其是长尾知识,受限于训练数据和学习方式,对长尾知识的接受能力不高。 2. LLM 的知识容易过时且不好更新,微调效果不佳且有丢失原有知识的风险。 3. LLM 的输出难以解释和验证,存在内容黑盒、不可控以及受幻觉干扰等问题。 4. LLM 容易泄露隐私训练数据。 5. LLM 的规模大,训练和运行成本高。 而 RAG 具有以下优点: 1. 数据库对数据的存储和更新稳定,不存在模型学不会的风险。 2. 数据库的数据更新敏捷,可解释且对原有知识无影响。 3. 数据库内容明确、结构化,加上模型的理解能力,能降低大模型输出出错的可能。 4. 知识库存储用户数据,便于管控用户隐私数据,且可控、稳定、准确。 5. 数据库维护可降低大模型的训练成本,新知识存储在数据库即可,无需频繁更新模型。 RAG 的核心流程是根据用户提问,从私有知识中检索到“包含答案的内容”,然后把“包含答案的内容”和用户提问一起放到 prompt(提示词)中,提交给大模型,此时大模型的回答就会充分考虑到“包含答案的内容”。其最常见应用场景是知识问答系统。 在实现 RAG 的应用时,可以抽象为以下 5 个过程: 1. 文档加载:从多种不同来源加载文档,LangChain 提供了 100 多种不同的文档加载器,包括 PDF 在内的非结构化的数据、SQL 在内的结构化的数据,以及 Python、Java 之类的代码等。 2. 文本分割:文本分割器把 Documents 切分为指定大小的块,称为“文档块”或者“文档片”。 3. 存储:涉及将切分好的文档块进行嵌入转换成向量的形式,并将 Embedding 后的向量数据存储到向量数据库。 4. 检索:通过某种检索算法找到与输入问题相似的嵌入片。 5. 输出:把问题以及检索出来的嵌入片一起提交给 LLM,LLM 会通过问题和检索出来的提示一起来生成更加合理的答案。
2025-01-21
电商商品相关AI有哪些
电商商品相关的 AI 应用包括以下方面: 1. 阿里巴巴营销技巧和产品页面优化: 市场分析:利用 AI 分析工具研究市场趋势、消费者行为和竞争对手情况。 关键词优化:AI 推荐高流量、高转化的关键词,优化产品标题和描述。 产品页面设计:AI 设计工具生成吸引人的页面布局。 内容生成:AI 文案工具撰写有说服力的产品描述和营销文案。 图像识别和优化:AI 技术选择或生成高质量产品图片。 价格策略:分析不同价格点对销量的影响,制定有竞争力的价格策略。 客户反馈分析:了解客户需求,优化产品和服务。 个性化推荐:根据用户购买历史和偏好提供个性化产品推荐。 聊天机器人:提供 24/7 客户服务,解答疑问。 营销活动分析:了解活动效果,吸引顾客并产生销售。 库存管理:预测需求,优化库存。 支付和交易优化:分析支付方式对交易成功率的影响,优化支付流程。 社交媒体营销:在社交媒体上找到目标客户群体,提高品牌知名度。 直播和视频营销:分析观众行为,优化直播和视频内容。 2. 图片处理服务: 为电商卖家提供全面的图片处理服务,包括 AI 商品图、AI 场景图、AI 模特、AI 素材、AI 海报等。利用先进 AI 技术,帮助卖家无需专业设计经验即可创作出独特且充满想象力的优质素材。创作素材可商用,有助于安全可靠地提升商品出单率。
2025-01-21
aipo共学目录
以下是 AIPO 共学的相关目录: 【已结束】AIPO:校园 AI 创投活动 10 月 8 日10 月 20 日 10 月 8 日 时间:20:00 分类:活动说明 讲师:AJ 课程标题:通往 AGI 之路知识库使用指南 课程回放: 相关资料: 作业: 10 月 9 日 时间:20:00 分类:理论基础 讲师:银海 课程标题:基础通识课 课程回放: 相关资料:产品体验地址见下表:通义、kimi、即梦、扣子、豆包 作业: 2024 年历史更新(归档) 10 月 11 日 Kimi 和智谱同时发布了深度推理的功能:《》 这两天的 《》 校园 AIPO 系列共学 2024 年 10 月 17 日 智能纪要 总结 AIPO 共学课之厚德云模型训练分享 AIPO 共学课倒数第二节:10 月 17 日是 AIPO 共学课倒数第二节,由黄忠忠分享厚德云模型训练,8 点开始直播。 线下活动安排:10 月 20 日下午 2 点到 6 点,全国 35 个学校将同时启动 AIPO 线上模拟创投活动,北京有清华、北大等学校举办分会场。 模型训练流程:包括处理数据集、设置参数训练、生成模型和生图等步骤。 数据集获取渠道:有网上收集、购买、使用无版权问题的如古画等,原则是想生成什么图就找对应数据集,且要清晰、主体元素干净、风格统一。 数据集处理:包括基础处理如裁剪保证清晰和分辨率,更重要的是写标注。 模型训练的数据标注与流程 设置模型触发词:模型触发词可自定义,如 BD icon 等,完整形式可以是一句话,建议以王 flags 模型为主。 统一标注风格与应用场景:例如未来高科技 3D 天然风格,用于互联网首页图像等,并概括主题内容、描述物体特征等。 利用 GPT 辅助描述并人工审核:可以让 GPT 按要求描述,人工审核修改,之前课程有相关教学,后续会提供参考提示词。 模型训练的准备与流程:完成数据集描述后进入训练流程,选择模型训练分类和数据集,创建并上传数据集压缩包,注意数据名与图片命名一致。 选择训练模式和参数:新手选用普通基础模式,训练集质量重要,训练参数中总步数与训练集图片数量相关,触发词可任意设定但要避免概念混乱。
2025-01-21
博士级ai
以下是为您整合的相关内容: 在医疗保健领域,为使 AI 产生真正的改变,应创建像优秀医生和药物开发者那样学习的模型生态系统。成为顶尖人才通常从多年密集信息输入和正规学校教育开始,再通过学徒实践从出色实践者那里学习,此过程不可替代。对于 AI 来说,当前学习方式及技术人员对待方式使问题更严重,应通过堆叠模型训练而非仅依靠大量数据和生成模型。例如先训练生物学、化学模型,再添加特定数据点。预医学生和新疗法科学家都需经历基础学习和实践指导,这种方式有助于培养处理细微差别决策的直觉。 此外,OpenAI 或推出 2000 美元/月订阅服务,CFO Sarah Friar 称新产品可能作为雇佣人类的“替代品”,拥有博士级智能,该高级订阅服务瞄准企业市场,彰显 AI 在专业领域的强大潜力,引发了“博士都被替代了?”的热议。Gemini 2.0 Flash 具有混合多模态能力,能通过自然语言完成图片编辑,全由 Gemini 模型完成,无需调用其他模型,展现强大语义理解与推理能力,甚至能根据盒子上文字推断内容并完成操作。
2025-01-21
怎么用ai完成淘宝模特图片的批量修改,风格都是一致的
以下是使用 AI 完成淘宝模特图片批量修改且风格一致的方法: 1. 利用 Stable Diffusion 进行局部重绘: 真人穿衣服拍照,获取真实质感的照片。若身材方面有问题,可借助美图秀秀或 PS 处理。 选好真人照片风格的底模,如 majicmixRealistic_v7。 根据不同平台需求换头,如面向海外市场换白女头。 在图生图下的局部重绘选项卡下涂抹自己替换的部分,并设置好 prompts 和 parameters。 2. 大淘宝设计部的实践: 对于定制化真人模特实景素材的主题活动,通过 AI 可将策划、搭建、拍摄、设计融为一个闭环流程,短时间内完成页面所有素材的生产和输出。 在 UI 设计场景中,采用 AI 能力可快速定制多种视觉效果,通过 SD 中 controlnet 的有效控制,生成指定范围内的 ICON、界面皮肤等内容。 通过对 AI 大模型的训练和应用,算法从模特姿态、背景风格、装饰元素等多个维度进行效果升级,结合用户数据提供定制化的线上真人化模特体验。 一张商品图,结合用户的自定义输入,可生成多张场景效果,无需 3D 模型、显卡渲染和线下拍摄。 此外,字节发布的新模型 SeedEdit 也可用于图片编辑,每次编辑尽量使用单指令,多指令最好少于 3 种变化。为保证效果,局部编辑时下指令要精准,参考图要清晰、分辨率高。若编辑效果不明显或变化过多,可调整编辑强度。
2025-01-21
dify编排框架是什么意思
Dify 编排框架是一种在 AI 领域中应用的可视化编排框架,例如在 workflow 可视化编排页面中使用(框架:React Flow)。它具有以下特点和优势: 1. 集各家所长,在用户体验方面表现出色。 2. 可以人为编排 Workflow 里的子任务,与 AutoGPT 由大模型编排任务的方式不同,这种手动编排方式带来了明显的优化,如在流程中加入人类 Knowhow 以补足模型知识的不足,通过专家测试试跑减少生产环境中的反复无效反思,引入图的概念灵活组织节点、连接各类工具等。 3. 加入图的概念后,workflow 的天花板变得非常高,可以在流程中任意增加节点和各种类型的节点,不仅能套工具、套其它 agent,还能写代码用硬逻辑处理或接大模型进行判断,能力上限很大程度取决于想象力。 4. 对于个人开发者构建高质量的 AI 数字人很有帮助,有大量开源工作者维护,集成了各种主流的模型供应商、工具以及算法实现等,可以通过它快速编排出自己的 AI Agent,赋予数字人灵魂。利用其编排和可视化交互能任意修改流程,构造不同的 AI Agent,并实现相对复杂的功能,如知识库搭建、工具使用等,无需任何编码和重新部署工作。同时,Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于这两个接口可将数字人的语音识别和语音生成都交由 Dify 控制。如果有更加高度定制的模型,也可以在 Dify 中接入 XInference 等模型管理平台进行部署。此外,数字人 GUI 工程中仍保留了多个模块,能保持更好的扩展。 在使用 Dify 接口时,需要注意必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,可自行选择方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。
2025-01-21
如何学习AI
以下是新手学习 AI 的方法: 1. 了解 AI 基本概念: 阅读「」部分,熟悉 AI 的术语和基础概念,包括其主要分支(如机器学习、深度学习、自然语言处理等)以及它们之间的联系。 浏览入门文章,了解 AI 的历史、当前的应用和未来的发展趋势。 2. 开始 AI 学习之旅: 在「」中,找到为初学者设计的课程,特别推荐李宏毅老师的课程。 通过在线教育平台(如 Coursera、edX、Udacity)上的课程,按照自己的节奏学习,并有机会获得证书。 3. 选择感兴趣的模块深入学习: AI 领域广泛,如图像、音乐、视频等,可根据兴趣选择特定模块深入学习。 掌握提示词的技巧,它上手容易且很有用。 4. 实践和尝试: 理论学习后,实践是巩固知识的关键,尝试使用各种产品做出作品。 在知识库提供了很多大家实践后的作品、文章分享,欢迎实践后的分享。 5. 体验 AI 产品: 与现有的 AI 产品进行互动,如 ChatGPT、Kimi Chat、智谱、文心一言等 AI 聊天机器人,了解其工作原理和交互方式,获得对 AI 在实际应用中表现的第一手体验,并激发对 AI 潜力的认识。 对于中学生学习 AI,建议如下: 1. 从编程语言入手学习: 可以从 Python、JavaScript 等编程语言开始,学习编程语法、数据结构、算法等基础知识,为后续的 AI 学习打下基础。 2. 尝试使用 AI 工具和平台: 可以使用 ChatGPT、Midjourney 等 AI 生成工具,体验 AI 的应用场景。 探索一些面向中学生的 AI 教育平台,如百度的“文心智能体平台”、Coze 智能体平台等。 3. 学习 AI 基础知识: 了解 AI 的基本概念、发展历程、主要技术如机器学习、深度学习等。 学习 AI 在教育、医疗、金融等领域的应用案例。 4. 参与 AI 相关的实践项目: 参加学校或社区组织的 AI 编程竞赛、创意设计大赛等活动。 尝试利用 AI 技术解决生活中的实际问题,培养动手能力。 5. 关注 AI 发展的前沿动态: 关注 AI 领域的权威媒体和学者,了解 AI 技术的最新进展。 思考 AI 技术对未来社会的影响,培养对 AI 的思考和判断能力。 记住,学习 AI 是一个长期的过程,需要耐心和持续的努力。不要害怕犯错,每个挑战都是成长的机会。随着时间的推移,您将逐渐建立起自己的 AI 知识体系,并能够在这一领域取得成就。完整的学习路径建议参考「通往 AGI 之路」的布鲁姆分类法,设计自己的学习路径。
2025-01-21
我能否借助开源社区力量构建高质量的 AI 数字人
您可以借助开源社区力量构建高质量的 AI 数字人。 构建数字人的躯壳有多种方式: 1. 2D 引擎:风格偏向二次元,亲和力强,定制化成本低,代表是 Live2D Cubism。 2. 3D 引擎:风格偏向超写实的人物建模,拟真程度高,定制化成本高,代表是 UE、Unity、虚幻引擎 MetaHuman 等,但个人学习在电脑配置和学习难度上有一定门槛。 3. AIGC:省去建模流程直接生成数字人的展示图片,但存在算法生成的数字人很难保持 ID 一致性、帧与帧连贯性差等弊端。如果对人物模型真实度要求不高,可以使用,典型项目有 wav2lip、videoretalking 等。AIGC 还有直接生成 2D/3D 引擎模型的方向,但仍在探索中。 构建数字人的灵魂需要注意以下几个工程关键点: 1. AI Agent:要让数字人像人一样思考就需要写一个像人一样的 Agent,工程实现所需的记忆模块、工作流模块、各种工具调用模块的构建都是挑战。 2. 驱动躯壳的实现:灵魂部分通过定义接口由躯壳部分通过 API 调用,调用方式可以是 HTTP、webSocket 等。但包含情绪的语音表达以及如何保证躯壳的口型、表情、动作和语音的同步及匹配,目前主流方案只能做到预设一些表情动作,再做一些逻辑判断来播放预设,语音驱动口型相对成熟但闭源。 3. 实时性:由于算法部分组成庞大,几乎不能实现单机部署,特别是大模型部分,所以算法一般会部署到额外的集群或者调用提供出来的 API,这里面就会涉及到网络耗时和模型推理耗时,如果响应太慢就会体验很差,所以低延时也是亟需解决的一个问题。 4. 多元跨模态:不仅仅是语音交互,还可以通过添加摄像头数据获取数据,再通过系列 CV 算法做图像解析等。 5. 拟人化场景:正常和人交流时不是线性对话,会有插话、转移话题等情况,这些情景需要通过工程丝滑处理。 如果都要自建代码实现各模块,开发工作量巨大,迭代难度也很高,对于个人开发者来讲不现实。因此推荐借助开源社区的力量,现在开源社区已经有了像 dify、fastgpt 等等成熟的高质量 AI 编排框架,它们有大量的开源工作者维护,集成各种主流的模型供应商、工具以及算法实现等等。我们可以通过这些框架快速编排出自己的 AI Agent,赋予数字人灵魂。在笔者的开源项目中,使用了 dify 的框架,利用其编排和可视化交互任意修改流程,构造不同的 AI Agent,并且实现相对复杂的功能,比如知识库的搭建、工具的使用等都无需任何的编码和重新部署工作。同时 Dify 的 API 暴露了 audiototext 和 texttoaudio 两个接口,基于这个两个接口就可以将数字人的语音识别和语音生成都交由 Dify 控制,从而低门槛做出来自己高度定制化的数字人。具体的部署过程参考 B 站视频:https://www.bilibili.com/video/BV1kZWvesE25 。如果有更加高度定制的模型,也可以在 Dify 中接入 XInference 等模型管理平台,然后部署自己的模型。此外,数字人 GUI 工程中仍然保留了 LLM、ASR、TTS、Agent 等多个模块,能够保持更好的扩展,比如实现更加真实性感的语音转换、或者如果有更加 Geek 的 Agent 实现也可以选择直接后端编码扩展实现。 使用 Dify 接口需要注意: 1. 必须在应用编排功能中打开文字转语音和语音转文字功能,否则接口会返回未使能的错误。 2. 只有接入了支持 TTS 和 SPEECH2TEXT 的模型供应商,才会在功能板块中展示出来,Dify 的模型供应商图标下标签有展示该供应商支持哪些功能,这里可以自行选择自己方便使用的。对于 TTS,不同的模型供应商支持的语音人物不同,可以根据个人喜好添加。
2025-01-21