直达「 通往AGI之路 」飞书知识库 →
首页/全部问答
提取视频中的音乐
以下是关于提取视频中音乐的相关信息: 音乐类型与视频类型的匹配: 1. 严肃适用场景:政府宣传片、企业宣传片,推荐乐器:交响乐、管弦乐。 2. 时尚动感适用场景:品牌宣传片、网络广告,推荐乐器:电子音乐、打击乐。 3. 怀旧适用场景:纪录片、情感驱动的视频,推荐乐器:口琴、手风琴。 4. 感性适用场景:任何可能触动情感的场景,推荐乐器:吉他、钢琴。 5. 儿童适用场景:儿童节目、教育内容,推荐乐器:轻快乐器、偏向诙谐。 音乐来源与版权: 版权音乐的获取方式包括购买版权音乐和使用免费版权库。版权音乐网站推荐: 1. Audio Network,网址:https://www.audionetwork.com/track/searchkeyword?facets=ProductionGenres_children 2. Premium Beat 相关案例: 1. Suno 专属音乐生成功能上线,视频会根据画面匹配生成音乐,音乐和视频还能卡点,视频里的文字也可以识别并转化为歌词。 2. 谷歌的 Generating audio for video 研究,利用视频像素和文字提示生成丰富的背景音乐,其 V2A 技术可与视频生成模型搭配使用,为各种传统素材生成配乐。
2024-12-25
AI与人的协同关系
AI 与人的协同关系主要体现在以下几个方面: 1. 生成式 AI 的人机协同分为 Embedding(嵌入式)、Copilot(副驾驶)、Agent(智能代理)3 种产品设计模式,在这 3 种模式下,人与 AI 的协作流程有所差异。其中,Embedding 模式下人类完成大多数工作,Copilot 模式下人类和 AI 协同工作,Agents 模式下 AI 完成大多数工作。 2. 可以使用 Multiagent Collaboration 的方法,让不同角色的 Agent 按照任务要求自主规划选择工具、流程进行协作完成任务。例如产品经理角色,可通过 Agents 拆解任务,遵循不同工作流生成大体符合期望的输出结果,再进行修改达到可用阶段。 3. 应从原子能力层重新思考,重塑工作流。可抽象化拆解大模型的底层能力,如翻译、识别、提取、格式化等,围绕“输入”“处理”“输出”“反馈”构建最底层的信息处理逻辑。 4. 重塑获取信息的方式,搜索引擎和基于大模型的聊天机器人在解决用户问题的目标上从根本上是一致的。 5. AGI 发展初期,与人脑相比仍有短板,需要向人学习,同时“人的模型”更重要的是解决 AI 与人配合的问题,实现 1+1>2 的效果。但目前如何达到“人的模型”还未知,可能需要在“世界模型”基础上加入个人大量多样的数据。 6. 在未来商业模式中,AI 原生应用包括广义语言的万能翻译机、想象力与创造力、AI 使用工具及相互合作、AI 微决策、AI 与人合作等方面。在相当长时间里,AI 首先要解决的是与人合作的问题,这需要“人的模型”和“人的数据”,让 AI 理解与之配合的人类。
2024-12-25
dify 实现rag
Dify 是一个开源的大规模语言模型(LLM)应用开发平台,具有以下特点和优势: 1. 配备 RAG 引擎,允许用户编排从代理到复杂 AI 工作流的 LLM 应用。 2. 关键特性: 快速部署,5 分钟内可部署定制化的聊天机器人或 AI 助手。 创意文档生成,能从知识库生成清晰、逻辑性强且无长度限制的文档。 长文档摘要,可轻松对长文档进行摘要。 自定义 API,能安全连接业务知识,解锁更深层次的 LLM 洞察。 连接全球 LLM。 生产就绪,比 LangChain 更接近生产环境。 开源,可被社区广泛使用和改进。 3. 资源获取:可从 Dify 的 GitHub 仓库(https://github.com/langgenius/dify.git 和 https://docs.dify.ai/)获取源代码、文档、安装指南、使用说明和贡献指南等资源。 4. 是一个结合后端即服务和 LLMOps 理念的平台,为用户提供直观界面快速构建和部署生产级别的生成式 AI 应用,具备强大工作流构建工具、广泛模型集成、功能丰富的提示词 IDE 及全面的 RAG Pipeline 用于文档处理和检索,允许定义 Agent 智能体,并通过 LLMOps 功能对应用程序性能持续监控和优化。提供云服务和本地部署选项,满足不同用户需求。其设计理念注重简单性、克制和快速迭代,个人研究可单独使用,企业级落地项目推荐多种框架结合。 5. 官方手册:https://docs.dify.ai/v/zhhans
2024-12-25
RAG
RAG(RetrievalAugmented Generation)即检索增强生成,是一种结合检索和生成能力的自然语言处理架构。 其核心目的是为大语言模型(LLM)提供额外的、来自外部知识源的信息,通过检索模式为大语言模型的生成提供帮助,使生成的答案更符合要求。 大模型需要 RAG 进行检索优化的原因在于其存在一些缺点: 1. 无法记住所有知识,尤其是长尾知识,受训练数据和学习方式限制,对长尾知识接受能力不高。 2. 知识容易过时且不好更新,微调效果不佳且有丢失原有知识的风险。 3. 输出难以解释和验证,存在内容黑盒、不可控及受幻觉问题干扰的情况。 4. 容易泄露隐私训练数据。 5. 规模大,训练和运行成本高。 RAG 具有以下优点: 1. 数据库对数据的存储和更新稳定,不存在模型学不会的风险。 2. 数据库的数据更新敏捷,可解释且不影响原有知识。 3. 数据库内容明确、结构化,加上模型理解能力,降低大模型输出出错可能。 4. 知识库存储用户数据,便于管控用户隐私数据,且可控、稳定、准确。 5. 数据库维护可降低大模型训练成本,新知识存储在数据库即可,无需频繁更新模型。 RAG 的核心流程是根据用户提问,从私有知识中检索到“包含答案的内容”,然后把“包含答案的内容”和用户提问一起放到 prompt(提示词)中,提交给大模型,此时大模型的回答就会充分考虑到“包含答案的内容”。其最常见应用场景是知识问答系统,用户提出问题,RAG 模型从大规模的文档集合中检索相关的文档,然后生成回答。 RAG 由一个“检索器”和一个“生成器”组成,检索器从外部知识中快速找到与问题相关的信息,生成器则利用这些信息来制作精确和连贯的答案,非常适合处理需要广泛知识的任务,如问答系统,能够提供详细而准确的回答。
2024-12-25
如何使用chatgpt
以下是使用 ChatGPT 的方法: 1. 英文学习方面: 把特定的 prompt 喂给 ChatGPT(建议开新对话专门用于学习英文)。 ChatGPT 会扮演美国好朋友,对输入的英文和中文表达返回更地道的表达,对俚语部分加粗,还会针对发送的话题举一反三,结合欧美流行内容给出更多例子,并在输入特定语句时输出对话回顾和推荐任务以强化记忆。 建议使用方式:开一个窗口,复制 prompt;手机端打开历史记录;点右上角耳机图标,开始打电话,既能练口语又能练听力;结束后看回顾,帮助阅读。 2. 苹果系统安装、订阅 ChatGPT 4o 方面: 在 AppleStore 下载 ChatGPT:中国区正常下载不了,需切换到美区。美区 AppleID 注册教程参考知乎链接:。最终在 AppleStore 搜索下载安装,注意别下错。 支付宝购买苹果礼品卡并充值订阅付费 App:打开支付宝,地区切换到美区任意区,找到品牌精选 折扣礼品卡,点击大牌礼品卡,下滑找到 App Store&iTunes US 礼品卡,按需购买金额,建议先买 20 刀。支付宝购买礼品卡后,在 apple store 中兑换礼品卡,然后在 chatgpt 中购买订阅 gpt plus,中途不想订阅可在订阅列表中取消。 3. 使用 ChatGPT 4o 方面: 开启对话:打开 ChatGPT 应用或网页,点击开始对话。会员在苹果或安卓手机上购买的,电脑上都能登录。 体验最新语音对话功能:版本切到 ChatGPT 4o,点击右下角“耳机?”图标,选择一个声音,即可体验流畅的语音对话。
2024-12-25
openai
OpenAI 的相关信息如下: 模型: OpenAI API 由多种具有不同功能和价位的模型提供支持,还可通过微调针对特定用例对原始基本模型进行有限定制。 具体模型包括:GPT4(Beta),是一组改进 GPT3.5 的模型,能理解和生成自然语言或代码;GPT3.5,是一组改进 GPT3 的模型,能理解并生成自然语言或代码;DALL·E(Beta),能在给定自然语言提示的情况下生成和编辑图像;Whisper(Beta),能将音频转换为文本;Embeddings,能将文本转换为数字形式;Codex(Limited Beta),能理解和生成代码,包括将自然语言转换为代码;Moderation,能检测文本是否敏感或不安全的微调模型;GPT3,能理解和生成自然语言。 为何能跑通所有 AGI 技术栈: 方法论明确:通用模型能用到更多数据,减少技术栈,OpenAI 未来可能会继续走通用模型的道路,降低微调等特化的需求,继续增加模型的上下文长度。 用一个模型为另一个模型提供标注:OpenAI 的 Dall E 和 Sora 都用到了大量可能来自于 GPT vision 的数据标注,未来可能会继续加强各个模型的连接。 Transformer 架构:其在各个模态和技术栈具有优势,能复用模型参数和使用一套基础设施框架训练不同模型,新模型若要取代,需通过缩放定律的检验。 稀疏模型。
2024-12-25
cursor教程
以下是关于 Cursor 教程的相关内容: 中文教程网站:,适合想深入了解和学习 Cursor 的用户。 0 编程基础入门极简使用指南: 下载:https://www.cursor.com/ 注册账号,可用邮箱如 google/github/163/qq 邮箱,接受二维码登录。 安装中文包插件。 参考: 做一个贪吃蛇游戏的需求设置: 在设置中 Rule for AI 配置。 ctrl/cmd+i 输入:帮我做一个贪吃蛇游戏,这个游戏的规则和逻辑如下: 游戏界面:在矩形网格上进行,玩家控制蛇。 蛇的移动:持续移动,玩家通过按键控制方向(上、下、左、右)。 食物:随机出现,蛇吃到食物增长身体。 增长:每次吃到食物身体增加一节。 死亡条件:撞墙或撞自己。 得分:吃到食物得分,与食物数量成正比。 难度递增:蛇速度加快或食物出现频率降低。 游戏结束:蛇死亡时结束,显示得分。 熊猫 Jay 的教程: 原文地址:https://mp.weixin.qq.com/s/KZt53OxCtlwuTKhplzGCg 包括: Cursor 和其他编程工具的区别。 Cursor 入门:安装和使用。 Cursor 初阶案例:开发谷歌插件。 Cursor 进阶案例:开发卡密系统。 还有很多加餐项。
2024-12-25
想生成宣传名片,推荐个AGI工具
以下是一些可用于生成宣传名片的 AGI 工具: 1. 谷歌图像生成工具:理解能力强,有使用门槛,不能输入中文,每日免费 500 次,生成速度快,可调整提示词和选项,能根据提示词生成不同风格和复杂程度的图像,随机种子影响生成结果,可提供参考图设置主题场景样式。 2. 纳米搜索反推提示词:可上传图片让其反推 midjourney 提示词,输出效果好,能调用多种模型,查阅资料也可用,会搜索全网并精选资料,还能看到调用的内容和参考资料。 此外,以下是一些常用于营销领域的 AI 工具,也可能对生成宣传名片有所帮助: 1. Synthesia:允许用户创建由 AI 生成的高质量视频,包括数字人视频。提供多种定价计划,从免费到商业级不等,可用于制作营销视频、产品演示等。 2. HeyGen:基于云的 AI 视频制作平台,用户可从 100 多个 AI 头像库中选择,并通过输入文本生成数字人视频。适合制作营销视频和虚拟主持人等。 3. Jasper AI:人工智能写作助手,可用于生成营销文案、博客内容、电子邮件等。提供多种语气和风格选择,写作质量较高。 4. Copy.ai:AI 营销文案生成工具,可快速生成广告文案、社交媒体帖子、电子邮件等营销内容。有免费和付费两种计划。 5. Writesonic:AI 写作助手,专注于营销内容创作,如博客文章、产品描述、视频脚本等。提供多种语气和行业定制选项。 更多的营销产品可以查看 WaytoAGI 网站:https://www.waytoagi.com/sites?tag=8 。需要注意的是,内容由 AI 大模型生成,请仔细甄别。
2024-12-25
会计工作如何使用AI来帮助日常的工作
以下是 AI 在会计工作中帮助日常工作的一些方式: 1. 更动态的预测和报告: 生成式 AI 能够帮助编写 Excel、SQL 和 BI 工具中的公式和查询,实现分析自动化。 从更广泛、更复杂的数据集中发现模式,为预测建议输入,并提供适应模型的建议,为公司决策提供依据。 自动创建文本、图表、图形等内容,并根据不同示例调整报告,无需手动整合数据和分析到外部和内部报告中。 2. 会计和税务方面: 帮助综合、总结税法,并就潜在的扣除项提出可能的答案。 3. 采购和应付账款: 自动生成和调整合同、采购订单和发票以及提醒。 4. 结合 RPA 技术: 控制桌面软件,实现办公流程自动化,例如在财务领域用于开票、网银流水下载等。 搭建知识库、创建并部署 AI 工作流,结合飞书避免信息泄露和实现自动回复等,提升效率,节省人力时间成本。
2024-12-24
转行无经验可以找哪些AI行业的岗位
以下是一些转行无经验可能适合的 AI 行业岗位: AIGC 产品经理:如 Sundy 从教育方向和 web3 行业转行,学习了生文生图的原理和应用后目标成为 AIGC 产品经理。 数据开发咨询、AI 视频制作与编辑:例如识影拥有 8 年数据开发经验,目前专注于探索这方面工作。 AI 创业者:像也毛从艺术专业毕业做职业导演,现布局竖屏短剧及 ai 短剧赛道;黄燕燕从 17 年地产人转行创业人工智能领域赛道,主做人工智能领域的服务与培训。 需要注意的是,虽然这些岗位可能对无经验者开放一定机会,但仍需要通过学习和实践不断提升自己在 AI 领域的知识和技能。
2024-12-24