Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

你和GPT4o、MJ、suno有什么区别呢

Answer

GPT-4o 能快速返回答案,但可能存在错误且无法自动纠错。

o1 推理模型在给出最终结果前会反复推演和验证,耗时更长但结果更准确,o1 Pro 计算时间更长,推理能力更强,适合复杂问题。

MJ (Midjourney)是一款专注于生成图像的工具。

Suno 相关的特点未在提供的内容中有明确提及。

由于不清楚您提到的“Suno”的具体情况,无法给出更详细的对比。但总体来说,不同的工具在功能、性能、适用场景等方面存在差异。

Content generated by AI large model, please carefully verify (powered by aily)

References

宝玉 日报

亮点:AI生成图片时可加入中文文字,提升应用场景多样性。示例场景:教孩子古诗时生成配图加文字,让学习更有趣。春节生成春联配图,增加节日氛围。制作漫画、梗图等内容,释放创意潜力。**关键点:**文生图支持文字后,AI创作更关注想象力而非技术。?[https://x.com/dotey/status/1864975649430966362](https://x.com/dotey/status/1864975649430966362)5⃣️?o1推理模型:从“快思考”到“慢思考”特性:o1模型在给出最终结果前会反复推演和验证,就像围棋高手在算棋。区别:GPT-4o:快速返回答案,但可能错误,且无法自动纠错。o1:支持回溯推理,耗时更长但结果更准确。o1 Pro:计算时间更长,推理能力更强,适合复杂问题。应用案例:o1 Pro成功完成《纽约时报》“Connections”文字游戏,这曾是GPT-4o无法解决的任务。**趋势:**未来算力的重点将从训练模型转向增强推理能力。?[https://x.com/dotey/status/1865890371722440734](https://x.com/dotey/status/1865890371722440734)6⃣️?OpenAI发布会:Sora v2功能公布新版亮点:生成1分钟长度的视频。支持文字转视频、文字加图片转视频、文字加视频转视频。提升多媒体创作灵活性,为用户提供更多创意选择。

Others are asking
GPT4o图片生成能力
GPT4o 是 OpenAI 推出的一种先进的图像生成模型,具有以下能力和特点: 1. 核心功能: 是一种先进的多模态模型,能够生成精确、真实感强的图像。 其图像生成功能不仅美观,还具有实际用途,例如白板演示、科学实验图解等。 2. 亮点功能: 精确的文本渲染:能够在图像中准确生成文字,例如街道标志、菜单、邀请函等。 结合文本和图像,提升了视觉传达能力。 多样化场景生成:支持从照片级真实感到漫画风格的多种图像生成。 可根据用户上传的图像进行灵感转化或视觉改造。 上下文感知:能够利用 GPT4o 的内在知识库和对话上下文生成符合语境的内容。 3. 技术改进: 通过联合训练在线图像和文本的分布,模型学会了图像与语言之间以及图像之间的关系。 经过后期训练优化,模型在视觉流畅性和一致性方面表现出色。 4. 实际应用场景: 信息传递:从标志性图像到复杂的科学图表,帮助用户更有效地传达信息。 创意设计:生成创意菜单、街道标志和独特的视觉故事。 教育与演示:支持生成教学图表、实验示意图等。 5. 局限性:尽管生成能力强,但仍可能存在某些场景或细节的限制。 6. 安全性与可用性:OpenAI 强调了安全性和隐私保护。目前该功能已集成到 ChatGPT 中,用户可直接体验。 此外,GPT4o 图像生成模型整合进了 4o 模型中,基于多模态训练,能够结合文本和图像的上下文,生成更智能、更逼真一致的视觉内容,并支持用户通过自然对话对其进行编辑调整和优化。它不仅能提供传统的图像生成,还可以生成更复杂的图像,包括插图、图表、PPT 元素、logo、游戏角色设计等。
2025-03-28
GPT4o能免费用几次
ChatGPT 4o 可以免费体验,但免费体验次数很有限。截至 2024 年 5 月 13 日,Plus 用户在 GPT4o 上每 3 小时最多发送 80 条消息。免费套餐的用户将默认使用 GPT4o,且使用 GPT4o 发送的消息数量受到限制,具体数量会根据当前的使用情况和需求而有所不同。当不可用时,免费层用户将切换回 GPT3.5。
2024-10-26
如何连接GPT4o
以下是连接 GPT4o 的方法: 1. 对于 ChatGPT Mac 客户端: 下载地址:persistent.oaistatic.com/sidekick/public/ChatGPT_Desktop_public_latest.dmg 使用 Proxyman、Charles 或您喜欢的网络代理来进行以下操作(需要有 ChatGPT 付费账号,以及网络技术基础):以 ProxyMan 为例 登录一次以触发 API 调用 对 ChatGPT 的 App 启用 SSL 代理(需要配置好 ProxyMan 证书) 再登录一次以触发 API 调用 然后右键点击 ab.chatgpt.com/v1/initialize 选择本地映射,并将所有的 false 替换为 true 再尝试一次,您就应该能顺利登录了。 详细版图文教程: 2. 对于安卓系统: 先在 Google play 中的【支付和订阅】【支付方式】中绑定好银行卡 然后在区 chatgpt 里订阅 Plus,操作如下截图 完成后即可开始使用 ChatGPT 4o
2024-08-18
我想搞一个ChatGPT4o的账号,有什么办法吗?
以下是注册 ChatGPT 4o 账号的办法: 1. 访问官方网站:打开浏览器,输入。如有账号直接登录,没有的话点击“注册”。 2. 使用建议: 苹果用户:需要 ChatGPT 账号、美区 AppleID、谷歌账号。 安卓用户:需要 ChatGPT 账号、下载 GooglePlay、谷歌账号。 国外很多软件支持谷歌账号一键登录,ChatGPT 也可以用谷歌账号登录,非常方便。目前注册谷歌账号支持国内手机号码和国内邮箱验证,过程也非常简单。 注:使用以上软件需要会科学上网,不会的可以私信。以下是详细注册流程。
2024-08-12
GPT4o的特点
GPT4o 是 OpenAI 春季发布会上推出的一款模型,具有以下特点: 多模态输入输出:接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出的任意组合。 快速响应:在音频输入方面表现出色,响应时间与人类相似。 性能提升:在英语文本和代码上的性能与 GPT4 Turbo 相匹配,在非英语语言的文本上也有显著改进。 视觉和音频理解出色:在视觉和音频理解方面具有优势。 内置安全性:通过过滤训练数据和改进模型行为等技术,在设计上具有跨模态的内置安全性。 广泛的外部红队测试:经历了广泛的外部红队测试。 强大的功能:在音频转录、翻译、总结、语音合成、图像生成、视频总结等方面表现出色。 API 优势:速度更快,价格更便宜,访问限制更高。
2024-06-17
GPT4o的能力
GPT4o 是 OpenAI 在 2023 年春季发布会上推出的一款多模态大型语言模型。它具有更强大的语言理解和生成能力,以及更好的视觉和语音处理能力。 GPT4o 可以将音频整理成会议记录、翻译语言、总结音频、创建语音角色、跨语音类型合成、长格式和短格式语音合成、跨语言合成等。在视觉方面,它可以生成更符合提示的图像、总结视频、创建 3D 资产、光学字符识别等。 此外,GPT4o 还具有内置的安全性,通过过滤训练数据和通过训练后改进模型行为等技术,在设计上具有跨模态的安全性。同时,OpenAI 还创建了新的安全系统,为语音输出提供护栏。 在模型评估方面,OpenAI 根据其准备框架和自愿承诺,对网络安全、CBRN、说服力和模型自主性等方面进行了评估。评估结果表明,GPT4o 在这些类别中的任何一个类别中的得分都不超过中等风险。 在模型可用性方面,GPT4o 现在可以作为文本和视觉模型在 API 中访问。与 GPT4 Turbo 相比,GPT4o 的速度快 2 倍,价格减半,速率限制高出 5 倍。OpenAI 计划在未来几周内向 API 中的一小群受信任的合作伙伴推出对 GPT4o 新音频和视频功能的支持。
2024-05-26
MJ和runaway用什么软件代替比较好
以下是一些可以替代 MJ(Midjourney)和 Runway 的软件: Luma 发布的 DIT 视频生成模型 Dream Machine 图生视频表现惊艳,具有电影级效果。 出图工具方面,还有 SD(Stable Diffusion)和悠船。MJ 稳定性好、协作性强且有成熟经验参考,但并非所有人都拥有;SD 有独特能力但需本地部署且上手门槛高;悠船对中文支持好、交互友好简单易上手,但管控严格,有很多敏感词不能使用。 如果您想了解更多关于这些软件的详细信息或有其他特定需求,请进一步向我提问。
2025-03-24
如何使用MJ
以下是关于如何使用 MJ(Midjourney)的详细说明: 1. 图像网格: 使用 /imagine 命令可根据提示生成低分辨率图像选项网格。 每个图像网格下方的按钮可用于创建图像的变体、升级图像或重新运行最后一个 Midjourney Bot 操作。 U1U2U3U4 按钮将图像与图像网格分开,方便下载或使用其他工具,如“缩小”“平移”。使用旧版 Midjourney 模型版本时,U 按钮会放大图像。 重做(重新滚动)按钮可重新运行作业,重新运行原始提示生成新的图像网格。 变化按钮(V1V2V3V4)可创建所选网格图像的增量变化,生成与所选图像整体风格和构图相似的新图像网格。 2. 放大图像: 制作变体:创建放大图像的变体并生成包含四个选项的新网格。 网页:在 Midjourney.com 上打开图库中的图像。 最喜欢:标记您最好的图像,以便在 Midjourney 网站上轻松找到它们。 3. 模型个性化: MJ 发布了模型个性化 Personalization 或 'p' 的早期测试版本。 每次写提示时,很多信息是“隐含的”,MJ 算法通常用社区综合偏好填补空白,而模型个性化会学习您的喜好来填补。 模型个性化的要求:目前从成对排名中的投票和喜欢的探索页面上的图像中学习,需要大约 200 个成对排名/喜欢才能生效,可在排名页面查看评分数量或在 Discord 上输入 /info。 使用方法:只需在提示后输入 'p',或使用提示栏中的设置按钮为所有提示启用个性化功能。启用时会在提示后添加一个“代码”,可分享让其他人使用应用于该图像的个性化效果,还可以使用 's 100' 控制个性化效果的强度(0 为关闭,1000 为最大,100 为默认)。 注意:个性化目前不是稳定功能,会随更多成对排名而变化,可能会推出算法更新,视为“不断变化的有趣功能”。 4. Midjourney V6 更新风格参考命令 2.0"sref": 2 月 1 日初次发布了首个“一致风格”测试算法,称为“风格参考”,工作方式类似于图像提示,可提供一个或多个描述想要的一致风格的图像的 URL。 使用方法:在提示后面输入 'sref' 以及一个指向图像的 URL,例如 'sref url A'。 高级设置:使用多个图像 URL 并设置风格的相对权重,例如 'sref urlA::2 urlB::3 urlC::5',通过 'sw 100' 设置风格化的总体强度(100 是默认值,0 表示关闭,1000 表示最大值),常规图像提示必须在 'sref' 之前。 注意:MJ 可能会在接下来的几周内更新此功能,若提示倾向于照片逼真而想要冲突的插图风格,可能仍需在提示中添加文本说明,风格参考对图像提示没有直接影响,仅对至少包含一个文本提示的作业产生影响,计划稍后添加“一致角色”的功能,与 'cref' 参数使用方式相同。
2025-03-13
MJ中如何精准控制颜色
以下是关于在 Midjourney 中精准控制颜色的一些方法和相关信息: 1. 在使用 MJ 生成兔子贴纸的过程中,关键词中限制了颜色,生成的图片会一种情绪对应一种颜色。若不想让模型把情绪和颜色做挂钩,同一种情绪可多生成几张不同色系的;若需要挂钩,也可反其道而行之。 2. 进行 SD 上色时,正关键词主要前面添加了增加照片质感常用的+mj 生成线稿的关键词调整(去掉 mj 里线稿的关键词,一开始嘴巴效果不好,添加了张开嘴巴等关键词,颜色都是可以单独调整控制)+风格参数。负关键词看自己的效果添加,添加一切不想要的东西。 3. 在 MJ 的公式方面: 角色人物公式:人物姓名(命名)+描述词(重要描述词和人物特征描述词)+风格+官方命令词。 3D 公式:主体+描述词(重要描述词和物体特征描述词)+风格+灯光+官方命令词。 插画公式:主题描述词语+风格(风格名称或画家)+描述+颜色灯光+官方命令。 特定公式: 连续场景变化公式: 角色/场景公式:上传图片(喂图)+人物描写(融入其他场景需要关键词 white background,结合场景后换成 walking in a futuristic cyberpunk city)+场景风格描写+官方命令。 木偶公式:人物图片+场景+人物+动作+风格+官方命令。 等距粘土公式: 等距+物体+max emoji(表情符号),soft(柔和)lighting soft(柔和光线)pastel colors/pastel background(背景)+3Dicon+clay(粘土)+blender 3d+背景颜色=等距粘土物体。 安子布莱斯娃娃/也可以换成其他知道的娃娃名称+灯光/颜色/背景/材质+clay(粘土)+良奈吉友画风/或者其他名人风格=人。 3D 图标公式(未测试,可用):喂图(1~3 张相似的风格)+描述的 icon(和喂图一致的关键词)+颜色(和喂图颜色一致的)+渲染词+官方命令。 通用公式:角色/物体描述+背景描述+灯光风格+官方命令。
2025-01-17
请问如何学习MJ
以下是关于学习 Midjourney 的相关内容: 1. Midjourney 今天发布了模型个性化 Personalization 或'p'的早期测试版本。其工作原理是:每次写提示时,很多信息是“隐含的”,MJ 的算法通常会用社区的综合偏好填补空白,而模型个性化会学习您的喜好来填补空白。使用模型个性化的要求包括:目前从成对排名中的投票和喜欢的探索页面上的图像中学习,需要大约 200 个成对排名/喜欢才能生效,可在排名页面查看评分数量或在 Discord 上输入/info。使用方法为:在提示后输入p,或使用提示栏中的设置按钮为所有提示启用个性化功能,启用时会在提示后添加一个“代码”,可分享此代码让他人使用应用于该图像的个性化效果,还可以使用s 100 控制个性化效果的强度(0 为关闭,1000 为最大,100 为默认)。但需注意个性化目前不是稳定功能,会随更多成对排名而变化,且可能会推出算法更新。 2. 训练 Midjourney 的 prompt 流程:可以复制每一步,按照步骤跟 GPT 聊下去。原理是把 MJ 的官网说明书喂给 GPT,让它根据说明了解机制和结构,给出适合的提示词。 3. MJ 很长一段时间内依赖 discord 进行操作,可简单理解为一个微信群/钉钉群,群里有机器人,@它并给一段文字,它就会出图片。也可自己创建群组(服务器),把机器人拉进来对话创作。开始创作时@机器人,MJ 会返回 4 宫格图片。想要放大一张图,点击上面的 U 1——4,MJ 会发大图回来。或者看看其他风格,点击上面的 v 14,MJ 会返回新的 4 宫格。简单来说,步骤包括告诉 MJ 要什么,MJ 给 4 个不同风格小图,放大或再看其他风格,在这些图片基础继续处理。初学可能会有一些想法,比如第一次出图感觉不错,但再改可能难,此时设计师技能上线。以前除了氪金多练习没好办法,现在可以去离谱村进修。
2025-01-09
请问我该在知识库的 哪里找到MJ的提示词库
以下是关于 MJ 提示词库的相关信息: MidJourney 200 条风格词汇: 《》 @TheMouseCrypto 发表了一份 200 条风格词汇整理,页数是 77 页,很全的宝典。 Prompt 网站精选(图像类 Prompt 网站): MidLibrary:Midjourney 最全面的流派、艺术技巧和艺术家风格库, MidJourney Prompt Tool:类型多样的 promot 书写工具,点击按钮就能生成提示词修饰部分, OPS 可视化提示词:这个网站有 Mid Journey 的图片风格、镜头等写好的词典库,方便你快速可视化生成自己的绘画提示词, AIart 魔法生成器:中文版的艺术作品 Prompt 生成器, IMI Prompt:支持多种风格和形式的详细的 MJ 关键词生成器, Prompt Hero:好用的 Prompt 搜索,Search prompts for Stable Diffusion,ChatGPT & Midjourney, OpenArt:AI 人工智能图像生成器, img2prompt:根据图片提取 Prompt, MidJourney 提示词工具:专门为 MidJourney 做的提示词工具,界面直观易用, PromptBase:Prompt 交易市场,可以购买、使用、销售各种对话、设计 Prompt 模板, AiTuts Prompt:精心策划的高质量 Midjourney 提示数据库,提供了广泛的不同风格供你选择, MJ 的随机种子库收集: 使用方法: 输入提示词 + sref random ar 1:1,可获得随机风格种子和图片。 测试风格种子的泛用性:{a girl,a boy,animals,plants,environment}sref 同一个风格种子
2024-12-08
我想使用MJ设计班牌 应该注意什么问题
使用 MJ 设计班牌时,需要注意以下问题: 1. 选择最新的 6.0 model。 2. 利用图生图功能时,命令为 /describe,选择 image 上传本地图片可获取四条提示词,点击下方标签可生成对应提示词的四张图。但要注意截图的对标比例未必是标准的 9:16,可手动修改比例以省去返工。 3. 自行对比反推的词和对标的相似程度并微调,describe 根据对标图反推的效果可能不太好,可根据推出的词自行修改,也可直接用给定的提示词,如“Anthropomorphic(mice),fashion runway,whole body,(wearing red northeast big flower jacket),anthropomorphic,highend design style,cool,slender figure,Milan fashion show,whole body,dynamic capture runway show,front view,facing the camera ar 9:16 style raw”。 4. 对于某些难以画出的形象,如拟人形态的龙,可能是描述不够准确,需要加强描述词,如将“一条亚洲龙站在时尚秀场上”这样连成一句话,以便 MJ 正确理解。 5. 确定主体形象时,包括画风、是否 Q 版、配色风格、构图比例、细节量设定等,可以找参考案例。 6. 通用的肖像生产咒语如“Cartoon style character,original character,character design. Mysterious painter and artist,an intellectually mature girl(人物基本形象(必要内容比如性别和身份) Gold and dark red.(配色部分(一个系列里尽量不要改改了容易画风对不上) 2d,solid and clean background,white background. The figure is in the middle of the frame,sideways.(侧身) Art Nouveau,in the style of Alphonse Mucha. no decorative background elements,no flower.Clean background. niji 5 ar 9:14 s 400 style expressive / style cute(二者任选尝试)”,注意咒语中的内容可随意换,多尝试。 7. 利用一致性时,得益于cref,默认值 100,越高越接近参考图像的风格。在回车之前,检查提示词,不要出现和 sref 风格差异过大的 prompt,也可增加一些有用的 prompt。解决“形似而神不似”的问题,即 MJ 直出和原人物在眼睛、眉毛、鼻子等其他地方的大小、间距有细微差距的问题。
2024-10-09
帮我编写一个suno创作提示词模板
以下是为您编写的 Suno 创作提示词模板的相关内容: 在“离谱村”的案例中,首先收到台词素材和配音,确定“童趣”“欢乐”的风格,将相关描述投喂给 GPT4 生成音乐脚本,再输入给 SunoBeats 生成提示词。但初始提示词过长,后参考论坛网友分享的格式,通过调式变化和情节描述,使用和弦进展推动故事情节发展,这种格式的提示词质量和利用率更好。 在“博物馆文物玩法”的案例中,创作思路是给文物上色,参考攻略玩过变形,利用泼洒颜料玩法为雕像上色并使过程有趣。选择首尾帧模式,尾帧基于文物原图重绘为偏写实形象,通过可灵实现人物漂浮效果。涉及工具包括即梦、可灵、Runway、Suno、剪映,各有其优势。步骤为使用即梦图片生成功能上传图片,选择边缘轮廓或人物姿势,不添加景深,提升精细度并选择竖版切割。使用 GPTs 写 Runway 提示词。 希望以上内容对您有所帮助!
2025-03-27
如何编辑sunoprompt
编辑 Suno prompt 可以参考以下内容: 1. 推荐的 prompt 写法: 可参考很详细的教程。 2. 写 prompt 的建议: 明确任务:清晰定义任务,如写故事时包含背景、角色和主要情节。 提供上下文:若任务需特定背景知识,提供足够信息。 使用清晰语言:简单、清晰描述,避免模糊或歧义词汇。 给出具体要求:如有特定格式或风格要求,在 prompt 中明确指出。 使用示例:有特定期望结果时提供示例。 保持简洁:简洁明了,避免过多信息使模型困惑。 使用关键词和标签:帮助模型理解任务主题和类型。 测试和调整:生成文本后仔细检查,根据需要调整 prompt,可能需多次迭代。 3. Suno 创作音乐的小技巧: 想参考现有歌曲节奏,可在查询歌曲的 BPM 和 Key,作为提示词写进去。 歌词里,在歌词段落前加(引子)更好地告诉 AI 这段歌词应该怎么唱。 4. Suno 操作指北 V1 中的基础操作: 注册官方地址加入 discord。 在消息栏输入/chirp。 按下 Enter,将出现一个弹出窗口。 输入歌曲风格以及歌词到对应框中,或者在 Chirp 提供的 ChatGPT 框中输入关键词让 AI 帮你生成。 点击提交。 Chirp 操作: Chirp v1 更新了类型描述窗口。 提交完成后,等待 2 3 分钟,即可生成两个示例音频,目前 Chirp 最多可生成 40 秒的音频。 生成的两个示例音频,比如喜欢第一个,就点击⏩Continue 1,Chirp 就会弹出 Continue 窗口,可继续填入想要的歌曲风格和歌词,点击提交,Chirp 会根据提示生成新的两个示例音频。 如果觉得生成的两个音频不满意,可以点击?,Chirp 会弹出窗口提供修改,点击提交即可生成新的两个示例音频。 当延续生成足够多的音频,想要将它们连接起来生成一个完整的音频,可以点击最后想要的音频所对应的❤️,Chirp 会自动剪接之前所选的音频并生成完整音频,这个过程不需要消耗次数。延续音频流程:/Chirp 输入→⏩Continue→⏩Continue→❤️。
2025-03-22
比suno更好用的音乐创作工具
目前,Suno 是一款基于人工智能技术的音乐创作工具,其特点包括:无需专业音乐知识,任何人都可用其轻松创作音乐;通过自然语言描述生成旋律、和声、鼓点等音乐元素;支持多种流行音乐风格;提供创作过程的建议和指导;可导出常见音频格式。但它也存在一些不足,如提示词控制方面,除歌词部分外,音乐风格提示词只有 120 个字符,能描述和理解的关键词有限,创作丰富度有限,旋律相对单调。 除了 Suno 之外,还有一些其他的音乐创作工具或相关的人工智能音频初创公司,例如: :前身为‘Definite Technologies’,开发使用 AI 处理/生成声音的 VST/AU/AUv3 插件。 :自适应 AI 音乐平台,通过高质量音频样本进行实时细胞组成。 :基于 AI 的音乐助手,包括歌词写作助手。 :实时音乐、音频和视频创作平台。 :为创意媒体应用提供合成歌声。 :数字宇宙的音乐解决方案,Soundtracks、AI Studio、Music Maker JAM 的制作者。 :AI 音乐创作和制作。 :自由定制高质量免版权费音乐。 :云平台,让音乐人和粉丝在全球范围内创作音乐、协作和互动。 :使用嵌入式软件、信号处理和 AI 帮助艺术家录制、混音和母带处理他们的现场表演。 :开源音乐生成工具。 :旨在通过 AI 赋能真实艺术家的伦理音频 AI 插件、工具和社区,而非取代他们。
2025-02-27
suno
Suno 是一款基于人工智能技术的音乐创作工具,具有以下特点和优势: 1. 任何人无需专业音乐知识即可轻松使用,创作各种风格的音乐作品。 2. 通过自然语言描述生成符合要求的旋律、和声、鼓点等音乐元素。 3. 支持多种流行音乐风格,如流行、嘻哈、电子等。 4. 提供有用的建议和指导,帮助用户完成整个创作过程。 5. 可将生成的音乐导出为常见音频格式。 Suno 利用人工智能技术降低了音乐创作的门槛,为音乐创作带来了新的可能性。在 Suno 时代,版权公司无需焦虑,因为音乐市场虽有大量版权涌入,但这与过去独立音乐人版权涌入类似,版权公司仍可做着类似的事情,只需从海量 AIGC 作品中挑出优质的即可。不过,也存在一些担心,比如人类可能会把想象和思考的权力交给 AI,逐渐退化思考和自主决策的能力。 此外,Suno 作为 AI 音乐创作平台完成了 1.25 亿美元的 B 轮融资,公司估值达 5 亿美元,本轮融资由 Founder Collective、Lightspeed Venture Partners 和 Matrix 参与,前 GitHub CEO Nat Friedman 和前 Y Combinator AI 负责人 Daniel Gross 也参与其中。
2025-02-14
如何使用suno.ai?
以下是关于如何使用 suno.ai 的详细步骤: 1. 简介:Suno AI 是一款革命性的 AI 驱动歌曲生成器,能根据简单提示创造完整音乐作品。 2. 账号要求:需要拥有 Discord、谷歌或微软中的至少一个账号,并确保网络环境稳定。 3. 订阅信息: 免费用户:每天 50 积分,每首歌消耗 5 积分,每天可创作 10 首歌曲,每次点击生成两首歌曲。 Pro 用户:每月 2500 点数(约 500 首歌),按月每月 10 美元,按年每月 8 美元,每年 96 美元。 Premier 用户:每月 10000 点数(约 2000 首歌),按月每月 30 美元,按年每月 24 美元,每年 288 美元。 4. 点击 Create: 有默认模式和个性化模式两种。 默认模式:关闭个性化,可描述歌曲、开关乐器、选择模型 v3。 个性化模式:开启个性化定制,填写歌词、曲风、标题等。 5. 生成歌词:可以使用大模型如 Kimi、GPT、文心一言等来生成。 6. 开始生成:填写好所需内容后点击 Create,等待 2 3 分钟即可。 7. 新功能“Suno Scenes”: 可通过照片或视频生成独特音乐,用户可直接拍摄或上传内容来创建音乐场景。 注意事项:目前只有 iOS 客户端,系统版本需升级到 17.0+,下载需使用美国 ID 并在美国 IP 环境下体验。 8. 基础操作: 注册官方地址加入 discord。 在消息栏输入/chirp,按下 Enter,将出现弹出窗口。 输入歌曲风格及歌词到对应框中,或在 Chirp 提供的 ChatGPT 框中输入关键词让 AI 帮你生成。 点击提交。 Chirp 操作:Chirp v1 更新了类型描述窗口。提交完成后,等待 2 3 分钟,即可生成两个示例音频,目前 Chirp 最多可生成 40 秒的音频。生成的两个示例音频,若喜欢第一个,就点击⏩Continue 1,Chirp 会弹出 Continue 窗口,可继续填入想要的歌曲风格和歌词,点击提交,Chirp 会根据提示生成新的两个示例音频。若不满意,可点击?,Chirp 会弹出窗口提供修改,点击提交即可生成新的两个示例音频。当延续生成足够多音频,想要将它们连接起来生成一个完整音频,可以点击最后想要的音频所对应的❤️,Chirp 会自动剪接之前所选音频并生成完整音频,此过程不消耗次数。延续音频流程:/Chirp 输入→⏩Continue→⏩Continue→❤️
2025-02-11
suno.ai如何使用?
Suno.ai 是一款基于人工智能技术的音乐创作工具,具有以下特点和使用方法: 特点: 无需专业音乐知识,任何人都能使用。 通过自然语言描述生成符合要求的旋律、和声、鼓点等音乐元素。 支持多种流行音乐风格,如流行、嘻哈、电子等。 提供有用的建议和指导,帮助完成整个创作过程。 可将生成的音乐导出为常见音频格式。 利用人工智能技术降低音乐创作门槛,为音乐创作带来新可能。 使用方法: 进入官网:https://suno.com/ 。 新功能“Suno Scenes”: 打开 Suno 应用程序,进入相机模式。 在相机模式下,选择一张图片或视频上传。 通过输入简单的文本提示词,选择音乐风格和歌词,来生成带有人声的歌曲。 注意事项: 目前只有 iOS 客户端,且系统版本需要升级到 17.0+。 下载需要使用美国 ID,需要在美国 IP 环境下体验。 可更新/安装 Suno 客户端:suno.com/ios 体验“Suno Scenes”视频和图像提示功能。
2025-02-11
AI 衡量一个AI任务的指标是不是有准确率 和召回率 分别啥区别
在 AI 任务中,常见的衡量指标包括准确率和召回率。准确率(Accuracy)衡量的是模型预测正确的比例。而召回率主要用于信息检索等任务,衡量的是模型能够正确检索出相关内容的比例。 在摘要任务中,一般用 ROUGE 指标,其中 ROUGE2 是把两个 sequence 按 2gram 的方式做切分做频次统计,然后计算 pred 和 gt 之间的召回率。 对于不同的 AI 任务,还有其他多种指标,如在 NLP 中: 信息检索任务常用 NDCG@K 指标,核心衡量最相关文档是否排序足够靠前。 文本生成任务可用 BitsperByte 指标。 针对二分类任务,一般用 ECE 指标(Expected Calibration Error)来度量模型输出概率 p 时,最终正确率真的为 p 的一致性。 此外,还有一些其他方面的评估指标,如不确定性(Calibration and Uncertainty)、鲁棒性(Robustness,包括 invariance 和 equivariance)、公平性(Fairness)、偏见程度(Bias and stereotypes)、有毒性(Toxicity)等。 传统的 RAG 解决方案在检索效率和准确性上存在问题,Anthropic 通过“上下文嵌入”解决了部分问题,但 RAG 的评估仍待解决,研究人员正在探索新的方法,如 Ragnarök。 在提示词设计方面,Claude 官方手册提出“链式提示”的方法理念,将复杂任务拆解为多个步骤,具有准确率高、清晰性好、可追溯性强等好处。ChatGPT 官方手册也有类似理念,同时还有相关论文如在 ICLR 2023 上发表的提出 LeasttoMost Prompting 提示词策略的论文,在文本理解和生成场景中表现优秀。
2025-04-09
工作流 和 智能体的区别?
工作流和智能体的区别主要体现在以下几个方面: 定义: 工作流是通过预定义代码路径来编排 LLM 和工具的系统。 智能体则是由 LLM 动态指导自身流程和工具使用的系统,能够自主控制任务完成方式。 功能: 智能体是一个自动化的“助手”,用来执行特定任务,擅长做一些具体的、重复性的任务,比如客服聊天、推荐商品、处理订单等,但只能按照预先设定的规则和任务来做事,如果遇到超出范围的情况,就不知道怎么办了。 工作流是一系列任务的流程,决定了每个步骤应该做什么,可以处理一个完整的过程,比如从客户下单、付款到发货和售后服务,涵盖了所有步骤和环节,更灵活,能够适应变化,可以调整步骤和规则来应对不同的情况,不需要一开始就固定下来。 范围: 智能体是特定任务的“助手”,用于局部执行任务。 工作流是一个“计划”或“路线图”,指导整个任务的流程。简单说,工作流是全局的,智能体是局部的。 在业务中,通常需要的是工作流而非单个智能体,因为整个业务流程设计至关重要。例如,在烹饪中,关键不在于使用多贵的锅,而是按步骤完成每道工序。因此,工作流才是解决问题的关键,它帮助优化思路、提升效率。设计好工作流才能大幅提升整体业务效率。
2025-04-08
在ai context中,token和word的区别是?
在 AI 领域中,Token 和 Word 有以下区别: 定义和范围:Token 通常是大语言模型处理文本数据时的一个单元,在不同语境下,可能代表一个字、一个词、一个句子、标点、词根、前缀等,更加灵活。而 Word 一般指能够表达一定意义的独立单位,如单词。 语言处理:在英文中,一个 Word 通常是一个词或标点符号。在一些汉语处理系统中,一个 Word 可能是一个字或一个词。而 Token 在不同的语言模型和处理系统中,对应的范围和形式有所不同。 作用和意义:Token 不仅是文本数据的单位,还可能携带丰富的语义、句法等信息,在模型中有着对应的向量表示。Word 主要用于传达相对明确和完整的意义。 计算和收费:大模型的收费计算方法以及对输入输出长度的限制,通常是以 Token 为单位计量的。 例如,在处理“ I’m happy ”这句话时,“I”、“’m”、“happy”可能被视为 Token,而“I’m happy”整体可看作一个 Word 。
2025-04-08
AI chatbot、agent、copilot区别
AI chatbot、agent、copilot 主要有以下区别: 1. 定义和角色: Copilot:翻译成副驾驶、助手,在帮助用户解决问题时起辅助作用。 Agent:更像主驾驶、智能体,可根据任务目标自主思考和行动,具有更强的独立性和执行复杂任务的能力。 Chatbot:具备基本对话能力,主要依赖预设脚本和关键词匹配,用于客户服务和简单查询响应。 2. 核心功能: Copilot:更多地依赖于人类的指导和提示来完成任务,功能很大程度上局限于在给定框架内工作。 Agent:具有更高的自主性和决策能力,能够根据目标自主规划整个处理流程,并根据外部反馈进行自我迭代和调整。 3. 流程决策: Copilot:处理流程往往依赖于人类确定的静态流程,参与更多是在局部环节。 Agent:解决问题的流程由 AI 自主确定,是动态的,不仅可以自行规划任务步骤,还能根据执行过程中的反馈动态调整流程。 4. 应用范围: Copilot:主要用于处理简单、特定的任务,更多是作为工具或助手存在,需要人类引导和监督。 Agent:能够处理复杂、大型的任务,并在 LLM 薄弱的阶段使用工具或 API 等进行增强。 5. 开发重点: Copilot:主要依赖于 LLM 的性能,开发重点在于 Prompt Engineering。 Agent:同样依赖于 LLM 的性能,但开发重点在于 Flow Engineering,即在假定 LLM 足够强大的基础上,把外围的流程和框架系统化。 以下是一些 Agent 构建平台: 1. Coze:新一代一站式 AI Bot 开发平台,适用于构建基于 AI 模型的各类问答 Bot,集成丰富插件工具。 2. Mircosoft 的 Copilot Studio:主要功能包括外挂数据、定义流程、调用 API 和操作,以及部署 Copilot 到各种渠道。 3. 文心智能体:百度推出的基于文心大模型的智能体平台,支持开发者根据需求打造产品能力。 4. MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识,以及访问第三方数据和服务或执行工作流。 5. 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于多种场景,提供多种成熟模板。 6. 钉钉 AI 超级助理:依托钉钉强大的场景和数据优势,在处理高频工作场景方面表现出色。 以上信息由 AI 大模型生成,请仔细甄别。
2025-04-07
人工智能搜索与百度搜索的区别
人工智能搜索与百度搜索存在以下区别: 1. 底层技术:人工智能搜索的底层技术常包括“RAG”,即“检索增强生成”,包括检索、增强和生成三个步骤。而百度搜索的技术构成相对复杂,不断融合新的技术和功能。 2. 发展路径:在中国市场,相较欧美,百度作为搜索巨头已将文心一言大模型融入搜索,提供对话式回答和创作功能。同时,市场上还涌现出如秘塔 AI 搜索等创新型产品,主打“无广告,直接答案”,提供结构化结果和引用来源等特色功能。 3. 产品更新与竞争态势:Google 仍在战斗前线密集释放技能,与其他公司竞争激烈。而百度在新模型发布方面相对较少。此外,Google 推出新功能曾引发大量用户不满,而百度的相关新功能在页面布局和使用体验上更靠近某些特定产品,并聚合了多种创作能力和智能体快捷调用窗口。百度文库也上线了“AI 全网搜”功能,打通了特定工作流,产品功能较为完整,但受限于模型能力,生成内容尚有提升空间。
2025-04-01
用ai建立知识库和直接使用ai有什么区别、
用 AI 建立知识库和直接使用 AI 主要有以下区别: 直接使用 AI 时,AI 生成的内容可能较为笼统模糊,就像遇到只会说“很急,今天就要”却不提供具体指导的领导。若想让 AI 成为得力助手,需对复杂任务进行拆解,提供方法论和定义输出格式。 建立知识库就如同为 AI 准备了“教科书”。知识库灵活,但偶尔会出现查不到内容而“猜题”的情况。例如,将《梦想与颠覆》卡牌等相关内容导入作为 AI 可调用的知识库,后续在创作中激活知识库,AI 会根据场景自动匹配库内素材,使输出更具针对性。 相比之下,微调类似于让 AI“自己真的学会了整本书”,答题更快更准,但训练成本高。微调适合高精度、长期任务,而知识库更适合临时查找、快速问答。
2025-03-30