Home/Question List/Question Detail

有哪些视频、音频、图片理解的大模型？开源的有没有

Answer

以下是一些视频、音频、图片理解的大模型：

视频生成音效模型已开源。
Sheet Music Transformer：超越单音转录的端到端光学音乐识别。
AnyGPT：具有离散序列建模的统一多模态大型语言模型。
腾讯与新加坡国立大学发布 M2UGen。

此外，在多模态成为大模型标配的趋势下，以下大模型在视频和图片理解方面表现出色：

OpenAI 的产品在从语言处理到图片、视频、声音的理解方面有不断发展，如 Sora 工具，其背后体现了 OpenAI 对视频的阅读、解读和分析能力的提升。
Meta 发布的 V-JEPA 是基于世界模型打造的多模态模型。
Google 的 Gemini 号称具有强大的对视频和图片的深入解读能力。
Stable Diffusion 发布的最新版本也具有强大的对视频和图片的理解能力。

Content generated by AI large model, please carefully verify (powered by aily)

References

AI音乐 | 2.20 资讯

作者：叮当不是机器猫｜分享AI音乐动态，探索AI与音乐的无限可能！公众号：智音Brook 2024-02-20 21:16广东原文https://mp.weixin.qq.com/s/ekr0jfytmzhGOn_ZqqeC9A目录视频生成音效模型已开源Sheet Music Transformer：超越单音转录的端到端光学音乐识别AnyGPT：具有离散序列建模的统一多模态大型语言模型腾讯与新加坡国立大学发布M2UGen

周鸿祎免费课AI系列第一讲

GPT3.5，GPT4出来的时候大家的感觉是什么？处理文字很牛。实际上，后来大模型从理解语言到理解图片、视频、听筒、声音，OpenAI的产品密集地发布，Meta发了一个V-JEPA，这是杨博士推崇的世界模型打造的多模态。Google推出Genie……这个写错了，Genie是新的，是世界模型，实际Google的Gemini里号称强大的就是对视频和图片进行深入的解读。Stable Diffusion发了最新的版本，也是有很强大的对视频和图片的理解能力。注意，我强调一下，文生图和文生视频严格说不难，Diffusion算法都能支持。最难的是你得画对一幅图，你对这幅图相应得有理解。如果你对一个图都没有理解，想把一个图或视频画对是根本做不到的。所以，我们看Sora表面上看起来是一个做视频的工具，Sora背后意味着OpenAI对视频的阅读能力、解读能力、分析能力有了非常大的质的提升。

周鸿祎免费课AI系列第一讲

Others are asking

自动生成提示词的开源工具有哪些

以下是一些自动生成提示词的开源工具： 1. Freepik 推出的 Reimagine AI 工具：用户上传图片即可自动生成提示词，无需输入文字。它还能实时提供无限滚动结果展示，边操作边生成图像，通过调整提示词实时修改图片细节，并支持多种风格切换。相关链接：https://freepik.com/pikaso/reimagine 、https://x.com/imxiaohu/status/1770437135738581414?s=20 2. StreamMultiDiffusion 项目：使用区域文本提示实时生成图像，具有交互式操作体验，每个提示控制一个区域，实现精准图像生成。相关链接：https://arxiv.org/abs/2403.09055 、https://github.com/ironjr/StreamMultiDiffusion?tab=readmeovfile 、https://huggingface.co/spaces/ironjr/SemanticPalette 、https://x.com/imxiaohu/status/1770371036967850439?s=20 3. 【SD】自动写提示词脚本 One Button Prompt：可以在主菜单输入人物提示词，在“高级”中设置提示词混合，还具有一键运行放大的模块，包括完整的文生图放大和图生图放大，甚至可接入其他脚本和 controlnet。获取方式：添加公众号【白马与少年】，回复【SD】。

2025-04-12

开源flux模型如何快速使用

以下是关于开源 Flux 模型快速使用的方法： 1. 模型的下载：如果因为环境问题，可以在网盘中下载。 siglipso400mpatch14384（视觉模型）：siglip 由 Google 开发的视觉特征提取模型，负责理解和编码图像内容。工作流程包括接收输入图像、分析图像的视觉内容并将这些视觉信息编码成一组特征向量。打开 ComfyUI\models\clip，在地址栏输入 CMD 回车，打开命令行，输入下面的命令拉取模型（也可以在网盘里下载）。 image_adapter.pt（适配器）：连接视觉模型和语言模型，优化数据转换。工作流程包括接收来自视觉模型的特征向量、转换和调整这些特征，使其适合语言模型处理。通过 https://huggingface.co/spaces/fancyfeast/joycaptionprealpha/tree/main/wpkklhc6 下载，放到 models 的 Joy_caption 文件夹里，如果该文件夹不存在，就新建一个。 MetaLlama3.18Bbnb4bit（语言模型）：大型语言模型，负责生成文本描述。工作流程包括接收经过适配器处理的特征、基于这些特征生成相应的文本描述、应用语言知识来确保描述的连贯性和准确性。打开 ComfyUI\models\LLM，地址栏输入 CMD 回车，在命令行里面输入下面命令。 2. 下载地址： ae.safetensors 和 flux1dev.safetensors 下载地址：https://huggingface.co/blackforestlabs/FLUX.1dev/tree/main 。准备了夸克和百度的网盘链接，方便部分同学下载： flux 相关模型（体积较大）的夸克网盘链接：https://pan.quark.cn/s/b5e01255608b 。 flux 相关模型（体积较大）的百度网盘链接：https://pan.baidu.com/s/1mCucHrsfRo5SttW03ei0g?pwd=ub9h 提取码：ub9h 。如果 GPU 性能不足、显存不够，底模可以使用 fp8 的量化版模型，速度会快很多，下载地址：https://huggingface.co/Kijai/fluxfp8/tree/main 。 3. 工作流下载：最后我们再下载 dev 的工作流：。或者下面官方原版的图片链接，图片导入 comfyUI 就是工作流：https://comfyanonymous.github.io/ComfyUI_examples/flux/flux_dev_example.png 。我们打开 ComfyUI，把工作流或图片拖拽到 ComfyUI 里。

2025-04-08

开源AI Agent软件有哪些

以下是一些开源的 AI Agent 软件： 1. AutoGPT 和 BabyAGI：在去年 GPT4 刚发布时风靡全球科技圈，给出了让 LLM 自己做自动化多步骤推理的解题思路。 2. Coze：新一代的一站式 AI Bot 开发平台，适用于构建基于 AI 模型的各类问答 Bot，集成了丰富的插件工具。 3. Mircosoft 的 Copilot Studio：主要功能包括外挂数据、定义流程、调用 API 和操作，以及将 Copilot 部署到各种渠道。 4. 文心智能体：百度推出的基于文心大模型的智能体（Agent）平台，支持开发者根据自身需求打造大模型时代的产品能力。 5. MindOS 的 Agent 平台：允许用户定义 Agent 的个性、动机、知识，以及访问第三方数据和服务或执行设计良好的工作流。 6. 斑头雁：2B 基于企业知识库构建专属 AI Agent 的平台，适用于客服、营销、销售等多种场景，提供多种成熟模板，功能强大且开箱即用。 7. 钉钉 AI 超级助理：依托于钉钉强大的场景和数据优势，在处理高频工作场景如销售、客服、行程安排等方面表现出色。此外，智谱·AI 开源的语言模型中也有与 Agent 相关的，如 AgentLM7B、AgentLM13B、AgentLM70B 等。

2025-03-29

mcp 有什么开源的方案吗