Navigate to WaytoAGI Wiki →
Home/Question List/Question Detail

现在Ai作图用什么?还是以前的Stable Diffusion吗?还是又出现了新的开源软件?

Answer

目前在 AI 作图领域,Stable Diffusion 仍然是常用的工具之一。Stable Diffusion 是 AI 绘画领域的核心模型,能够进行文生图和图生图等图像生成任务,其完全开源的特点使其能快速构建强大繁荣的上下游生态。

除了 Stable Diffusion,也出现了一些新的相关开源软件和工具,例如:

  • StableStudio:Stability AI 开源的 AI 图像生成平台。
  • Stable Diffusion Cheat-Sheet:拥有超过 700 种经过测试的艺术风格,可快速搜索查找各类艺术家,并支持一键复制 Prompt。

同时,市面上主流的 AI 绘图软件还有 Midjourney,其优势是操作简单方便,创作内容丰富,但需要科学上网并且付费。如果您想尝试使用 Stable Diffusion,可以参考 B 站【秋葉 aaaki】这个 Up 主的视频了解具体的安装方法。

Content generated by AI large model, please carefully verify (powered by aily)

References

教程:深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎

码字不易,希望大家能多多点赞!Rocky持续在撰写Stable Diffusion XL全方位解析文章,希望大家能多多点赞,让Rocky有更多坚持的动力:[深入浅出完整解析Stable Diffusion XL(SDXL)核心基础知识967赞同·148评论文章](https://zhuanlan.zhihu.com/p/643420260)2023.08.26最新消息,本文已经撰写Stable Diffusion 1.x-2.x系列和对应LoRA的训练全流程与详细解读内容,同时发布对应的保姆级训练资源,大家可以愉快地训练属于自己的SD和LoRA模型了!2023.07.26最新消息,由于Stable Diffusion模型的网络结构比较复杂,不好可视化,导致大家看的云里雾里。因此本文中已经发布Stable Diffusion中VAE,U-Net和CLIP三大模型的可视化网络结构图,大家可以下载用于学习!大家好,我是Rocky。2022年,Stable Diffusion模型横空出世,成为AI行业从传统深度学习时代走向AIGC时代的标志性模型之一,并为工业界、投资界、学术界和竞赛界都注入了新的AI想象空间,让AI再次“性感”。Stable Diffusion(简称SD)是AI绘画领域的一个核心模型,能够进行文生图(txt2img)和图生图(img2img)等图像生成任务。与Midjourney不同的是,Stable Diffusion是一个完全开源的项目(模型、代码、训练数据、论文、生态等全部开源),这使得其能快速构建强大繁荣的上下游生态(AI绘画社区、基于SD的自训练AI绘画模型、丰富的辅助AI绘画工具与插件等),并且吸引了越来越多的AI绘画爱好者加入其中,与AI行业从业者一起推动AIGC领域的发展与普惠。

【SD】软件原理傻瓜级理解

作者:白马少年介绍:SD实践派,出品精细教程发布时间:2023-04-27 23:00原文网址:https://mp.weixin.qq.com/s/C-F6ARIMHotl6siAfQ9wig目前市面上主流的AI绘图软件有两个:Stable Diffusion和Midjourney。Stable Diffusion的优势在于开源免费、可以本地化部署、创作自由度很高,缺点是需要比较好的电脑配置,尤其是显卡;Midjourney的优势是操作简单方便,创作内容相当丰富,但是需要科学上网并且付费,目前的使用费大概在每月200多元左右。如果可以融入工作流,这个月费也不算高,毕竟它带来的效率是惊人的,当然前期想要了解玩一玩的,可以试试Stable Diffusion,关于具体的安装方法可以去看看B站的【秋葉aaaki】这个Up主的视频。很多还没有接触过AI绘画的朋友会觉得这个东西很神秘,哪怕装好了软件也会看着一堆英文和参数而一头雾水。今天我就用最傻瓜的方式来讲述一下Stable Diffusion的工作原理和基本功能。

GitHubDaily 开源项目列表

|名称|简述||-|-||[Stable Diffusion Cheat-Sheet](https://github.com/SupaGruen/StableDiffusion-CheatSheet)|Stable Diffusion开源速查表,里面拥有超过700种经过测试的艺术风格,可快速搜索查找各类艺术家,并支持一键复制Prompt。||[StableStudio](https://github.com/Stability-AI/StableStudio)|人手一个Midjourney,Stability AI开源的AI图像生成平台||[Roop](https://github.com/s0md3v/roop)|一键实现AI换脸,仅需一张换脸图像,无需数据集,无需训练,自带敏感图像检测功能。||[pixian.ai](https://pixian.ai/)|能够利用AI一键移除各种图像背景,并支持在线调整图片分辨率、背景颜色等等。||[Inpaint Anything](https://github.com/geekyutao/Inpaint-Anything)|一个AI图像编辑工具,支持一键擦除、替换图像中的指定物品,通过提示词来自动更换背景图。||[Segment Anything(SAM)](https://github.com/facebookresearch/segment-anything)|一个图像分割模型,可自动分割图片或视频中的所有物品,一键完成自动分割,并支持零样本转移到其他分割任务。||[Docker](https://github.com/soulteary/docker-prompt-generator)|支持一键从图片中解析出Prompt描述,并能够基于描述进行扩展,以便二次图片生成。||[Plask.ai](https://plask.ai/)|一个AI工具,可以通过3D建模,直接生成模特效果图。|

Others are asking
Ai在设备风控场景的落地
AI 在设备风控场景的落地可以从以下几个方面考虑: 法律法规方面:《促进创新的人工智能监管方法》指出,AI 的发展带来了一系列新的安全风险,如对个人、组织和关键基础设施的风险。在设备风控中,需要关注法律框架是否能充分应对 AI 带来的风险,如数据隐私、公平性等问题。 趋势研究方面:在制造业中,AI Agent 可用于生产决策、设备维护、供应链协调等。例如,在工业设备监控与预防性维护中,Agent 能通过监测传感器数据识别异常模式,提前通知检修,减少停机损失和维修成本。在生产计划、供应链管理、质量控制、协作机器人、仓储物流、产品设计、建筑工程和能源管理等方面,AI Agent 也能发挥重要作用,实现生产的无人化、决策的数据化和响应的实时化。
2025-04-20
我是医科大学的本科学生,我现在想用Ai帮助我书写论文和报告,我应该怎么系统学习?
以下是一些系统学习利用 AI 帮助书写论文和报告的建议: 一、了解常用的 AI 工具和平台 1. 文献管理和搜索 Zotero:结合 AI 技术,可自动提取文献信息,助您管理和整理参考文献。 Semantic Scholar:由 AI 驱动的学术搜索引擎,能提供相关文献推荐和引用分析。 2. 内容生成和辅助写作 Grammarly:通过 AI 技术提供文本校对、语法修正和写作风格建议,提高语言质量。 Quillbot:基于 AI 的重写和摘要工具,可精简和优化论文内容。 3. 研究和数据分析 Google Colab:提供基于云的 Jupyter 笔记本环境,支持 AI 和机器学习研究,便于数据分析和可视化。 Knitro:用于数学建模和优化的软件,可进行复杂的数据分析和模型构建。 4. 论文结构和格式 LaTeX:结合自动化和模板,高效处理论文格式和数学公式。 Overleaf:在线 LaTeX 编辑器,有丰富模板库和协作功能,简化论文编写。 5. 研究伦理和抄袭检测 Turnitin:广泛使用的抄袭检测工具,确保论文原创性。 Crossref Similarity Check:检测潜在抄袭问题。 二、学习使用 AI 辅助撰写论文和报告的方法 1. 信息收集:利用 AI 搜索与权威网站结合获取关键数据,AI 可辅助提取结构化表格数据或编写抓取程序。 2. 内容拆分:针对报告需求将内容拆分,避免 AI 单次处理任务过长。 3. 数据处理:借助传统工具如 Excel,结合 AI 指导高效操作数据筛选与图表生成。 4. 分析与撰写:通过整理数据,利用 AI 辅助分析后撰写报告初稿,可指定风格并校验数据与结论准确性。 三、注意事项 1. AI 仅作辅助,最终内容需人工主导校验,避免误导性结论。 2. 保持科学的态度和方法,遵循科学伦理原则。 3. 了解现阶段 AI 在教育领域应用的局限性,如知识适配的层次性问题、教育应用的安全性考量等。 希望以上内容对您有所帮助。
2025-04-14
现在Ai已经发展到什么程度了
目前 AI 的发展已不再局限于单一的技术和应用范畴,而是融合了众多学科知识,并深入渗透到生活的各个层面,引发了一场生产力的革命。 有观点认为,AI 引领的是第四次工业革命的浪潮:继蒸汽机引发的机械化变革、电力驱动的电气化革新,以及电脑普及带来的信息化浪潮之后,AI 正推动着智能化时代的到来。 2025 开年 3 个月,AI 已经狂飙!R1 席卷全球,然后是 O3、Grok 3、Claude 3.7、GPT4.5 等,短短 3 个月内,AI 更新密集发布。然而很多人仍未察觉 AI 正在指数级加速,甚至抱怨 GPT4.5 表现不佳,但事实上,AI 发展已经是直线拉升状态,每天都在进步。 此外,Grok 语音模式已全面开放,支持 11 种模式(包括 2 种 18 禁),自带语音字幕,是学习英语的好工具,但目前仅支持英文。
2025-04-13
Ai生成UI
以下是关于 AI 生成 UI 的相关内容: 使用 Midjourney 生成 UI 界面: 页面指令:指定生成某个页面(如首页、登录页等),只需添加页面指令描述,如“landing page”可生成社交平台的登录页设计,“Profile Page”可生成人力资源类产品的个人资料页。 应用场景:Midjourney 产出的设计图视觉效果佳,适合在 APP 设计的初始阶段,如头脑风暴和风格探索中提供灵感和创意。但目前直接用于落地开发仍有距离,不过随着技术迭代,这个距离会逐渐缩短。 多模态 4O 在 UI 设计中的应用: 可以先借助 AI 生成设计概要概念,应用于 Web 应用创建和 UI 页面设计,也能直接生成 UI 界面。 Midjourney 商业实战案例中的 UI 设计: 如数据图标、B 端图标设计、音乐软件 UI 设计等。但部分生成的 UI 设计存在不规范、文字乱的情况,只能作为风格参考。网上已有很多 AI 生成的 UI 设计软件开始内测。
2025-04-12
Ai生成海报
以下是关于 AI 生成海报的相关内容: 有摊主在 10 天前开发的 AI 不仅能提供配方,还能自动生成海报,例如鸡尾酒的配方和海报可私人订制。 即梦 3.0 能根据输入的提示词生成类似杜蕾斯风格的海报,输入五一劳动节或二十四节的立夏等关键词,能生成相应的提示词并生成海报。 女神节海报可通过即梦 AI 生成,操作简单,只需 3 步:打开即梦 AI 选择“图片生成”功能,选择模型输入提示词,点击生成即可。同时提供了女神节海报的案例提示词,如案例一的提示词为女神节主题,3D 设计,梦幻氛围等;案例二的提示词为粉色主题,梦幻氛围等;案例三的提示词为妇女节,3D 设计,粉色主题等。
2025-04-11
入门:Ai绘画
以下是为您提供的 AI 绘画入门相关的资源和教程: 在“通往 AGI 之路介绍.pdf”中,有关于 AI 绘画入门的部分,包括产品工具与案例实战,开箱即用。 以下是一些 B 站的视频教程链接: 「AI 绘画」软件比较与 stable diffusion 的优势: 「AI 绘画」零基础学会 Stable Diffusion: 「AI 绘画」革命性技术突破: 「AI 绘画」从零开始的 AI 绘画入门教程——魔法导论: 「入门 1」5 分钟搞定 Stable Diffusion 环境配置,消灭奇怪的报错: 「入门 2」stable diffusion 安装教程,有手就会不折腾: 「入门 3」你的电脑是否跑得动 stable diffusion?: 「入门 4」stable diffusion 插件如何下载和安装?: 还有 SD 新手从 0 入门的 AI 绘画教程,包括以下章节: 第一节课:AI 绘画原理与基础界面 第二节课:20 分钟搞懂 Prompt 与参数设置,你的 AI 绘画“咒语”学明白了吗? 第三节课:打破次元壁!用 AI“重绘”照片和 CG 第四节课:AI 绘画模型,“画风”自由切换 第五节课:提高 AI 绘画分辨率的方式 第六节课:LoRa|Hypernetwork 概念简析 第七节课:定向修手修脸,手把手教你玩转局部重绘! 第八节课:提示词补全翻译反推,“终极”放大脚本与细节优化插件 第九节课:LoRA 从原理到实践 第十节课:零基础掌握 ControlNet! 您可以通过以上资源进行学习,祝您在 AI 绘画领域学有所成!
2025-04-10
什么是Diffusion Model
在 AI 图像生成中,“Diffusion Model”(扩散模型)是一类生成模型。其工作原理包括以下几个方面: 1. 正向扩散过程:向图像逐渐添加高斯噪声,直至图像完全无法识别,此过程可形式化为顺序扩散马尔可夫链。 2. 潜空间表示:将图像压缩到低维的潜在空间中,以减少计算量并提高生成速度。 3. 学习逆向过程:训练神经网络来预测每一步中噪声的分布,并逐步去除噪声以恢复清晰图像。 4. 文本到图像的生成:结合文本编码器和图像解码器,依据文本描述生成相应图像。 扩散模型的关键优势在于能够生成高质量的图像,且相比其他生成模型(如 GANs)在计算效率和稳定性方面更具优势。例如 Stable Diffusion 等模型就是基于扩散模型的文本到图像生成工具,可根据文本提示生成逼真的图像。 扩散模型的逆向过程,即从噪声中恢复图像的过程,可类比为雕刻,AI 逐步去除不必要的部分,最终得到清晰的图像。这个过程可以逐步进行,也可以一次性完成,取决于模型的具体实现和采样算法。 总的来说,扩散模型为 AI 图像生成提供了强大的技术手段,能在多种场景下生成高质量的图像。例如 Midjourney 就是一个由 Latent Diffusion Model(LDM)驱动的 AI 图像生成工具,它通过文本提示和参数输入,利用基于大量图像数据训练的机器学习算法生成独特的图像。
2025-03-21
Stable Diffusion 是 Diffusion Model 的优化版本,引入了潜在空间(Latent Space)技术,这个潜在空间(Latent Space)是什么意思,它的实现原理是什么?
在 Stable Diffusion 模型中,潜在空间(Latent Space)指的是图像的潜在分布,它包含了与图像相关的所有信息。 图像被映射到潜在空间后,扩散过程在这个空间中进行。ComfyUI 中的许多操作都在潜在空间中进行,如 KSampler 节点就是在这个空间中执行采样过程。在潜在空间中,通过节点调整对潜在空间的操作,如噪声添加、去噪步数等,这部分通常由潜在空间操作模块来实现。 在 Stable Diffusion 模型中,图像的潜在分布是通过一个编码器解码器结构来学习的。编码器将图像映射到潜在空间,而解码器则将潜在空间中的向量映射回图像空间。通过这种方式,模型可以学习到图像的潜在分布,从而实现图像生成、编辑和操作。 在采样过程中,Stable Diffusion 模型通过逐步降低噪声水平来生成图像。在这个过程中,模型根据当前的噪声水平预测图像的潜在分布,然后根据这个分布生成一个新的图像。这个过程重复进行,直到生成一个高质量的图像。 与之对应的是像素空间(Pixel Space),像素空间指的是图像中每个像素的原始颜色或强度值所组成的空间。图像可以看作是一个二维或三维的矩阵,其中每个元素代表一个像素。在像素空间中,图像的表示是密集的,且包含了大量的细节信息。
2025-03-21
Stable Diffusion有哪些模型
Stable Diffusion 模型包括以下几种: 1. Stable Video Diffusion 模型: 避坑指南:直接使用百度网盘准备好的资源可规避大部分坑;若报显存溢出问题,可调低帧数或增加 novram 启动参数;云部署实战部分,基础依赖模型权重有两个 models–laion–CLIPViTH14laion2Bs32Bb79K 和 ViTL14.pt,需放到指定路径下。 总结:Sora 发布后,之前的视频生成模型略显逊色,Stable Video Diffusion 作为开源项目可自由创作无需充值,有独特优势。其生成的视频画质清晰、过渡自然,虽目前只能生成最多 4 秒视频,但在不断迭代。 2. 潜在扩散模型(Latent Diffusion Models): CLIP:将用户输入的 Prompt 文本转化成 text embedding。 核心组件:VAE EncoderDecoder、UNET(进行迭代降噪,在文本引导下进行多轮预测)。 存放路径:ComfyUI 存放路径为 models/checkpoints/。 基础预训练模型:SD1.5、SDXL。 训练方法:DreamBooth(by Google)。 格式:.pt、.safetensor。 融合模型:checkpoint+checkpoint、Lora+Lora、checkpoint+Lora。 模型自带已适配的 VAE。 微调模型:概念学习、Checkpoint。 3. 不同版本模型对比: Stable Diffusion 2.0 系列模型。 Stable Diffusion 2.1 系列模型。 Stable Diffusion 1.6 系列模型。 SD Turbo 模型。 4. 性能优化方面: 使用 TF32 精度加速 SD 模型训练与推理。 使用 FP16 半精度加速。 对注意力模块进行切片。 对 VAE 进行切片。 大图像切块。 CPU<>GPU 切换。 变换 Memory Format。 使用 xFormers 加速 SD 模型训练与推理。 使用 tomesd 加速 SD 模型推理。 使用 torch.compile 加速 SD 推理速度。 此外,还有关于 Stable Diffusion 训练数据集制作、微调训练、基于其训练 LoRA 模型、训练结果测试评估等方面的内容。
2025-03-21
什么是Stable Diffusion
Stable Diffusion 是一种扩散模型的变体,最初称为潜在扩散模型(Latent Diffusion Models)。 它的核心技术来源于 AI 视频剪辑技术创业公司 Runway 的 Patrick Esser 以及慕尼黑大学机器视觉学习组的 Robin Romabach,其技术基础主要来自于他们之前在计算机视觉大会 CVPR22 上合作发表的潜扩散模型研究。 Stable Diffusion 是一种基于潜在扩散模型的文本到图像生成模型,能够根据任意文本输入生成高质量、高分辨率、高逼真的图像。其原理包括:使用新颖的文本编码器(OpenCLIP)将文本输入转换为向量表示以捕捉语义信息并与图像空间对齐;使用扩散模型将随机噪声图像逐渐变换为目标图像,该模型能从训练数据中学习概率分布并采样新数据;在扩散过程中利用文本向量和噪声图像作为条件输入给出每步变换的概率分布,以根据文本指导噪声图像向目标图像收敛并保持图像清晰度和连贯性;使用超分辨率放大器将生成的低分辨率图像放大到更高分辨率,该放大器也是扩散模型,能从低分辨率图像中恢复细节信息并增强图像质量。 简单来说,Stable Diffusion 就是一个 AI 自动生成图片的软件,通过输入文字就能生成对应的图片。它具有能处理任意领域和主题的文本输入并生成多样化和富有创意的图像、生成高达 2048x2048 或更高分辨率且保持良好视觉效果和真实感等优点。
2025-03-21
Stable Diffusion、MidJourney、DALL·E 这些生成式AI工具有什么区别
Stable Diffusion、Midjourney 和 DALL·E 这三个生成式 AI 工具主要有以下区别: 1. 开源性:Stable Diffusion 是开源的,用户可以在任何高端计算机上运行。 2. 学习曲线:Midjourney 的学习曲线较低,只需键入特定的提示就能得到较好的结果。 3. 图像质量:Midjourney 被认为是 2023 年中期图像质量最好的系统。 4. 应用场景:Stable Diffusion 特别适合将 AI 与来自其他源的图像结合;Adobe Firefly 内置在各种 Adobe 产品中,但在质量方面落后于 DALL·E 和 Midjourney。 5. 训练数据:这些工具都是使用大量的内容数据集进行训练的,例如 Stable Diffusion 是在从网络上抓取的超过 50 亿的图像/标题对上进行训练的。 6. 所属公司:DALL·E 来自 OpenAI。 在使用方面: 1. Stable Diffusion 开始使用需要付出努力,因为要学会正确制作提示,但一旦掌握,能产生很好的结果。 2. DALL·E 已纳入 Bing(需使用创意模式)和 Bing 图像创建器,系统可靠,但图像质量比 Midjourney 差。 3. Midjourney 需要 Discord,使用时需键入特定格式的提示。
2025-03-20
Stable Diffusion从哪可以使用
以下是关于 Stable Diffusion 的使用途径: 1. 模型获取: 在分享的链接中,有部分常用的大模型。文章的第三部分会详细介绍更多模型的下载途径及模型存放位置。 您可以从上的推理代码。 2. 低配置电脑使用: 可以通过云平台,如“青椒云”来畅玩 SD。点击链接 http://account.qingjiaocloud.com/signup?inviteCode=R0JJ9CHY 下载。 云平台使用步骤: 点击链接,注册账号。 下载并安装后,登录账号。 点击右上角个人中心进行实名认证。 进行实名认证后回到主界面,点击新增云桌面,选“AIGC 尝鲜”,新注册有优惠券可免费试用。 点击“开机”按钮,稍等后点击“进入桌面”,进入桌面后可关闭弹出框。 点击“此电脑”,在 C 盘找到 SD 根目录,点击“A 启动器.exe”。 点击右下角“一键启动”进入 SD。 用完记得关机,避免持续计费。
2025-03-07
Stable Diffusion 教程
以下是关于 Stable Diffusion 的教程: Stable Diffusion 是什么: 稳定扩散(Stable Diffusion)是一个 AI 自动生成图片的软件,通过输入文字就能生成对应的图片。 入门教程: 新人视频教程:https://waytoagi.feishu.cn/wiki/O5jEwgZIRiQ10xkqGOQcKtSBnSe 文字教程:https://zhuanlan.zhihu.com/p/622238031 模型网站: C 站SD 模型网站:https://civitai.com/ Liblibai模型+在线 SD:https://www.liblib.ai/ huggingface:https://huggingface.co/models?pipeline_tag=texttoimage&sort=trending 吐司站:https://tusiart.com/ 推荐模型:人像摄影模型介绍:https://www.bilibili.com/video/BV1DP41167bZ 为什么要学 Stable Diffusion 及其强大之处: 学习 Stable Diffusion 非常简单,目的是花更少时间快速入门。 它可以生成真人 AI 美女、头像、壁纸,辅助绘画,还能用于恢复画质、室内设计等,有很多功能和应用场景。 希望以上内容对您有所帮助。
2025-03-04
自动生成提示词的开源工具有哪些
以下是一些自动生成提示词的开源工具: 1. Freepik 推出的 Reimagine AI 工具:用户上传图片即可自动生成提示词,无需输入文字。它还能实时提供无限滚动结果展示,边操作边生成图像,通过调整提示词实时修改图片细节,并支持多种风格切换。相关链接:https://freepik.com/pikaso/reimagine 、https://x.com/imxiaohu/status/1770437135738581414?s=20 2. StreamMultiDiffusion 项目:使用区域文本提示实时生成图像,具有交互式操作体验,每个提示控制一个区域,实现精准图像生成。相关链接:https://arxiv.org/abs/2403.09055 、https://github.com/ironjr/StreamMultiDiffusion?tab=readmeovfile 、https://huggingface.co/spaces/ironjr/SemanticPalette 、https://x.com/imxiaohu/status/1770371036967850439?s=20 3. 【SD】自动写提示词脚本 One Button Prompt:可以在主菜单输入人物提示词,在“高级”中设置提示词混合,还具有一键运行放大的模块,包括完整的文生图放大和图生图放大,甚至可接入其他脚本和 controlnet。获取方式:添加公众号【白马与少年】,回复【SD】。
2025-04-12
开源flux模型如何快速使用
以下是关于开源 Flux 模型快速使用的方法: 1. 模型的下载: 如果因为环境问题,可以在网盘中下载。 siglipso400mpatch14384(视觉模型):siglip 由 Google 开发的视觉特征提取模型,负责理解和编码图像内容。工作流程包括接收输入图像、分析图像的视觉内容并将这些视觉信息编码成一组特征向量。打开 ComfyUI\models\clip,在地址栏输入 CMD 回车,打开命令行,输入下面的命令拉取模型(也可以在网盘里下载)。 image_adapter.pt(适配器):连接视觉模型和语言模型,优化数据转换。工作流程包括接收来自视觉模型的特征向量、转换和调整这些特征,使其适合语言模型处理。通过 https://huggingface.co/spaces/fancyfeast/joycaptionprealpha/tree/main/wpkklhc6 下载,放到 models 的 Joy_caption 文件夹里,如果该文件夹不存在,就新建一个。 MetaLlama3.18Bbnb4bit(语言模型):大型语言模型,负责生成文本描述。工作流程包括接收经过适配器处理的特征、基于这些特征生成相应的文本描述、应用语言知识来确保描述的连贯性和准确性。打开 ComfyUI\models\LLM,地址栏输入 CMD 回车,在命令行里面输入下面命令。 2. 下载地址: ae.safetensors 和 flux1dev.safetensors 下载地址:https://huggingface.co/blackforestlabs/FLUX.1dev/tree/main 。 准备了夸克和百度的网盘链接,方便部分同学下载: flux 相关模型(体积较大)的夸克网盘链接:https://pan.quark.cn/s/b5e01255608b 。 flux 相关模型(体积较大)的百度网盘链接:https://pan.baidu.com/s/1mCucHrsfRo5SttW03ei0g?pwd=ub9h 提取码:ub9h 。 如果 GPU 性能不足、显存不够,底模可以使用 fp8 的量化版模型,速度会快很多,下载地址:https://huggingface.co/Kijai/fluxfp8/tree/main 。 3. 工作流下载: 最后我们再下载 dev 的工作流: 。或者下面官方原版的图片链接,图片导入 comfyUI 就是工作流:https://comfyanonymous.github.io/ComfyUI_examples/flux/flux_dev_example.png 。我们打开 ComfyUI,把工作流或图片拖拽到 ComfyUI 里。
2025-04-08
开源AI Agent软件有哪些
以下是一些开源的 AI Agent 软件: 1. AutoGPT 和 BabyAGI:在去年 GPT4 刚发布时风靡全球科技圈,给出了让 LLM 自己做自动化多步骤推理的解题思路。 2. Coze:新一代的一站式 AI Bot 开发平台,适用于构建基于 AI 模型的各类问答 Bot,集成了丰富的插件工具。 3. Mircosoft 的 Copilot Studio:主要功能包括外挂数据、定义流程、调用 API 和操作,以及将 Copilot 部署到各种渠道。 4. 文心智能体:百度推出的基于文心大模型的智能体(Agent)平台,支持开发者根据自身需求打造大模型时代的产品能力。 5. MindOS 的 Agent 平台:允许用户定义 Agent 的个性、动机、知识,以及访问第三方数据和服务或执行设计良好的工作流。 6. 斑头雁:2B 基于企业知识库构建专属 AI Agent 的平台,适用于客服、营销、销售等多种场景,提供多种成熟模板,功能强大且开箱即用。 7. 钉钉 AI 超级助理:依托于钉钉强大的场景和数据优势,在处理高频工作场景如销售、客服、行程安排等方面表现出色。 此外,智谱·AI 开源的语言模型中也有与 Agent 相关的,如 AgentLM7B、AgentLM13B、AgentLM70B 等。
2025-03-29
mcp 有什么开源的方案吗
Anthropic 于 2024 年 11 月推出并开源了 MCP(模型上下文协议)。MCP 就像一个“转接头”或“通用插座”,能统一不同的外部服务,如 Google Drive、GitHub、Slack、本地文件系统等,通过标准化接口与大语言模型对接。开发者基于 MCP 规范开发一次“接口适配器”(MCP 服务器),就能让所有兼容 MCP 的模型(MCP 客户端)无缝接入,无需针对每个模型单独适配,大幅提升兼容性与开发效率。MCP 里面还包含 SSE(ServerSent Events),是一种允许服务器向浏览器推送实时更新的技术。MCP 像为 AI 模型量身定制的“USBC 接口”,可以标准化地连接 AI 系统与各类外部工具和数据源。与传统 API 相比,MCP 是单一协议,只要一次整合就能连接多个服务;具有动态发现功能,AI 模型能自动识别并使用可用的工具;支持双向通信,模型不仅能查询数据,还能主动触发操作。相关链接:
2025-03-27
帮我列举2025年3月1日以来,国内外、闭源开源模型厂商的更新记录。
以下是 2025 年 3 月 1 日以来,国内外、闭源开源模型厂商的部分更新记录: 2025 年 3 月 20 日,OpenAI 推出了一套全新的音频模型,旨在通过 API 为开发者提供更智能、更可定制的语音代理支持,包括改进的语音转文本和文本转语音功能,为语音交互应用带来显著提升。 李开复公开表示 OpenAI 面临生存危机,商业模式不可持续。他强调中国的 DeepSeek 以极低成本提供接近的性能,开源模式将主导未来 AI 发展。他认为企业级 AI 应用将成为投资重点,资源限制反而促进了创新。李开复大胆预测,中国将出现三大 AI 玩家,竞争愈发激烈。 SuperCLUE 发布《中文大模型基准测评 2025 年 3 月报告》,指出 2022 2025 年经历多阶段发展,国内外模型差距缩小。测评显示 o3mini总分领先,国产模型表现亮眼,如 DeepSeekR1 等在部分能力上与国际领先模型相当,且小参数模型潜力大。性价比上,国产模型优势明显。DeepSeek 系列模型深度分析表明,其 R1 在多方面表现出色,蒸馏模型实用性高,不同第三方平台的联网搜索和稳定性有差异。 以上信息来源包括: 《》 《》 《》
2025-03-26
有哪些效果好的开源OCR模型值得推荐
以下是一些效果较好的开源 OCR 模型推荐: 1. Mistral OCR:当前最强的 OCR 模型,具有多语言支持,超越 Gemini 2.0 Flash,可在 Le Chat 及 API 调用。ElevenLabs 赠送 $25 Mistral API 额度,免费领取!领取地址: 2. Gemini 2.0 Flash:也是一款 OCR 模型。
2025-03-24