Navigate to WaytoAGI Wiki →
Home/All Questions
flux模型
以下是关于 FLUX 模型的相关信息: FLUX.1 介绍: 模型下载: 主模型下载:在 dev 或者 schnell 的 huggingface 地址中下载模型,下载后放在 comfyui\\models\\unet 文件夹中。 FLUX.1模型:https://huggingface.co/blackforestlabs/FLUX.1dev FLUX.1模型:https://huggingface.co/blackforestlabs/FLUX.1schnell VAE 下载地址:https://huggingface.co/blackforestlabs/FLUX.1schnell/blob/main/ae.sft,下载后放在 comfyui\\models\\vae 文件夹中。 CLIP 下载地址:https://huggingface.co/comfyanonymous/flux_text_encoders/tree/main,官方提供了 clip_l.safetensors,还有 t5xxl 的 FP8 和 FP16 的两种精度的 clip 模型供选择,大家根据电脑配置任选 FP8 或者 FP16 精度下载就可以,经过经验 FP8 效果并不差,足够用。下载后,放在 comfyui\\models\\clip 文件夹中。 GitHub 仓库:https://github.com/blackforestlabs/flux 百度网盘链接:https://pan.baidu.com/s/1VPQedispwtR29kDrhGR10A?pwd=4iwj 低显存方案(8G 以下):ComfyUI BitsandBytes_NF4 Flux 模型解决显卡显存是 6 8G 的,FLUX 的运行,使用下载慢的可以从网盘里下(上面百度网盘里也有)。模型与工作流地址:https://pan.quark.cn/s/2797ea47f691 ,工作流在 ComfyUI 里的使用。 此外,在 AI 图像生成中,“diffusion”(扩散)通常指的是一类生成模型,称为扩散模型(Diffusion Models)。这类模型通过逐步引入噪声到数据中,并训练网络学习逆向过程来生成数据。扩散模型在图像生成领域中应用广泛,特别是在文本到图像的生成任务中表现出色。扩散模型的工作原理可以概括为以下几个步骤: 1. 正向扩散过程:向图像逐渐添加高斯噪声,直到图像完全无法识别,这个过程可以被形式化为顺序扩散马尔可夫链。 2. 潜空间表示:将图像压缩到低维的潜在空间(Latent Space)中,以减少计算量和提高生成速度。 3. 学习逆向过程:训练一个神经网络来预测每一步中噪声的分布,并逐步去除噪声,从而恢复出清晰的图像。 4. 文本到图像的生成:结合文本编码器和图像解码器,根据文本描述生成相应的图像。扩散模型的关键优势在于其生成高质量的图像的能力,以及相比其他生成模型(如 GANs)在计算效率和稳定性上的优势。Stable Diffusion 等模型就是基于扩散模型的文本到图像生成工具,它们能够根据文本提示生成逼真的图像。
2024-08-19
AI可以做什么工作
AI 可以从事以下工作: 1. 写作相关: 草拟各类文稿的初稿,如博客文章、论文、宣传材料、演讲、讲座、剧本、短篇小说等。 帮助改进已有的文本内容,提供不同风格的草稿。 协助完成写作任务,如写邮件、创建销售模板、提供商业计划的下一步等。 2. 汽车行业: 自动驾驶技术:进行图像识别、传感器数据分析和决策制定,实现汽车自主导航和驾驶。 车辆安全系统:增强车辆的安全性能,如自动紧急制动、车道保持辅助和盲点检测等。 个性化用户体验:根据驾驶员的偏好和习惯调整车辆设置。 预测性维护:分析车辆实时数据,预测潜在故障和维护需求。 生产自动化:用于汽车制造过程中的自动化生产线,提高生产效率和质量控制。 销售和市场分析。 3. 处理文档和数据: 利用 GPT4 模式的代码解释器上传文件,编写和运行代码,并下载结果。 执行程序、运行数据分析,创建各种文件、网页甚至游戏。
2024-08-19
文生图现在最好用的产品
目前比较好用的文生图产品有以下几种: 1. Artguru AI Art Generator:这是一个在线平台,能够生成逼真图像,为设计师提供灵感,丰富创作过程。 2. Retrato:一款 AI 工具,可将图片转换为非凡肖像,拥有 500 多种风格选择,适合制作个性头像。 3. Stable Diffusion Reimagine:新型 AI 工具,通过稳定扩散算法生成精细、具有细节的全新视觉作品。 4. Barbie Selfie Generator:专为喜欢梦幻童话风格的人设计的 AI 工具,能将上传的照片转换为芭比风格,效果出色。 此外,腾讯混元大模型的文生图能力已嵌入腾讯广告等部分应用类产品中,受到用户的广泛肯定。 在国内的工具中,阿里的通义万相在文生图方面生图效果还可以,但不稳定,画面时好时坏;提示词有难度,文字理解能力较弱;每日有 50 灵感值限制出图次数,不过有相似图像生成和图像风格迁移这两个实用功能。相比之下,字节的 Dreamina 有很多惊喜,基本功能实用,如扩图和消除笔;可以直接用自然语言出图,理解到位,对新手友好;导入参考图的方式多样;目前文生图限时免费,没有出图次数限制。 需要注意的是,这些 AI 模型通过组合技术如扩散模型、大型视觉转换器等,可以根据文本或参考图像生成具有创意且质量不错的相似图像输出,但仍有一些局限,如偶尔会出现性能不稳定、生成内容不当等问题。
2024-08-19
aigc成功的商业案例有哪些
以下是一些 AIGC 成功的商业案例: 自媒体人通过 AIGC 实现商业变现的方式包括: AI 绘图十二生肖。 为化妆品公司进行产品设计。 产品包装设计。 海报设计。 游戏背景设计。 儿童绘本。 AI 漫画。 PFP 头像设计。 AI 图片+视频:徐悲鸿教育系列 AI 内容。 AIGC+地方文旅。 重庆美术馆数字人。 长沙美仑美术馆数字人。 玛莎拉蒂汽车宣传片。 用 AIGC 制作爆款短视频,如 Runway Gen1、郑钦文澳网比赛 AI 处理等。 在广告营销行业,大模型是应用最多的业务场景之一,能参与从初期的市场分析、中期的客户转化到后期的客户复购的全过程,为消费者提供更个性化、智能化和互动性强的营销体验,还能通过 AI+设计相关的 SOP 提高广告图案生成的效率,降低内容制作成本并加速创意实现。 在游戏行业,如网易推出的首款 AI 手游《逆水寒》,将 AIGC 应用于美术开发,在 NPC 与玩家的交互上呈现独特剧情体验,而非仅限于预设脚本,能降低成本、打造创新玩法和提供更好游戏体验。
2024-08-19
AI画图,局部修改
以下是关于 AI 画图局部修改的相关内容: 在 Stable Diffusion 中,局部重绘功能具有很大的实用性和可操作性。 每次绘图生成都会重新调整整个画面,但局部重绘可以只改变涂抹的部分。例如,将人物头部涂抹掉,修改文字提示为“一个粉色头发的女孩的脸”并点击生成,就可以换掉头部。使用局部重绘(手涂蒙版)修改帽子部分,增加提示词“猫耳”再点击生成。还可以将图片再次放入以图生图中,通过 DeepBooru 反推关键词,并使用新的大模型和 LORA 进行重新生成,改变图片风格。不过,目前的图可能存在细节瑕疵,需要不断调整参数,后期借助 PS 修补。 在 Tusiart 中,文生图的操作流程包括:定主题,确定生成图片的主题、风格和表达信息;选择基础模型 Checkpoint,找内容贴近的模型,如麦橘、墨幽的系列模型;选择 lora,寻找内容重叠的 lora 控制图片效果及质量;ControlNet 用于控制图片中特定图像,如人物姿态、生成特定文字等,属于高阶技能;设置 VAE 可无脑选择 840000;Prompt 提示词用英文写需求,用单词和短语组合,无需管语法和长句。 对比 Midjourney 和 Stable Diffusion,Stable Diffusion 在根据意愿调整方面拥有更大自由度和更稳定的可控性。例如,使用“lofi”大模型绘制人物形象,加入特定提示词和负面 Embedding 来优化效果。然后将图发送到图生图,点击“局部重绘”,用画笔涂抹需要调整的部分(蒙版),在正向提示词里添加相应内容增加权重,如,适当增加重绘幅度点击生成,即可完成修改。
2024-08-19
LSTM是什么?
长短期记忆(LSTM)是一种用于解决递归神经网络中梯度消失问题的方法,于 1997 年被提出。 LSTM 单元使用具有自连接的线性单元,其恒定权重为 1.0。这使得流入该自循环单元的值(前向传递)或梯度(后向传递)可以无限期地保留,以便在最需要的时间可以准确地检索该值或梯度。这种自我循环单元,即存储单元,提供了一种可以存储过去数十个时间步长的信息的存储器。这对于许多任务来说非常强大,例如对于文本数据,LSTM 单元可以存储前一段中包含的信息并将该信息应用于当前段落中的句子。 此外,深度网络中的一个常见问题是“梯度消失”问题,即梯度逐层变得越来越小,直至太小而无法影响最深层。借助 LSTM 中的存储单元,我们拥有连续的梯度流(误差保持其值),从而消除了梯度消失问题,并能够从数百个时间步长的序列中进行学习。 另一个门通过将存储单元的输出乘以 0(无输出)和 1(保留输出)之间的数字来操纵存储单元的输出。如果多个记忆相互竞争,这个门可能会很有用。 LSTM 单元的连接乍一看可能有点复杂,您需要一些时间来理解它。然而,如果将所有部分隔离开来,会发现该结构本质上与普通循环神经网络相同,其中输入和循环权重流向所有门,而这些门又反过来连接到自循环存储单元。 为了更深入地研究 LSTM 并理解整个架构,建议阅读。
2024-08-19
因此在prompt中,把query放到头部和尾部,同时根据相似度,把相似度大的文档放到context的两端,是什么意思,要如何做到
在开发产品视角的大模型 RAG 应用的 Prompt 阶段,匹配出与问句向量最相似的 top k 个 chunk 后,将匹配出的文本和问句添加到配置好的 prompt 中提交给 LLM。在这个过程中,根据论文《Lost in the Middle:How Language Models Use Long Contexts》,由于大模型对上下文中间位置的知识点提取较差,所以把 query(即问句)放到 prompt 的头部和尾部,同时按照相似度,将相似度大的文档放置在 context(上下文)的两端,这样做能够提升回答效果。要做到这一点,需要在进行 prompt 工程时,选择最合适的 prompt 模板,并按照上述原则对 query 和相似度大的文档进行合理的位置安排。
2024-08-19
免费好用的AI工具有哪些
以下为一些免费好用的 AI 工具: 思维导图相关: GitMind:免费跨平台,支持多种模式,可通过 AI 自动生成思维导图。 ProcessOn:国内思维导图+AIGC 工具,能利用 AI 生成思维导图。 AmyMind:轻量级在线,无需注册登录,支持自动生成节点。 Xmind Copilot:基于 GPT 的助手,可一键拓展思路,生成文章大纲。 TreeMind:输入需求由 AI 自动完成思维导图生成。 EdrawMind:提供 AI 工具,包括头脑风暴功能。 营销领域: Synthesia:可创建 AI 生成的高质量视频,多种定价计划,用于制作营销视频等。 HeyGen:云平台,可从头像库选择生成数字人视频。 Jasper AI:写作助手,生成营销文案等,多种语气风格选择。 Copy.ai:生成营销文案、社交媒体帖子等,有免费和付费计划。 Writesonic:专注营销内容创作,多种语气和行业定制选项。 AI 视频软件: Runway:有网页和 app,方便。 haiper:免费。 SVD:有免费额度,对景观更好用。 Pika:收费,可控性强,可对嘴型、配音。 PixVerse:免费,人少不排队,有换脸功能。 Dreamina:剪映旗下,动作幅度有升级。 Neverends:2 次免费体验,操作傻瓜。 Leiapix:免费,可把照片转动态。 请注意,以上内容由 AI 大模型生成,请仔细甄别。更多相关工具可查看 WaytoAGI 网站:https://www.waytoagi.com/sites?tag=8 。
2024-08-19
小红书文案最好的ai软件
以下是一些关于小红书文案的 AI 软件及相关信息: 小红书文案专家 BOT:见过多个爆款文案,只需输入网页或视频链接,就能生成对应的小红书文案,辅助创作者生成可一键复制发布的初稿,提供创意和内容,10 倍节约文字内容创作时间。应用链接:https://www.coze.cn/s/ij5C6LWd/ 小红书正在其主 App 中内测一款名为“Davinci”的 AI 应用,能为用户提供智能问答等 AI 聊天服务,包括旅游攻略、美食攻略、地理文化常识、生活技巧、个人成长和心理建设等。 此外,还有一些相关的学习资源: 《》,共 12 章,涵盖生成式人工智能原理和应用程序开发的关键方面。 《》,作者为腾讯 NLP 算法工程师九号,尝试通过压缩 prompt 更有效率地使用模型的 context。 《》,作者乐谷说,介绍了一种受艾宾浩斯遗忘曲线理论启发的新型系统架构,可让 AI 实现长期记忆并不断更新,提供更人性化、具互动性的体验。
2024-08-19
SD和MJ出图的效果怎么样?
SD(Stable Diffusion)和 MJ(Midjourney)出图效果各有特点: 初步生成方面:DALLE 3 具有强大的文本识别能力,能快速生成符合意图的画面;MJ 则通过垫图功能(Sref 和iw 组合)确保图像风格一致。 图像优化方面:对于 DALLE 3 和 MJ 跑不出来的图,SD 可用于图像的细节处理,尤其是局部重绘,如调整人物手部细节。 角色原画设计方面:相较于 SD,MJ 能生成更多样、更具设计感的角色设计,不受制于特定模型风格。使用 Midjourney + Stable Diffusion 混合模式进行原画设计,有两到三次的 Prompt 调整空间,能运用 SD Controlnet 的各种功能对设计细节进行更多更细致的调节,可产出更合理的结构、更丰富的细节,效率极高,在合适条件下一个完整方案产出示例不超过十五分钟,还能极大避免 Midjourney 可能造成的版权争议和信息泄露风险。 模型表现方面:在 UI 设计的图标类型中,SDXL 的训练素材可能较久远,表现不如 MJ。Stability AI 称 SDXL 能识字,能还原文字内容,但字形和图像效果不如 MJ。您可以在使用 SDXL 的 API 构建内容。
2024-08-19