Navigate to WaytoAGI Wiki →

Home/Question List/Question Detail

flux大模型训练

Answer

以下是关于 Flux 大模型训练的相关内容：

Flux 的 Lora 模型训练：

准备工作：需要下载几个模型，如 t5xxl_fp16.safetensors、clip_l.safetensors、ae.safetensors、flux1-dev.safetensors。不使用的模型放置位置不限，但要清楚其“路径”，后续训练会引用到。
模型选择：训练时，模型建议使用 flux1-dev.safetensors 版本，编码器使用 t5xxl_fp16.safetensors 版本。

Flux 模型的参数量比较：

Flux 的参数训练量达到了 12B（120 亿），支持自然语言。
与其他模型相比，如 8 月 6 日智谱发布的开源视频模型 CogVideoX-2B 为 2B，8 月 28 日智谱最新开源的视频模型为 5B。相比之下，Flux 一出现就占据极重要影响。同时，SD3 Large 的训练参数为 8B（80 亿），SD3 Medium 的训练参数为 2B（20 亿）。

Content generated by AI large model, please carefully verify (powered by aily)

References

Flux的Lora模型训练

大家好，上次讲了Flux简介，我们这次来讲讲Flux的Lora训练首先你要确保你已经正确安装使用了Flux的各个模块~~哈哈，开个玩笑，其实不用安装使用也是可以训练的~但是你要把当时需要的几个模型下载下来：t5xxl_fp16.safetensorsclip_l.safetensorsae.safetensorsflux1-dev.safetensors

Flux的Lora模型训练

注意：你不使用的话他们放到哪里都可以，甚至放一起一个文件夹，只要你知道“路径”，我们后面要引用到“路径”因为是训练，不是跑图，跑图我们可以寻求降低方案，训练的话，哈哈模型就用flux1-dev.safetensors这个版本，编码器也用t5xxl_fp16.safetensors这个版本最好。

工具教程：Flux

Flux的参数训练量达到了12B，且语言支持自然语言。12B我们类比一下8月6日的智谱发布的开源视频模型CogVideoX-2B，开源的是2B的一个模型，所以模型的视频推理结果不如快手的可灵。8月28日智谱最新开源了5B的视频模型。视频还在5B，由此可见图像12B确实是一个高度（开源里面）所以Flux一出现就占据极重要影响。Flux：训练参数12B（120亿）SD3 Large：训练参数8B（80亿）SD3 Medium：训练参数2B（20亿）

Others are asking

开源flux模型如何快速使用

以下是关于开源 Flux 模型快速使用的方法： 1. 模型的下载：如果因为环境问题，可以在网盘中下载。 siglipso400mpatch14384（视觉模型）：siglip 由 Google 开发的视觉特征提取模型，负责理解和编码图像内容。工作流程包括接收输入图像、分析图像的视觉内容并将这些视觉信息编码成一组特征向量。打开 ComfyUI\models\clip，在地址栏输入 CMD 回车，打开命令行，输入下面的命令拉取模型（也可以在网盘里下载）。 image_adapter.pt（适配器）：连接视觉模型和语言模型，优化数据转换。工作流程包括接收来自视觉模型的特征向量、转换和调整这些特征，使其适合语言模型处理。通过 https://huggingface.co/spaces/fancyfeast/joycaptionprealpha/tree/main/wpkklhc6 下载，放到 models 的 Joy_caption 文件夹里，如果该文件夹不存在，就新建一个。 MetaLlama3.18Bbnb4bit（语言模型）：大型语言模型，负责生成文本描述。工作流程包括接收经过适配器处理的特征、基于这些特征生成相应的文本描述、应用语言知识来确保描述的连贯性和准确性。打开 ComfyUI\models\LLM，地址栏输入 CMD 回车，在命令行里面输入下面命令。 2. 下载地址： ae.safetensors 和 flux1dev.safetensors 下载地址：https://huggingface.co/blackforestlabs/FLUX.1dev/tree/main 。准备了夸克和百度的网盘链接，方便部分同学下载： flux 相关模型（体积较大）的夸克网盘链接：https://pan.quark.cn/s/b5e01255608b 。 flux 相关模型（体积较大）的百度网盘链接：https://pan.baidu.com/s/1mCucHrsfRo5SttW03ei0g?pwd=ub9h 提取码：ub9h 。如果 GPU 性能不足、显存不够，底模可以使用 fp8 的量化版模型，速度会快很多，下载地址：https://huggingface.co/Kijai/fluxfp8/tree/main 。 3. 工作流下载：最后我们再下载 dev 的工作流：。或者下面官方原版的图片链接，图片导入 comfyUI 就是工作流：https://comfyanonymous.github.io/ComfyUI_examples/flux/flux_dev_example.png 。我们打开 ComfyUI，把工作流或图片拖拽到 ComfyUI 里。

我现在是学了一段时间的comfyui+flux，接下来准备学Python开发comfyui节点、对接模型，这样学下去方向有没有问题呢

您学习 ComfyUI 和 Flux 一段时间后准备学习 Python 开发 ComfyUI 节点并对接模型，这个方向是可行的。以下是一些相关的知识和要点供您参考：工作流方面：工作流节点可直接拖动单个节点到任意位置，也可按住 Control 键并用鼠标左键滑框选中多个节点，再按 Shift 键一起拖动。选中节点后右键新建组，可修改组名、颜色等，组被覆盖时可直接拖动组。选中节点后右键选择对齐方式，如顶部对齐、左边对齐等。第三方节点的安装方式包括在 customer NODE manager 中安装、在 GitHub 上复制链接安装、通过终端输入指令安装、在秋叶启动器的版本管理中安装。可通过 group by Parser 节点控制组，也可通过按住节点按 control b 跳过或按 control m 终止执行。模型方面：噪声强度由种子调节，种子固定噪声分布方式，噪声与 CLIP 无关，增大噪声设置值会增强模型对图片重绘的程度。模型版本的提示词差异：1.5 以 tag 为主，XL 论文称以自然语言为主，但实际使用中因模型微调情况可能仍需用 tag。 Flux 模型有时生成黑图，可能有修复方案，需自行查询。图像生成结果为空，可能是 VAE 编码器与大模型未连接，调整连接后问题解决。安装方面：自动打标 joy_caption 副本的节点安装地址为 D:\\ComfyUI\\ComfyUI_windows_portable\\ComfyUI\\custom_nodes。安装步骤包括：（Comfyui evn python.exe）python m pip install rrequirements.txt 或点击 install_req.bat，注意 transformers 版本不能太低。下载模型或者运行 ComfyUI 自动下载模型到合适文件夹，如从 https://huggingface.co/unsloth/MetaLlama3.18Bbnb4bit 下载并放到 Models/LLM/MetaLlama3.18Bbnb4bit 文件夹内。新版的 PuLID 解决了模型污染的问题，使用新版的节点需要禁用或者删除之前的 PuLID 节点，不然可能会有冲突问题。模型放在 ComfyUI\\models\\pulid 文件夹里面，注意用新版的。如果使用 PuLID，还需要安装 EVA CLIP 等模型。

flux lora训练

以下是关于 Flux 的 Lora 模型训练的详细步骤：模型准备： 1. 下载所需模型，包括 t5xxl_fp16.safetensors、clip_l.safetensors、ae.safetensors、flux1dev.safetensors。注意：不使用时存放位置随意，只要知晓路径即可。训练时建议使用 flux1dev.safetensors 版本的模型和 t5xxl_fp16.safetensors 版本的编码器。下载脚本： 1. 网盘链接：夸克网盘链接：https://pan.quark.cn/s/ddf85bb2ac59 百度网盘链接：https://pan.baidu.com/s/1pBHPYpQxgTCcbsKYgBi_MQ?pwd=pfsq 提取码：pfsq 安装虚拟环境： 1. 下载完脚本并解压。 2. 在文件中找到 installcnqinglong.ps1 文件，右键选择“使用 PowerShell 运行”。 3. 新手在此点击“Y”，然后等待 1 2 小时的下载过程，完成后提示是否下载 hunyuan 模型，选择 n 不用下载。数据集准备： 1. 进入厚德云模型训练数据集：https://portal.houdeyun.cn/sd/dataset 2. 创建数据集：在数据集一栏中，点击右上角创建数据集。输入数据集名称。可以上传包含图片 + 标签 txt 的 zip 文件，也可以上传只有图片的文件（之后可在 c 站使用自动打标功能），或者一张一张单独上传照片。 Zip 文件里图片名称与标签文件应当匹配，例如：图片名“1.png”，对应的达标文件就叫“1.txt”。上传 zip 以后等待一段时间，确认创建数据集，返回到上一个页面，等待一段时间后上传成功，可点击详情检查，预览数据集的图片以及对应的标签。 Lora 训练： 1. 点击 Flux，基础模型会默认是 FLUX 1.0D 版本。 2. 选择数据集，点击右侧箭头，选择上传过的数据集。 3. 触发词可有可无，取决于数据集是否有触发词。 4. 模型效果预览提示词则随机抽取一个数据集中的标签填入。 5. 训练参数可调节重复次数与训练轮数，厚德云会自动计算训练步数。若不知如何设置，可默认 20 重复次数和 10 轮训练轮数。 6. 按需求选择是否加速，点击开始训练，会显示所需要消耗的算力。 7. 等待训练，会显示预览时间和进度条。训练完成会显示每一轮的预览图。 8. 鼠标悬浮到想要的轮次模型，中间会有个生图，点击会自动跳转到使用此 lora 生图的界面。点击下方的下载按钮则会自动下载到本地。数据集存放位置：.Flux_train_20.4\\train\\qinglong\\train 运行训练：约 1 2 小时即可训练完成。验证和 lora 跑图：有 ComfyUI 基础的话，直接在原版工作流的模型后面，多加一个 LoraloaderModelOnly 的节点就可以，自行选择 Lora 和调节参数。

flux ae.sft放在哪个文件夹

在 ComfyUI 中，flux ae.sft 应放在 ComfyUI/models/vae/ 文件夹下。 Flux 模型在 ComfyUI 中的使用，需要将相关模型放在对应的目录下。具体来说，t5xxl_fp16.safetensors 放在 ComfyUI/models/clip/ 目录下，clip_l.safetensors 放在 ComfyUI/models/clip/ 目录下，ae.safetensors 放在 ComfyUI/models/vae/ 目录下，flux1dev.safetensors 放在 ComfyUI/models/unet/ 目录下。flux1dev.safetensors 是底模，ae.safetensors 是 VAE，clip_l.safetensors 和 t5xxl_fp16.safetensors 是关于文字语言编码。

ERROR: Could not detect model type of: D:\AIruanjian\AIRUANJIAN\ComfyUI-aki(1)\ComfyUI-aki-v1.6\ComfyUI\models\checkpoints\flux1-dev-fp8.safetensors

很抱歉，根据您提供的错误信息“ERROR: Could not detect model type of: D:\AIruanjian\AIRUANJIAN\ComfyUIaki\ComfyUIakiv1.6\ComfyUI\models\checkpoints\flux1devfp8.safetensors”，暂时无法明确具体的问题原因。可能是模型文件格式不被识别，或者文件路径存在错误等。建议您检查文件的完整性和正确性，确保其符合相关软件的要求。

midjourney_whisper_flux_lora_v01

以下是关于您提到的“midjourney_whisper_flux_lora_v01”的相关信息： 1. XLabsAI 发布了 6 个不同的 Lora，包括 Midjourney 风格、写实风格、动漫风格、迪斯尼风格、风景风格等，并提供了相应示例。 2. 文生图模型排序（从高到低）：Imagen 3 真实感满分，指令遵从强；Recraft 真实感强，风格泛化很好，指令遵从较好（会受风格影响）；Midjourney 风格化强，艺术感在线，但会失真，指令遵从较差；快手可图影视场景能用，风格化较差；Flux.1.1 真实感强，需要搭配 Lora 使用；文生图大模型 V2.1L（美感版）影视感强，但会有点油腻，细节不够，容易糊脸；Luma 影视感强，但风格单一，糊；美图奇想 5.0 AI 油腻感重；腾讯混元 AI 油腻感重，影视感弱，空间结构不准；SD 3.5 Large 崩。 3. 指定 AI 生图里的文字，有 9 种解决方案，其中 2 种快过时了。包括 Midjourney（v6 版本开始支持文字效果，主要支持英文，中文支持有限）、Ideogram（以图片嵌入文字能力闻名，2.0 模型能力得到进一步加强，支持复杂文本和多种艺术风格，文字与图像能够自然融合，支持英文，中文提示词可自动翻译为英文）、Recraft（V3 开始支持文本渲染能力，是目前唯一能在图像中生成长文本的模型，支持精确的文本位置控制，支持图像编辑功能，支持矢量图生成，支持英文，中文渲染能力较弱）、Flux（FLUX.1 是一款高质量的开源图像生成模型，支持复杂指令，支持文本渲染，支持图像编辑，生成图像的质量很高，主要支持英文）。

大模型的系统提示词

大模型的系统提示词主要包括以下方面： 1. 在“五津：一键生成‘摸鱼打工猫’视频”中，针对用户选择的主题和回答，总结用户的创作意图，如“打工猫摸鱼的 2 小时，在巴厘岛能看一场日落”，并根据此生成 4 组体现幽默风趣、以宫崎骏风格描绘主角为摸秋刀鱼橘猫的绘图提示词，以数组形式输出到“tishici”，将用户意图输出到“biaoti”。 2. 在“云中江树：智能对决：提示词攻防中的 AI 安全博弈”中，系统提示词的相关防御措施分为输入侧、模型侧和输出侧三个部分。输入侧可进行意图识别、语义匹配等综合判断用户输入是否恶意；模型侧对于有能力的厂商应增强安全性并平衡性能，开发者则要在开发中带着安全意识优化系统提示词，加入安全引导和禁止内容等；输出侧可使用传统防御和内容过滤手段，并针对大模型特点进行私有数据泄露等检查。此外，还提到间接注入和提示词泄露的情况，间接注入常发生在应用获取依赖外部数据资源时，攻击者通过隐藏恶意指令完成攻击；提示词泄露指试图操纵模型输出获取部分或全部系统提示词，大模型输出内容可分为系统提示词、用户提示和助手提示词三段，通过攻击手段可获取系统提示词。

通义千问Qwen2.5-VL、阶跃星辰step-1.5v-mini、Gemini-2.0-Flash，这3个视觉理解大模型哪个最厉害？

以下是对通义千问 Qwen2.5VL 模型的介绍：版本：有 3B、7B 和 72B 三个尺寸版本。主要优势：视觉理解能力：在 13 项权威评测中夺得视觉理解冠军，全面超越 GPT4o 与 Claude3.5。视频理解能力：支持超 1 小时的视频理解，无需微调即可变身为 AI 视觉智能体，实现多步骤复杂操作。万物识别：擅长识别常见物体及分析图像中的文本、图表、图标、图形和布局。精准的视觉定位：采用矩形框和点的多样化方式对通用物体定位，支持层级化定位和规范的 JSON 格式输出。全面的文字识别和理解：提升 OCR 识别能力，增强多场景、多语言和多方向的文本识别和文本定位能力。 Qwen 特色文档解析：设计了更全面的文档解析格式，称为 QwenVL HTML 格式，能够精准还原文档中的版面布局。增强的视频理解：引入动态帧率（FPS）训练和绝对时间编码技术，支持小时级别的超长视频理解，具备秒级的事件定位能力。开源平台： Huggingface：https://huggingface.co/collections/Qwen/qwen25vl6795ffac22b334a837c0f9a5 Modelscope：https://modelscope.cn/collections/Qwen25VL58fbb5d31f1d47 Qwen Chat：https://chat.qwenlm.ai 然而，对于阶跃星辰 step1.5vmini 和 Gemini2.0Flash 模型，目前提供的信息中未包含其与通义千问 Qwen2.5VL 模型的直接对比内容，因此无法确切判断哪个模型在视觉理解方面最厉害。但从通义千问 Qwen2.5VL 模型的上述特点来看，其在视觉理解方面具有较强的能力和优势。

目前全世界最厉害的对视频视觉理解能力大模型是哪个

目前在视频视觉理解能力方面表现出色的大模型有： 1. 昆仑万维的 SkyReelsV1：它不仅支持文生视频、图生视频，还是开源视频生成模型中参数最大的支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其具有影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等优势。 2. 通义千问的 Qwen2.5VL：在 13 项权威评测中夺得视觉理解冠军，全面超越 GPT4o 与 Claude3.5。支持超 1 小时的视频理解，无需微调即可变身为 AI 视觉智能体，实现多步骤复杂操作。擅长万物识别，能分析图像中的文本、图表、图标、图形和布局等。

目前全世界最厉害的视频视觉理解大模型是哪个

目前全世界较为厉害的视频视觉理解大模型有以下几个： 1. 昆仑万维的 SkyReelsV1：不仅支持文生视频、图生视频，是开源视频生成模型中参数最大且支持图生视频的模型。在同等分辨率下各项指标实现开源 SOTA。其优势包括影视化表情识别体系、人物空间位置感知、行为意图理解、表演场景理解等。 2. 腾讯的混元：语义理解能力出色，能精准还原复杂的场景和动作，如特定品种的猫在复杂场景中的运动轨迹、从奔跑到跳跃的动作转换、琴音化作七彩音符等。 3. Pixverse V3.5：全球最快的 AI 视频生成模型，Turbo 模式下可在 10 秒内生成视频，最快仅需 5 6 秒。支持运动控制更加稳定、细节表现力强、首尾帧生成功能，具备顶尖动漫生成能力。

目前全世界最厉害的视觉理解大模型是哪个

目前在视觉理解大模型方面，较为突出的有 DeepSeek 的 JanusPro 模型，它将图像理解和生成统一在一个模型中；还有通义千问的视觉理解模型，其价格有较大降幅。此外，Pixverse V3.5 是全球最快的 AI 视频生成模型，在某些方面也展现出了出色的能力。但很难确切地指出全世界最厉害的视觉理解大模型，因为这取决于不同的评估标准和应用场景。

大模型对话产品的优劣

大模型对话产品具有以下优点： 1. 具有强大的语言理解和生成能力。 2. 能够提供类似恋爱般令人上头的体验，具有一定的“想象力”和“取悦能力”。 3. 可以通过陪聊建立人和 AI 之间的感情连接，产品粘性不完全依赖技术优越性。 4. 能够为用户提供产品咨询服务，适用于有企业官网、钉钉、微信等渠道的客户。 5. 具有多种应用场景，如私有领域知识问答、个性化聊天机器人、智能助手等。大模型对话产品也存在一些缺点： 1. 存在记忆混乱的问题。 2. AI 无法主动推动剧情，全靠用户脑补，导致用户上头期短，疲劳度高，长期留存低。 3. 无法回答私有领域问题（如公司制度、人员信息等）。 4. 无法及时获取最新信息（如实时天气、比赛结果等）。 5. 无法准确回答专业问题（如复杂数学计算、图像生成等）。

这个网站的作用是什么？是通过这个网站更好的使用训练AI吗？

WaytoAGI 网站具有以下功能： 1. 和 AI 知识库对话：您可以在此询问任何关于 AI 的问题。 2. AI 网站：集合了精选的 AI 网站，可按需求找到适合您的工具。 3. AI 提示词：集合了精选的提示词，能复制到 AI 对话网站使用。 4. 知识库精选：将每天知识库的精华内容呈现给大家。总之，WaytoAGI 网站和 WaytoAGI 知识库相互独立又有关联，希望成为您学习 AI 路上的好助手。

想自学ai训练师推荐哪个视频去学习

以下是为您推荐的自学 AI 训练师的视频： 1. 3 月 26 日｜自由讨论｜离谱视频切磋大会猫先生介绍自己的背景和擅长领域 AI 学习与实践的重要性 AI 交流会：分享项目经验和技能讨论比赛规则和资源分配 AI 工具学习与合作广州 AI 训练师叶轻衣分享使用 AI 工具的经验和想法组队提升工作效率 AI 技术在 3D 动画制作中的应用与优势链接：https://waytoagi.feishu.cn/minutes/obcnc915891t51l64uyonvp2?t=0 2. AI 大神 Karpathy 再发 LLM 入门介绍视频神经网络训练的目标：训练神经网络的目标是让模型学习 token 在序列中彼此跟随的统计关系，即预测给定上下文（token 序列）后，下一个最有可能出现的 token。 Token 窗口：训练时，模型从数据集中随机抽取固定长度的 token 窗口（例如 8000 个 token）作为输入。神经网络的输入与输出：输入为 Token 序列（上下文），输出为预测下一个 token 的概率分布，词汇表中每个 token 都有一个概率值。随机初始化与迭代更新：神经网络初始参数是随机的，预测也是随机的。训练过程通过迭代更新参数，调整预测结果，使其与训练数据中的统计模式相匹配。损失函数与优化：训练过程使用损失函数来衡量模型预测与真实 token 的差距。优化算法（如梯度下降）用于调整参数，最小化损失函数，提高预测准确率。神经网络内部结构：Transformer 包含注意力机制和多层感知器等组件，能够有效地处理序列数据并捕捉 token 之间的复杂关系。链接：无

想自学ai训练师

如果您想自学成为 AI 训练师，以下是一些相关的知识和建议：一、AI 训练的基本概念训练是指通过大数据训练出一个复杂的神经网络模型。这需要使用大量标记过的数据来训练相应的系统，使其能够适应特定的功能。训练过程需要较高的计算性能，能够处理海量的数据，并具有一定的通用性，以便完成各种各样的学习任务。二、相关领域的知识 1. 机器学习：机器学习是人工智能的一个分支，是实现人工智能的途径之一，涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。 2. 自然语言处理：自然语言（NLP）认知和理解是让电脑把输入的语言变成有意思的符号和关系，然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言，是人工智能和语言学领域的分支学科。三、学习资源和实践您可以参考以下的一些资源和实践方式： 1. 参加相关的线上交流会，例如 3 月 26 日的自由讨论活动，其中会分享项目经验、技能以及使用 AI 工具的经验和想法。 2. 了解一些健身的 AI 产品，如 Keep（https://keep.com/）、Fiture（https://www.fiture.com/）、Fitness AI（https://www.fitnessai.com/）、Planfit（https://planfit.ai/）等，虽然这些主要是健身领域的应用，但也能帮助您了解 AI 在不同场景中的应用和创新。请注意，以上内容由 AI 大模型生成，请仔细甄别。

怎么用把AI训练成自己的东西？

要将 AI 训练成自己的东西，可以参考以下方法： 1. 像马斯克提到的，对于公开的推文数据可以合理使用，但不能使用私人的东西进行训练。同时，要注重数据的质量和使用方式，高质量的数据对于训练效果至关重要。 2. 张梦飞的方法中，例如部署 LLama Factory 时，需要添加选中“identity”数据集，将训练轮数改成 15 等，并通过一系列操作进行训练和测试。但需要注意的是，训练大模型是复杂的过程，数据集和训练参数都会影响最终效果，需要反复调试和深入学习实践。 3. 在写作方面，我们可以根据自身需求选择人类驱动为主，利用 AI 进行修改完善，或者先由 AI 生成内容再进行修改以符合自己的风格。

如何训练一个AI 阅读教练

训练一个 AI 可以类比为培养一位职场新人，主要包括以下三个阶段： 1. 规划阶段：明确目标确定 AI 的具体任务，比如结构化外文精读等。将任务拆解为可管理的子任务。设计每个子任务的执行方法。 2. 实施阶段：实战指导搭建工作流程。为每个子任务设置清晰的操作指南。像指导新员工一样，手把手引导 AI 完成任务，并及时验证其输出质量。 3. 优化阶段：持续改进通过反复测试和调整，不断优化 AI 的性能。调整工作流程和 Prompt 配置，直到 AI 能稳定输出高质量的结果。当前大模型在处理多步骤复杂任务时存在明显局限，比如在“数据分析图表、剧情游戏”或“本文结构化外文精读”等任务中，仅依靠单一 Prompt 指令难以稳定执行，现阶段的 AI 更像缺乏独立解决问题能力的职场新人，需要遵循指引和给定的流程才能完成特定任务。如果您已经完全了解上述内容，不妨自己设定一个任务目标，动手构建一个专属于自己的 AI 。

模型训练的基本名词和方法

以下是关于模型训练的基本名词和方法的介绍：基本名词： 1. 过拟合&欠拟合：过拟合和欠拟合都是不好的现象，需要加以控制以让模型达到理想效果。解决方法包括调整训练集、正则化和训练参数等，过拟合可减少训练集素材量，欠拟合则增加训练集素材量。 2. 泛化性：泛化性不好的模型难以适应其他风格和多样的创作。可通过跑 lora 模型生图测试判断泛化性，解决办法与过拟合和欠拟合类似，从训练集、正则化、训练参数等方面调整。 3. 正则化：是解决过拟合和欠拟合情况、提高泛化性的手段，给模型加规则和约束，限制优化参数，有效防止过拟合，提高模型适应不同情况的表现和泛化性。方法： 1. 全面充分采集训练素材：例如在角色训练素材中，应包含各种角度、表情、光线等情况的素材，确保模型具有较好泛化性。 2. 图像预处理：对训练素材进行分辨率调整、裁切操作，并对训练集进行打标签处理。 3. 参数调优：尽量将训练时长控制在半小时左右，过长易导致过拟合，通过调整参数控制时长。 4. 观察学习曲线：通过观察学习曲线来调整训练素材和参数。 5. 过拟合&欠拟合处理：测试训练好的模型，观察过拟合和欠拟合问题，进一步通过调整训练素材和正则化等手段优化。此外，在模型训练中还需注意： 1. 数据集获取渠道：可通过网上收集、购买、使用无版权问题的如古画等，原则是根据生成图的需求找对应数据集，要清晰、主体元素干净、风格统一。 2. 数据集处理：包括基础处理如裁剪保证清晰和分辨率，更重要的是写标注。 3. 设置模型触发词：可自定义，完整形式可以是一句话，建议以王 flags 模型为主。 4. 统一标注风格与应用场景：例如未来高科技 3D 天然风格，用于互联网首页图像等，并概括主题内容、描述物体特征等。 5. 利用 GPT 辅助描述并人工审核：让 GPT 按要求描述，人工审核修改。 6. 模型训练的准备与流程：完成数据集描述后进入训练流程，选择模型训练分类和数据集，创建并上传数据集压缩包，注意数据名与图片命名一致。选择训练模式和参数，新手选用普通基础模式，训练集质量重要，训练参数中总步数与训练集图片数量相关，触发词设定要避免概念混乱。