Kolors可以说是最近开源的文生图模型中最给力的一个了。从技术报告来看,改进也是很全面的,更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的noise schedule解决高分辨率图加噪不彻底的问题。可以说是目前主流的文生图训练技巧都用上了,实测效果也确实很不错。在看到Kling视频生成的强大表现,不得不让人赞叹快手的技术实力。
顾名思义就是用一段文字生成3D模型,仅需1步[Tripo文生教程.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/Qe0YbxHvNoGjQKxIUHkcHuHBnXc?allow_redirect=1)在「Create」界面底部的输入框中,可以输入自己的提示词(此处不支持中文哦)。不会写提示词的伙伴也不用担心,点击输入框左侧的</>按钮可以随机生成提示词并自动填入输出入框中。提示词填写好以后,点击右侧的「Create」来生成3D模型。每次会生成4个基础模型,如果不满意,可以点击最下方白色的「Retry」按钮,重新生成4个基础模型。如果有满意的模型,只需要点击单个模型下方黄色的「Refine」,就可以精修此模型了。在「My Models」中可以看到精修进度,一般5 min左右就可以完成。[heading1]四、图生3D模型[content]顾名思义就是用一张图片生成3D模型,仅需1步[Tripo图生教程.mp4](https://bytedance.feishu.cn/space/api/box/stream/download/all/IBmxbag9Ho8zARxvcRWcKxRKnif?allow_redirect=1)点击输入框右侧的图标,可以上传图片来生成3D模型。图生3D一次只会生成一个基础模型,同样支持Retry重生成和Refine精修。至于效果嘛,自己体验吧。
定主题:你需要生成一张什么主题、什么风格、表达什么信息的图。选择基础模型Checkpoint:按照你需要的主题,找内容贴近的checkpoint。一般我喜欢用模型大佬麦橘、墨幽的系列模型,比如说麦橘写实、麦橘男团、墨幽人造人等等,效果拔群。选择lora:在你想要生成的内容基础上,寻找内容重叠的lora,帮助你控制图片效果及质量。可以多看看广场上做得好看的帖子里面,他们都在用什么lora。ControlNet:控制图片中一些特定的图像,可以用于控制人物姿态,或者是生成特定文字、艺术化二维码等等。也是高阶技能,后面再学不迟。局部重绘:下篇再教,这里不急。设置VAE:无脑选择前面提到的840000这个即可。Prompt提示词:用英文写你想要AI生成的内容,不用管语法也不要写长句,仅使用单词和短语的组合去表达你的需求。单词、短语之间用英文半角逗号隔开即可。负向提示词Negative Prompt:用英文写你想要AI避免产生的内容,也是一样不用管语法,只需单词和短语组合,中间用英文半角逗号隔开。采样算法:这玩意儿还挺复杂的,现在我一般选DPM++ 2M Karras比较多。当然,最稳妥的是留意checkpoint的详情页上,模型作者是否有推荐采样器,使用他们推荐的采样器会更有保障。采样次数:要根据你采样器的特征来,一般我选了DPM++ 2M Karras之后,采样次数在30~40之间,多了意义不大还慢,少了出图效果差。尺寸:看你喜欢,看你需求。