目前,在文生图领域,有几个表现较为出色的模型:
其中,Kolors 可以说是目前主流的文生图训练技巧都用上了,而腾讯混元大模型在中文语义理解和某些特定场景的生成方面有其优势。
Kolors可以说是最近开源的文生图模型中最给力的一个了。从技术报告来看,改进也是很全面的,更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的noise schedule解决高分辨率图加噪不彻底的问题。可以说是目前主流的文生图训练技巧都用上了,实测效果也确实很不错。在看到Kling视频生成的强大表现,不得不让人赞叹快手的技术实力。
最强大的中文文生图模型——可图kolors,快手开源的文生图模型。在LLM大模型的加持下展示出超强的语义理解能力,支持中文输入!!支持图片直出中文!!出图效果很不错!!!三、共创作品
各位朋友:欢迎成为腾讯混元大模型文生图的体验用户。腾讯混元的模型能力仍在不断升级中,诚邀大家一起优化产品。此外,由于本次是小范围体验,麻烦各位关注下列方向:1、AI文生图能力对prompt提示词撰写的精细度与准确度要求较高,建议大家可以反复细化、调整、优化prompt,实现你的想法;2、AI大模型每次生成的内容具有不确定性,生成结结果未达到100%可控生成,比如同时输入多个实体,可能不会都生成出来;颜色和数量可能未必匹配;同样的prompt提示词未必每次生成的回答或图片都一样,建议多次尝试;3、此次为小范围体验,混元文生图主要的优势能力在于(1)生成照片的真实感较强,包括人像、场景与自然景观,可生成长城等中国著名景观、旅游与风景等广告场景中多见的需求;(2)由于混元是中文原生模型(中英双语建模),对中文的语义理解比较强,比如可以画出符合古诗词描述的诗句;(3)混元文生图生成的图片风格多样、美观,具体可以参加示例。欢迎大家重点关注。4、中远景人脸生成目前仍是业界难题,混元大模型也在不断优化中,可能会出现抖动。