以下是关于图生文评测集的相关内容:
为全面比较 Kolors 与其他模型的生成能力,构建了包含人工评估、机器评估的全面评测内容。在相关基准评测中,Kolors 表现有竞争力,达业界领先水平。构建了包含 14 种垂类、12 个挑战项、总数量一千多个 prompt 的文生图评估集 KolorsPrompts。在 KolorsPrompts 上,收集了 Kolors 与常见 SOTA 级别开源/闭源系统的文生图结果,并进行人工评测和机器评测。
人工评测方面,邀请 50 个具有图像领域知识的专业评估人员对不同模型生成结果对比评估,衡量维度为画面质量、图文相关性、整体满意度。Kolors 在整体满意度方面最优,画面质量显著领先其他模型。具体平均分如下: |模型|整体满意度平均分|画面质量平均分|图文相关性平均分| |-|-|-|-| |Adobe-Firefly|3.03|3.46|3.84| |Stable Diffusion 3|3.26|3.5|4.2| |DALL-E 3|3.32|3.54|4.22| |Midjourney-v5|3.32|3.68|4.02| |Playground-v2.5|3.37|3.73|4.04| |Midjourney-v6|3.58|3.92|4.18| |Kolors|3.59|3.99|4.17|
此外,还有关于 Vidu 大家测试和 Tusiart 简易上手教程的相关信息:
Vidu 全球上线,注册即刻体验。Web 端访问:https://www.vidu.studio/ ,具有极速生成(实测 30 秒最快推理速度)、动漫风格、角色可控、精准理解、大片质感等特点。同时提供了“文生视频”“图生视频(用作起始帧)”“参考人物角色生成视频”的使用指南及相关视频链接。
Tusiart 简易上手教程中,文生图的相关要点包括:提示词相关性(数字在 5 - 15 之间为宜)、随机种子、ADetailer(面部修复插件)、CLIP skip(设成 2 )。
为了全面比较Kolors与其他模型的生成能力,我们构建了包含人工评估、机器评估的全面评测内容。在相关基准评测中,Kolors具有非常有竞争力的表现,达到业界领先水平。我们构建了一个包含14种垂类,12个挑战项,总数量为一千多个prompt的文生图评估集KolorsPrompts。在KolorsPrompts上,我们收集了Kolors与市面上常见的SOTA级别的开源/闭源系统的文生图结果,并进行了人工评测和机器评测。[heading3]人工评测[content]我们邀请了50个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估,为生成图像打分,衡量维度为:画面质量、图文相关性、整体满意度三个方面。Kolors在整体满意度方面处于最优水平,其中画面质量显著领先其他模型。|模型|整体满意度平均分|画面质量平均分|图文相关性平均分||-|-|-|-||Adobe-Firefly|3.03|3.46|3.84||Stable Diffusion 3|3.26|3.5|4.2||DALL-E 3|3.32|3.54|4.22||Midjourney-v5|3.32|3.68|4.02||Playground-v2.5|3.37|3.73|4.04||Midjourney-v6|3.58|3.92|4.18||Kolors|3.59|3.99|4.17|所有模型结果取自2024.04的产品版本
? Vidu全球上线|注册即刻体验? Web端访问:https://www.vidu.studio/⚡️极速生成,实测30秒最快推理速度?动漫风格,万物皆可二次元??角色可控,任意场景、任何动作,角色保持一致?精准理解,镜头、文字、动作,理解更准、生成更稳?大片质感,影视级画面和特效一键直出? Vidu一下,想象跃然眼前~[heading1][Vidu提示词指南](https://pkocx4o26p.feishu.cn/docx/M4[heading1]如何使用“文生视频”?[content][文生.mov](https://bytedance.feishu.cn/space/api/box/stream/download/all/NsCXbzJr4o71E9x7knRckeFmnIe?allow_redirect=1)[heading1]如何使用“图生视频(用作起始帧)”?[content][图生-1.mov](https://bytedance.feishu.cn/space/api/box/stream/download/all/RMCjbWU6NoRccjxJYJncijzSnXb?allow_redirect=1)[heading1]如何使用“参考人物角色生成视频”?[content][图生-2.mov](https://bytedance.feishu.cn/space/api/box/stream/download/all/YFfQbRdw9oCKGXxfvrNcQD6unHf?allow_redirect=1)
提示词相关性:指图像与用户输入prompt的匹配程度。数字越大,图像就越接近你的提示。但数字过高会让图像质量下降。在5~15之间为好,我看其他人一般用7,9,12。随机种子:生成的每张图都有随机种子,在固定好种子以后,可以对图片进行“控制变量”效果的操作,比如说修改提示词、修改clip跳过层等等。ADetailer:面部修复插件,预防或解决脸部崩坏的超强小工具,高阶操作后面再学,没事勾上也OK。CLIP skip:设成2就行。