Chat with Wiki - 多模图生文评测集

Answer

以下是关于多模图生文评测集的相关信息：

为全面比较 Kolors 与其他模型的生成能力，构建了包含人工评估、机器评估的全面评测内容。构建了包含 14 种垂类、12 个挑战项、总数量为一千多个 prompt 的文生图评估集 KolorsPrompts。在 KolorsPrompts 上，收集了 Kolors 与市面上常见的 SOTA 级别的开源/闭源系统的文生图结果，并进行了人工评测和机器评测。
- 人工评测方面，邀请了 50 个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估，衡量维度为画面质量、图文相关性、整体满意度三个方面。Kolors 在整体满意度方面处于最优水平，其中画面质量显著领先其他模型。具体的平均分数如下：
  - Adobe-Firefly：整体满意度平均分 3.03，画面质量平均分 3.46，图文相关性平均分 3.84。
  - Stable Diffusion 3：整体满意度平均分 3.26，画面质量平均分 3.5，图文相关性平均分 4.2。
  - DALL-E 3：整体满意度平均分 3.32，画面质量平均分 3.54，图文相关性平均分 4.22。
  - Midjourney-v5：整体满意度平均分 3.32，画面质量平均分 3.68，图文相关性平均分 4.02。
  - Playground-v2.5：整体满意度平均分 3.37，画面质量平均分 3.73，图文相关性平均分 4.04。
  - Midjourney-v6：整体满意度平均分 3.58，画面质量平均分 3.92，图文相关性平均分 4.18。
  - Kolors：整体满意度平均分 3.59，画面质量平均分 3.99，图文相关性平均分 4.17。所有模型结果取自 2024.04 的产品版本。
Kolors 开源模型相关：
- 2024.07.03，Kolors 在智源研究院FlagEval 多模态文生图评测中取得第二名，其中中文主观质量、英文主观质量两个单项排名第一。
- 2024.07.02，祝贺，可图项目组提出的可控视频生成方法DragAnything:Motion Control for Anything using Entity Representation被 ECCV 2024 接收。
- 2024.02.08，祝贺，可图项目组提出的生成模型评估方法Learning Multi-dimensional Human Preference for Text-to-Image Generation被 CVPR 2024 接收。
多模态大模型入门指南：
- 训练过程：
  - 预训练阶段：通常利用 X-Text 的数据集，来训练输入、输出的 Projector。通过优化损失函数来实现不同模态的对齐。PEFT 有时候用于 LLM Backbone。X-文本数据集包含图像-文本、视频-文本和音频-文本，其中图像-文本有两种类型：图像-文本对（即<img1><txt1>）和交错图像-文本语料库（即，txt1><img1><txt2><txt3><img2><txt4>）。这些 X-Text 数据集的详细统计数据如附录 F 的表 3 所示。
  - 多模态微调：对满足指令微调格式的一系列数据集对预训练好的多模态大模型进行微调。通过这种微调，MM-LLM 可以遵循新的指令泛化到没有见过的任务，增强 zero-shot 的能力。MM IT 包括监督微调（SFT）和 RLHF 两部分，目的是为了使得模型符合人类的意图或者偏好，并且增强 MMLLMs 的交互能力。SFT 将 PT 阶段的数据转换为指令-aware 的格式，使用 QA 任务作为例子。可以采用各种模板。优化目标和预训练相同，SFT 数据可以构造为单轮的 QA 或者多轮的 QA。常用的 SFT 和 RLHF 的数据集见表 4。

Content generated by AI large model, please carefully verify (powered by aily)

References

为了全面比较Kolors与其他模型的生成能力，我们构建了包含人工评估、机器评估的全面评测内容。在相关基准评测中，Kolors具有非常有竞争力的表现，达到业界领先水平。我们构建了一个包含14种垂类，12个挑战项，总数量为一千多个prompt的文生图评估集KolorsPrompts。在KolorsPrompts上，我们收集了Kolors与市面上常见的SOTA级别的开源/闭源系统的文生图结果，并进行了人工评测和机器评测。[heading3]人工评测[content]我们邀请了50个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估，为生成图像打分，衡量维度为：画面质量、图文相关性、整体满意度三个方面。Kolors在整体满意度方面处于最优水平，其中画面质量显著领先其他模型。|模型|整体满意度平均分|画面质量平均分|图文相关性平均分||-|-|-|-||Adobe-Firefly|3.03|3.46|3.84||Stable Diffusion 3|3.26|3.5|4.2||DALL-E 3|3.32|3.54|4.22||Midjourney-v5|3.32|3.68|4.02||Playground-v2.5|3.37|3.73|4.04||Midjourney-v6|3.58|3.92|4.18||Kolors|3.59|3.99|4.17|所有模型结果取自2024.04的产品版本

工具教程：Kolors 开源模型

2024.07.03 ? Kolors在智源研究院[FlagEval多模态文生图](https://flageval.baai.ac.cn/#/leaderboard/multimodal?kind=t2i)评测中取得第二名，其中中文主观质量、英文主观质量两个单项排名第一。2024.07.02 ?祝贺，可图项目组提出的可控视频生成方法[DragAnything:Motion Control for Anything using Entity Representation](https://arxiv.org/abs/2403.07420)被ECCV 2024接收。2024.02.08 ?祝贺，可图项目组提出的生成模型评估方法[Learning Multi-dimensional Human Preference for Text-to-Image Generation](https://wangbohan97.github.io/MPS/)被CVPR 2024接收。

多模态大模型入门指南-长文慎入【持续更新】

在预训练阶段，通常利用X-Text的数据集，来训练输入，输出的Projector。通过优化损失函数来实现不同模态的对齐。PEFT有时候用于LLM Backbone。X-文本数据集包含图像-文本、视频-文本和音频-文本，其中图像-文本有两种类型：图像-文本对（即<img1><txt1>）和交错图像-文本语料库（即，txt1><img1><txt2><txt3><img2><txt4>）。这些X-Text数据集的详细统计数据如附录F的表3所示。[heading3]3.2多模态微调：[content]多模态微调是对满足指令微调格式的一系列数据集对预训练好的多模态大模型进行微调。通过这种微调，MM-LLM是可以遵循新的指令泛化到没有见过的任务，增强zero-shot的能力。这个简单而有影响力的概念促进了NLP领域后续努力的成功，例如，InstructGPT、OPT-IML、InstructBLIP。MM IT包括监督微调（SFT）和RLHF两部分，目的是为了使得模型符合人类的意图或者偏好，并且增强MMLLMs的交互能力。SFT将PT阶段的额数据转换为指令-aware的格式，使用QA任务作为例子。可以采用各种模板，例如：(1)<Image>{Question}A short answer to the question is;(2)<Image>Examine the image and respond to the following question with a brief answer:{Question}.Answer:优化目标和预训练是相同的，SFT数据可以构造为单论的QA或者多伦的QA。常用的SFT和RLHF的数据集见表4。