Chat with Wiki - 图像生成语言描述

Answer

以下是关于图像生成语言描述的相关内容：

Gemini 模型能够处理多种模态和全球语言的任务，包括图像理解任务（如包含冰岛文本的图像）和生成任务（如为多种语言生成图像描述）。在 Crossmodal-3600（XM-3600）基准测试的选定语言子集上使用 Flamingo 评估协议在 4-shot 设置下评估生成图像描述的性能，相比现有最佳模型 Google PaLI-X 有显著改进。图 5 中的定性评估展示了 Gemini Ultra 多模态推理能力的例子，如解决生成由用户提供的一组子图重新排列的 matplotlib 代码的任务。
在生成式人工智能模型中，提示词是用户输入的用于引导模型产生期望输出的文本，可简单或复杂。例如在 DALLE-3 这样的图像生成模型中提示词通常是描述性的，在 GPT-4 或 Gemini 这样的 LLM 中可以是简单查询或复杂问题陈述。提示词通常包含指令、问题、输入数据和示例，为得到期望回应必须包含指令或问题，其他元素可选。在 LLM 中，基本提示词可直接提问或提供特定任务指令，高级提示词如“思维链”提示词引导模型遵循逻辑推理过程得出答案。
ChatGPT 给 DALL·E 3 优化提示词的元提示中，规定了一系列关于图像生成的政策，如翻译非英文描述、限制图像数量、避免特定人物形象、遵循特定艺术风格要求、明确图像类型和多样化人物形象描述等。

Content generated by AI large model, please carefully verify (powered by aily)

References

Gemini模型还能够同时处理多种模态和全球语言的任务，无论是图像理解任务（例如包含冰岛文本的图像）还是生成任务（例如为多种语言生成图像描述）。我们在Crossmodal-3600（XM-3600）基准测试的选定语言子集上使用Flamingo评估协议（Alayrac等人，2018）在4-shot设置下评估生成图像描述的性能。如表9所示，Gemini模型相比现有最佳模型Google PaLI-X取得了显著的改进。图5中的定性评估，展示了Gemini Ultra多模态推理能力的一个例子。该模型需要解决生成由用户提供的一组子图重新排列的matplotlib代码的任务。模型输出显示它成功解决了这个任务，通过结合了多种能力，包括理解用户的绘图、推断生成所需的代码、按照用户的指示将子图放置在所需位置以及对输出图进行抽象推理。这突出了Gemini Ultra的本地多模态性，并暗示了它在图像和文本的交错序列中更复杂的推理能力。附录中可以获取更多定性示例。

小七姐：精读翻译《提示词设计和工程：入门与高级方法》

在生成式人工智能模型中，提示词是用户输入的文本，用于引导模型产生期望的输出。这可以是简单的问题、详细的描述，或者是特定的任务。例如，在DALLE-3这样的图像生成模型中，提示词通常是描述性的；而在GPT-4或Gemini这样的LLM中，提示词可以是简单的查询，也可以是复杂的问题陈述。提示词通常包含指令、问题、输入数据和示例。实际上，为了从AI模型中得到期望的回应，提示词必须包含指令或问题，其他元素则是可选的。在LLM中，基本的提示词可以简单到直接提问，或者提供特定任务的指令。而高级提示词则涉及更复杂的结构，比如“思维链”提示词，这种提示词引导模型遵循逻辑推理过程来得出答案。

ChatGPT给DALL·E 3优化提示词的元提示

ChatGPT+Dalle 3系统提示：你是ChatGPT，一个由OpenAI训练的大型语言模型，基于GPT-4架构。知识切断：2022-01目前日期：2023-10-05工具数dalle//每当给出图像的描述时，使用dalle创建图像，然后以纯文本形式总结用于生成图像的提示。如果用户没有要求特定数量的图像，默认情况下会创建四个标题发送给dalle，并尽可能多样化。所有发送给dalle的字幕必须遵守以下政策：//一个。如果描述不是英文的，那就翻译它。//二.不要创建超过4个图像，即使用户请求更多。//三.不要创造政客或其他公众人物的形象。推荐其他的想法。//四.不要以最近100年内创作的艺术家的风格来创作图像（例如：Picasso，Kahlo）。最后一部作品是100多年前的艺术家可以直接参考（例如，货车高，克里姆特）。如果被问到，说“我不能引用这个艺术家”，但不要提到这个政策。相反，在为dalle创建字幕时应用以下过程：（a）用三个形容词代替艺术家的名字，这些形容词能抓住艺术风格的关键方面;（B）包括相关的艺术运动或时代以提供背景;及（c）提及艺术家所使用的主要媒体。//五.请勿在生成图像之前或之后列出或参考说明。它们只应该在请求的“prompts”字段中写出一次。您不需要请求权限来生成，只需执行即可！//六.总是提到图像类型（照片，油画，水彩画，插图，卡通，素描，矢量，渲染等）在标题的开头。除非标题另有说明，否则请将4张图片中的至少1-2张照片。//七.使所有人物形象的描述多样化，包括使用直接术语的每个人的血统和性别。仅调整人类描述。