知識ベースとの対話

以下是一些常用的多模态大模型： 1. InstructBLIP：基于预训练的BLIP2模型进行训练，在MM IT期间仅更新QFormer。通过引入指令感知的视觉特征提取和相应的指令，能够提取灵活多样的特征。 2. PandaGPT：是一种开创性的通用模型，能够理解6种不同模式的指令并根据指令采取行动，包括文本、图像/视频、音频、热、深度和惯性测量单位。 3. PaLIX：使用混合VL目标和单峰目标进行训练，包括前缀完成和屏蔽令牌完成。这种方法对于下游任务结果和在微调设置中实现帕累托前沿都是有效的。 4. VideoLLaMA：引入了多分支跨模式PT框架，使LLMs能够在与人类对话的同时处理给定视频的视觉和音频内容，使视觉与语言以及音频与语言保持一致。 5. 视频聊天GPT：专门为视频对话设计的模型，能够通过集成时空视觉表示来生成有关视频的讨论。 6. Shikra：Chen等人介绍了一种简单且统一的预训练MMLLM，专为参考对话（涉及图像中区域和对象的讨论的任务）而定制，展示了值得称赞的泛化能力，可以有效处理看不见的设置。 7. DLP：提出PFormer来预测理想提示，并在单模态句子数据集上进行训练，展示了单模态训练增强MM学习的可行性。 8. BuboGPT：通过学习共享语义空间构建，用于全面理解MM内容，探索不同模式之间的细粒度关系。 9. ChatSpot：引入了一种简单而有效的方法来微调MMLLM的精确引用指令，促进细粒度的交互。 10. QwenVL：多语言MMLLM，支持英文和中文，还允许在训练阶段输入多个图像，提高其理解视觉上下文的能力。 11. NExTGPT：端到端、通用的anytoany MMLLM，支持图像、视频、音频、文本的自由输入输出，采用轻量级对齐策略。 12. MiniGPT5：集成了生成voken的反演以及与稳定扩散的集成，擅长为MM生成执行交错VL输出，在训练阶段加入无分类器指导可以提高生成质量。 13. Flamingo：代表了一系列视觉语言模型，旨在处理交错的视觉数据和文本，生成自由格式的文本作为输出。 14. BLIP2：引入了资源效率更高的框架，包括用于弥补模态差距的轻量级QFormer，实现对冻结LLMs的充分利用，利用LLMs可以使用自然语言提示进行零样本图像到文本的生成。 15. LLaVA：率先将IT技术应用到MM领域，引入了使用ChatGPT/GPT4创建的新型开源MM指令跟踪数据集以及MM指令跟踪基准LLaVABench。 16. MiniGPT4：提出了一种简化的方法，仅训练一个线性层即可将预训练的视觉编码器与LLM对齐，能够复制GPT4所展示的功能。 17. mPLUGOwl：提出了一种新颖的MMLLMs模块化训练框架，结合了视觉上下文，包含一个名为OwlEval的教学评估数据集。 18. XLLM：扩展到包括音频在内的各种模式，并表现出强大的可扩展性。利用QFormer的语言可迁移性，成功应用于汉藏语境。 19. VideoChat：开创了一种高效的以聊天为中心的MMLLM用于视频理解对话，为该领域的未来研究制定标准，并为学术界和工业界提供协议。