多模态模型是指能够处理和融合多种不同模态信息的模型,例如视觉和语言双模态。以下为您介绍一些相关的多模态模型:
CogAgent18B:这是基于 CogVLM17B 改进的开源视觉语言模型,拥有 110 亿视觉参数和 70 亿语言参数,支持 11201120 分辨率的图像理解,在 CogVLM 功能基础上具备 GUI 图像的 Agent 能力。代码链接:。
CogVLM17B:强大的开源视觉语言模型(VLM),基于对视觉和语言信息之间融合的理解,能在不牺牲任何 NLP 任务性能的情况下,实现视觉语言特征的深度融合,是目前多模态权威学术榜单上综合成绩第一的模型,在 14 个数据集上取得了 stateoftheart 或者第二名的成绩。代码链接:。
Visualglm6B:开源的支持图像、中文和英文的多模态对话语言模型,语言模型基于。
RDM(Relay Diffusion Model):级联扩散模型,可以从任意给定分辨率的图像快速生成,而无需从白噪声生成。代码链接:。
Gemini 模型本身也是多模态的,其展示了无缝结合跨模态能力的独特能力,例如从表格、图表或图形中提取信息和空间布局,以及语言模型的强大推理能力,在识别输入中的细微细节、在空间和时间上聚合上下文,以及在一系列视频帧和/或音频输入上应用这些能力方面也表现出强大的性能。下面的部分提供了对模型在不同模态(图像、视频和音频)上的更详细评估,以及模型在图像生成和跨不同模态的信息组合能力方面的定性示例。
2025-01-06