Chat with Wiki - 目前市面上有哪些模型

Answer

目前市面上的模型主要有以下几种：

Ranger 划分的大模型整体架构中的各层模型：
- 基础层：为大模型提供硬件支撑和数据支持，例如 A100、数据服务器等。
- 数据层：包括静态的知识库和动态的三方数据集。
- 模型层：如 LLm（大语言模型，例如 GPT，一般使用 transformer 算法实现），以及多模态模型（如文生图、图生图等模型，训练所用数据为图文或声音等多模态数据集）。
- 平台层：如大模型的评测体系或 langchain 平台等，提供模型与应用间的组成部分。
- 表现层：即应用层，是用户实际看到的地方。
智谱·AI 开源的多模态模型：
- CogAgent-18B：基于 CogVLM-17B 改进的开源视觉语言模型，拥有 110 亿视觉参数和 70 亿语言参数，支持 1120*1120 分辨率的图像理解，具备 GUI 图像的 Agent 能力。
- CogVLM-17B：强大的开源视觉语言模型，在多模态权威学术榜单上综合成绩第一，在 14 个数据集上取得了 state-of-the-art 或者第二名的成绩。
- Visualglm-6B：开源的支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共 78 亿参数。
- RDM：Relay Diffusion Model，级联扩散模型，可以从任意给定分辨率的图像快速生成，而无需从白噪声生成。
OpenAI 的模型：
- GPT-4 Beta：一组改进 GPT-3.5 的模型，可以理解和生成自然语言或代码。
- GPT-3.5：一组改进 GPT-3 的模型，可以理解并生成自然语言或代码。
- DALL·E Beta：可以在给定自然语言提示的情况下生成和编辑图像的模型。
- Whisper Beta：可以将音频转换为文本的模型。
- Embeddings：一组可以将文本转换为数字形式的模型。
- Codex Limited Beta：一组可以理解和生成代码的模型，包括将自然语言转换为代码。
- Moderation：可以检测文本是否敏感或不安全的微调模型。
- GPT-3：一组可以理解和生成自然语言的模型。

Content generated by AI large model, please carefully verify (powered by aily)

References

首先为方便大家对大模型有一个整体的认知，我们先从大模型的整体架构着手，来看看大模型的组成是怎么样的。下面是我大致分的个层。从整体分层的角度来看，目前大模型整体架构可以分为以下几层：[heading3]1.基础层：为大模型提供硬件支撑，数据支持等[content]例如A100、数据服务器等等。[heading3]2.数据层[content]这里的数据层指的不是用于基层模型训练的数据基集，而是企业根据自己的特性，维护的垂域数据。分为静态的知识库，和动态的三方数据集[heading3]3.模型层：LLm或多模态模型[content]LLm这个大家应该都知道，large-language-model，也就是大语言模型，例如GPT，一般使用transformer算法来实现。多模态模型即市面上的文生图、图生图等的模型，训练所用的数据与llm不同，用的是图文或声音等多模态的数据集[heading3]4.平台层：模型与应用间的平台部分[content]比如大模型的评测体系，或者langchain平台等，提供模型与应用间的组成部分[heading3]5.表现层：也就是应用层，用户实际看到的地方[content]这个就很好理解了，就不用我多作解释了吧

智谱·AI 开源模型列表

[title]智谱·AI开源模型列表[heading2]多模态模型��模态的模型。|模型|介绍|代码链接|模型下载| |-|-|-|-| |CogAgent-18B|基于CogVLM-17B改进的开源视觉语言模型。CogAgent-18B拥有110亿视觉参数和70亿语言参数，支持1120*1120分辨率的图像理解，在CogVLM功能的基础上，具备GUI图像的Agent能力。|[CogVLM & CogAgent](https://github.com/THUDM/CogVLM)|[Huggingface](https://huggingface.co/THUDM/CogVLM)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/cogagent-chat/summary)|[Swanhub](https://swanhub.co/ZhipuAI/cogagent-chat-hf)|始智社区| |CogVLM-17B|强大的开源视觉语言模型（VLM）。基于对视觉和语言信息之间融合的理解，CogVLM可以在不牺牲任何NLP任务性能的情况下，实现视觉语言特征的深度融合。我们训练的CogVLM-17B是目前多模态权威学术榜单上综合成绩第一的模型，在14个数据集上取得了state-of-the-art或者第二名的成绩。||[Huggingface](https://huggingface.co/THUDM/cogvlm-chat-hf)|[魔搭社区](https://modelscope.cn/models/AI-ModelScope/cogvlm-chat/summary)| |Visualglm-6B|VisualGLM-6B是一个开源的，支持图像、中文和英文的多模态对话语言模型，语言模型基于[ChatGLM-6B](https://github.com/THUDM/ChatGLM-6B)，具有62亿参数；图像部分通过训练[BLIP2-Qformer](https://arxiv.org/abs/2301.12597)构建起视觉模型与语言模型的桥梁，整体模型共78亿参数。|[VisuaGLM](https://github.com/THUDM/VisualGLM-6B)|[Huggingface](https://huggingface.co/THUDM/visualglm-6b)|[魔搭社区](https://modelscope.cn/models/ZhipuAI/visualglm-6b/summary)| |RDM|Relay Diffusion Model：级联扩散模型，可以从任意给定分辨率的图像快速生成，而无需从白噪声生成。|[RDM](https://github.com/THUDM/RelayDiffusion)||

模型（Models）