与知识库对话

以下是关于大模型相关硬件的知识介绍：运行大模型需要较高的机器配置，不同类型的大模型有不同的硬件要求。生成文字大模型：最低配置：8G RAM + 4G VRAM 建议配置：16G RAM + 8G VRAM 理想配置：32G RAM + 24G VRAM（如果要跑 GPT3.5 差不多性能的大模型）生成图片大模型（比如跑 SD）：最低配置：16G RAM + 4G VRAM 建议配置：32G RAM + 12G VRAM 生成音频大模型：最低配置：8G VRAM 建议配置：24G VRAM 需要注意的是，最低配置可能运行速度非常慢。大模型的整体架构可以分为以下几层： 1. 基础层：为大模型提供硬件支撑，数据支持等，例如 A100、数据服务器等等。 2. 数据层：这里的数据层指的不是用于基层模型训练的数据基集，而是企业根据自己的特性，维护的垂域数据。分为静态的知识库，和动态的三方数据集。 3. 模型层：包括 LLm 或多模态模型。LLm 即 largelanguagemodel 大语言模型，例如 GPT，一般使用 transformer 算法来实现。多模态模型即市面上的文生图、图生图等的模型，训练所用的数据与 llm 不同，用的是图文或声音等多模态的数据集。 4. 平台层：模型与应用间的平台部分，比如大模型的评测体系，或者 langchain 平台等，提供模型与应用间的组成部分。 5. 表现层：也就是应用层，是用户实际看到的地方。通俗来讲，大模型就是输入大量语料，来让计算机获得类似人类的“思考”能力，使之能够理解自然语言，能够进行『文本生成』、『推理问答』、『对话』、『文档摘要』等工作。其训练和使用过程可以类比为“上学参加工作”： 1. 找学校：训练 LLM 需要大量的计算，因此 GPU 更合适，只有购买得起大量 GPU 的才有资本训练自己的大模型。 2. 确定教材：大模型需要的数据量特别多，几千亿序列（Token）的输入基本是标配。 3. 找老师：即用什么样的算法讲述“书本”中的内容，让大模型能够更好理解 Token 之间的关系。 4. 就业指导：学完书本中的知识后，为了让大模型能够更好胜任某一行业，需要进行微调（fine tuning）指导。 5. 搬砖：就业指导完成后，下面就要正式干活了，比如进行一次翻译、问答等，在大模型里称之为推导（infer）。在 LLM 中，Token 被视为模型处理和生成的文本单位。它们可以代表单个字符、单词、子单词，甚至更大的语言单位，具体取决于所使用的分词方法（Tokenization）。Token 是原始文本数据与 LLM 可以使用的数字表示之间的桥梁。在将输入进行分词时，会对其进行数字化，形成一个词汇表。