与知识库对话

以下是从 0 到 1 学习大模型知识的相关内容：什么是大模型：通俗来讲，大模型是输入大量语料，让计算机获得类似人类的“思考”能力，能进行文本生成、推理问答、对话、文档摘要等工作。可以用“上学参加工作”来类比大模型的训练和使用过程： 1. 找学校：训练大模型需要大量计算，GPU 更合适，只有购买得起大量 GPU 的才有资本训练自己的大模型。 2. 确定教材：大模型需要大量数据，几千亿序列（Token）的输入基本是标配。 3. 找老师：用合适算法让大模型更好理解 Token 之间的关系。 4. 就业指导：为让大模型更好胜任某一行业，需要进行微调（fine tuning）指导。 5. 搬砖：就业指导完成后，正式干活，比如进行翻译、问答等，在大模型里称之为推导（infer）。在 LLM 中，Token 被视为模型处理和生成的文本单位，会对输入进行数字化形成词汇表。大模型如何运作：打个比方，“我今天吃了狮子头和蔬菜”这句话，在 transformer 中，会由 attention 层对其加入更多信息补充，如“狮子头是一道菜”“今天是星期六”等，这些补充信息会作为输入给到下一个 attention 层，最终哪些信息补充、保留、传递由模型自主学习。层与层之间就像人阅读文章时的连贯性注意力过程，大模型以词向量和 transformer 模型学习海量知识，把知识作为向量空间中的关系网存储，接受输入时通过向量空间中的匹配进行输出。这个过程像人脑阅读学习，记忆的不是逐字逐句，而是按相关性、重要程度结合历史经验，比如看到红色会觉得代表温暖、强烈。大模型的整体架构：从整体分层角度，大模型架构可分为以下几层： 1. 基础层：为大模型提供硬件支撑、数据支持，如 A100、数据服务器等。 2. 数据层：分为静态的知识库和动态的三方数据集，不是用于基层模型训练的数据基集，而是企业根据自身特性维护的垂域数据。 3. 模型层：包括 LLm（largelanguagemodel，如 GPT，一般使用 transformer 算法实现）或多模态模型（如文生图、图生图等，训练数据与 llm 不同，用图文或声音等多模态数据集）。 4. 平台层：如大模型的评测体系或 langchain 平台等，提供模型与应用间的组成部分。 5. 表现层：即应用层，是用户实际看到的地方。