大模型下的数据生产和应用主要包括以下方面:
整体架构:
基础层:为大模型提供硬件支撑和数据支持,例如 A100、数据服务器等。
数据层:包括企业根据自身特性维护的静态知识库和动态的三方数据集。
模型层:如 LLm(大语言模型),一般使用 Transformer 算法实现,还有多模态模型,如文生图、图生图等,其训练数据与 LLm 不同,为图文或声音等多模态数据集。
平台层:如大模型的评测体系或 langchain 平台等,是模型与应用间的组成部分。
表现层:即应用层,是用户实际看到的地方。
模型特点:
预训练数据量大,往往来自互联网上的论文、代码、公开网页等,通常以 TB 级别计。
参数众多,如 Open 在 2020 年发布的 GPT3 已达 170B 的参数。
架构方面,目前常见的大模型多为右侧只使用 Decoder 的 Decoderonly 架构,如 ChatGPT 等。
工作流程:
训练过程类似于上学参加工作,包括找学校(需要大量 GPU 等硬件支持)、确定教材(需要大量数据)、找老师(选择合适算法)、就业指导(微调)、搬砖(推导)。
在 LLM 中,Token 被视为模型处理和生成的文本单位,输入文本会被分割并数字化形成词汇表。
2024-10-30