大模型的结构和训练方式如下:
整体架构:
基础层:为大模型提供硬件支撑和数据支持,例如 A100、数据服务器等。
数据层:包括静态的知识库和动态的三方数据集。
模型层:分为 LLm(大语言模型,如 GPT,一般使用 transformer 算法实现)和多模态模型(如文生图、图生图等模型,训练数据为图文或声音等多模态数据集)。
平台层:如大模型的评测体系或 langchain 平台等,提供模型与应用间的组成部分。
表现层:即应用层,是用户实际看到的地方。
训练方式:
收集海量数据:如研究人员会收集互联网上的文章、书籍、维基百科条目、社交媒体帖子等各种文本数据。
预处理数据:包括删除垃圾信息、纠正拼写错误、将文本分割成易于处理的片段等。
设计模型架构:通常是一个复杂的神经网络,如可能会使用 Transformer 架构。
训练模型:模型反复阅读数据,尝试预测句子中的下一个词,通过不断重复逐渐学会理解和生成人类语言。
此外,大模型的特点包括预训练数据量大(往往来自互联网,包括论文、代码、公开网页等,一般用 TB 级别的数据进行预训练)和参数多(如 Open 在 2020 年发布的 GPT3 就已达到 170B 的参数)。模型架构方面,有 encoderonly(适用于自然语言理解任务,代表模型是 BERT)、encoderdecoder(同时结合 Transformer 架构的 encoder 和 decoder 来理解和生成内容,代表是 google 的 T5)、decoderonly(更擅长自然语言生成任务,众多 AI 助手采用此结构)。
2024-12-13