Chat with Wiki - 如何理解GPT

Answer

生成式预训练是机器学习领域由来已久的概念。2017 年 Google 推出 Transformer 模型后，出现了如 BERT 和 XLNet 这样的大型语言模型。2018 年，OpenAI 发表了名为《通过生成式预训练提高语言理解能力》的文章，首次介绍了基于转换器的生成式预训练模型（GPT）系统，即“GPT-1”。

生成式指的是大模型根据已有的输入为基础，不断计算生成下一个字词（token），从而逐字完成回答的过程。例如，一开始给大模型一些提示词，如“How”，大模型会结合自身知识计算推理，输出“are”接在“How”后面，然后在已知“How are”的情况下，再次推理计算输出“You”，如此重复，直到计算出下一个词是“[end of text]”的概率最大，结束输出。

截至 2023 年，大多数 LLM 都具备这些特征，并广泛被称为 GPT。大模型通常拥有庞大的参数数量，通过处理和理解海量数据，能够胜任一系列复杂的任务。其强大的原因在于庞大的参数数量和大量的数据训练。

Content generated by AI large model, please carefully verify (powered by aily)

References

十七问解读生成式人工智能

GPT是“生成式预训练变换器”（Generative Pre-trained Transformer）的缩写，是一种大型语言模型（LLM），也是生成式人工智能的重要框架。首个GPT由OpenAI于2018年推出。GPT模型是基于Transformer模型的人工神经网络，在大型未标记文本数据集上进行预训练，并能够生成类似于人类自然语言的文本。截至2023年，大多数LLM都具备这些特征，并广泛被称为GPT。而所谓的生成式预训练，其实是机器学习领域一个由来已久的概念。但是，直到2017年Google推出了Transformer模型，我们才见到了如BERT（2018年发布）和XLNet（2019年发布）这样的大型语言模型的诞生。这些模型都是基于预训练的转换器，但它们并不是为生成文本而设计，而是作为“仅编码器”使用。2018年，OpenAI发表了一篇名为《通过生成式预训练提高语言理解能力》的文章，首次介绍了基于转换器的生成式预训练模型（GPT）系统，即我们所说的“GPT-1”。[heading1]问题六、大模型是什么东西？[content]所谓的大模型，简而言之，就是那些拥有庞大参数数量的模型。它们通过处理和理解海量数据，能够胜任一系列复杂的任务。那么，为何将这些模型称作“大”模型呢？原因在于它们的规模之大，通常包含从数十亿到数千亿的参数。这些庞大的参数集合赋予了模型强大的学习和记忆能力，使其在处理各种任务时表现出色。我们可以从两个方面来进一步解读大模型的特点：1.大模型之所以强大，一个重要原因在于它们庞大的参数数量。这些参数，或者说“权重”，是模型在学习过程中不断调整的核心，它们帮助模型更深入地理解和生成数据。2.大模型的训练离不开大量的数据。无论是文本、图像还是音频数据，都是大模型学习的基础。通过对这些数据的深入学习，模型能够掌握丰富的知识和技能。

机器学习-Transformer的基本工作原理

大家玩GPT应该有一段时间了，我们都知道GPT的全称是“Generative Pre-trained Transformer“，前两个词比较好理解，Transformer是个相对专业的概念。这篇文章我们就主要讲一下Transformer的工作原理。下面的内容涉及一些线性代数和概率学知识，我在具体的计算过程里面有一些解释，大家也可以用AI工具针对性学习一下相关的概念，理解起来会容易一些。

走入AI的世界

总结一下，以上这段讨论，你要重点记住这句话：模仿人类大脑结构的AI，也自然而然的表现出人的特征，很多我们应对大模型回答不及预期的解决之道，也和人与人交流沟通的技巧如出一辙，息息相关。关于这一点，我们会在后续各种真实案例的分析拆解中再来讨论。GPT的全称是生成式预训练转换器模型（Generative Pre-trained Transformer），他的名字里就蕴含了大量重要的信息，接下来我们来聊聊GPT这三个字母的分别含义：图14 Generative Pre-trained Transformer生成式（Generative）：所谓生成式，说的是大模型是根据已有的输入为基础，不断计算生成下一个字词（token），从而逐字完成回答的过程。这一过程，像极了一个单字接龙的游戏，图15中给出了一个简单的例子做为说明：1.一开始我们给了大模型一些提示词Prompt，为了简化，在图中这个提示词只有一个单词：How；2.接下来，大模型会结合自己“大脑中存储的知识”进行计算推理，算出how后面接are这个单词的概率最大，于是输出are接在how后面；3.在已知how are的情况下，大模型再次推理计算，算出how are后面接you这个单词概率最大，于是输出you接在how are后面；4.不断重复上面步骤，每次大模型会多输出一个词（token），新的输出会和过去的输入一并成为新的输入，用来计算下一个词；5.直到计算出下一个词是[end of text]的概率最大，于是结束输出，回答结束（[end of text]是一个特殊的token，用来终止对话输出）